CrowdStrike 发布“蓝屏事件”根本原因分析,承诺未来不再重演
作者: CBISMB
责任编辑: 张金祥
来源: ISMB
时间: 2024-08-09 14:45
关键字: CrowdStrike
浏览: 3
点赞: 0
收藏: 0
近日,CrowdStrike发布了关于7月19日全球范围内数百万Windows系统崩溃事件的根本原因分析(附PDF下载),详细阐述了此次故障的起因及该公司正在采取的改进措施。

据CrowdStrike介绍,此次系统崩溃是由其Falcon Sensor软件的配置更新触发的。该更新通过“快速响应内容”流程分发,旨在快速应对新出现的网络威胁,并及时为客户提供新的检测数据。然而,在7月19日的更新中,首次提供了21个输入参数,而传感器实际只能处理20个参数,这一参数数量的不匹配导致了严重的系统崩溃问题。
具体来说,尽管新的进程间通信(IPC)模板类型中定义了21个参数,但在实际分发的内容解释器中,只提供了20个输入值进行比较。第21个未被处理的参数在之前的更新中从未使用过,且在传感器释放测试和负载测试中也没有被注意到。当新通道文件在7月19日分发时,内容解释器尝试使用这个额外的参数,导致了越界内存访问,最终使得系统崩溃,大量Windows设备出现蓝屏无法启动的现象。
此次事件对全球航空公司、医院、政府机构等多个领域造成了严重影响,数以百万计的设备受到影响,服务因蓝屏而中断。为了应对这一问题,CrowdStrike承诺将实施多项改进措施,以增强软件的弹性和稳定性。这些措施包括为新模板类型创建额外的测试,添加新模板实例交错分发的部署级别,以及允许客户对其系统上快速响应内容的交付进行一定程度的控制。
此外,CrowdStrike还聘请了两家独立软件安全供应商来审查Falcon Sensor代码、端到端质量控制和发布流程,以确保类似问题不再发生。据该公司透露,截至7月29日,受此次中断影响的所有Windows系统中约有99%已恢复上线,预计几乎所有系统现已恢复正常使用。
此次事件再次凸显了网络安全领域的重要性以及技术更新中严格测试和验证的必要性。CrowdStrike表示将吸取教训,不断提升软件质量和安全性,为全球客户提供更加可靠的服务。