Cloudflare已确认其核心服务中的一处程序错误导致周二发生重大中断事故,致使互联网大面积瘫痪,并影响到X、ChatGPT等服务的流量——具有讽刺意味的是,故障报告网站Downdetector也未能幸免。该公司首席技术官丹恩·克内希特(Dane Knecht)在服务恢复后迅速发布公开致歉,称此次事件“不可接受”,并将中断归因于常规配置更改触发了其机器人防护层的崩溃。

事故始于11月18日11时48分(UTC)左右,Cloudflare官方状态网站当时通报出现“内部服务退化”。随着问题蔓延,多个地区用户报告不仅无法访问由Cloudflare支持的网站,其Access和WARP服务也出现故障。该公司后续确定其机器人防御工具中的特定依赖项是问题根源。
“我们辜负了客户和整个互联网,”克内希特写道,“支撑我们机器人防护能力的某项服务中存在潜在程序错误,在常规配置更改后开始崩溃,进而引发网络及其他服务的大范围退化。这并非恶意攻击。”
至14时42分(UTC),Cloudflare已完成修复部署并开始恢复受影响组件。仪表板功能(包括分析与错误日志记录)在工程师持续监控残余故障期间,直至下午仍处于部分退化状态。作为缓解措施的一部分,伦敦地区的WARP访问权限也被临时暂停。
Cloudflare的机器人防护体系(包含Turnstile验证流程与JavaScript验证层)与众多知名网站及API的流量直接关联。由于这些系统不仅用于拦截恶意行为,还承担着合法用户的访问控制,该层面的故障即便在核心CDN或DNS基础设施正常运行时,仍可能导致大规模服务中断。
这已是一个月内影响主要网站的第三次重大中断。10月,亚马逊云服务(AWS)美国东部1区因DNS配置故障离线超两小时;数日后,微软Azure又遭遇严重服务中断。
这些事件引发更广泛的思考:被广泛使用的服务平台如何在大规模部署中处理内部服务故障与依赖项隔离?目前约19%的互联网流量依赖Cloudflare,而Azure与AWS分别占据云计算市场约24%和30%的份额。



