请输入图片描述

前天是aws,昨天是cloudflare,今天是谁?


大概昨晚八点多的时候,刚下班吃饱饭回到宿舍,然后发现客服群炸了,值班技术早就忙成了DOGE,于是乎我也紧急介入,联上vpn打开后台一看,尼玛,米国那边的服务状态全红了。
然后讨论了下,第一反应的先将海外的服务切DNS回国,然后执行操作的时候发现API就是请求不通,最后想去控制台手动改的时候才发现CF后台也挂了,没办法谁叫当年CTO决定把DNS也托管到CF,只能打电话去米国让团队改ns记录,然后等生效的期间再慢慢安抚客户情绪了。
然后空闲下来打开我自己的网站才发现,做站做了那么久,真的很少见中间那个是打叉的……
请输入图片描述
然后打开 Downdetector,果然,全球一大半知名的网站都不好受。
Cloudflare作为全球排名前列的CDN提供商,一直是个赛博活佛的存在。便宜、好用、功能全。CDN、DNS、DDoS 防护、边缘计算,一条龙服务,价格还香。久而久之,为了省钱和省心,出海和本身就在海外的服务都默认用Cloudflare了。结果这种级别的服务,一挂就是影响一大片。
到今天,他的故障复盘出来了,原文点这里

这次Cloudflare故障的主要原因是数据库权限的变更,导致生成Bot管理配置文件时出现重复数据,文件变得比预期大。结果文件太大,触发了Bot管理模块的一个BUG,导致HTTP 5xx错误,所有正常流量都被认为是恶意Bot,然后通通拦在了系统外面,然后它内部也是依赖这套系统,导致影响了很多核心服务,包括网站访问、Workers KV、Access和Turnstile。开始时误以为是DDoS攻击,但后来发现其实是配置文件的问题。修复后,Cloudflare表示会加强系统的容错能力,防止类似问题再发生。

还是那套熟悉的说辞,每次出事后都是“百年难遇”,只能说咱们都是吃这碗饭的,懂得都懂,不要以为大厂、关键基础设施就稳得一批。互联网正加速集中化,为了降低成本,我们把关键服务交给了少数几家公司。这种便利背后,是巨大的系统性风险。

最后,幸亏人工智能还没取代底层的代码民工,要不然……
请输入图片描述