日常XVI-OVA Ⅱ 关于云服务的那点事

前天是aws，昨天是cloudflare，今天是谁？

大概昨晚八点多的时候,刚下班吃饱饭回到宿舍,然后发现客服群炸了,值班技术早就忙成了DOGE,于是乎我也紧急介入,联上vpn打开后台一看,尼玛,米国那边的服务状态全红了。
然后讨论了下,第一反应的先将海外的服务切DNS回国,然后执行操作的时候发现API就是请求不通，最后想去控制台手动改的时候才发现CF后台也挂了，没办法谁叫当年CTO决定把DNS也托管到CF，只能打电话去米国让团队改ns记录，然后等生效的期间再慢慢安抚客户情绪了。
然后空闲下来打开我自己的网站才发现，做站做了那么久,真的很少见中间那个是打叉的……

然后打开 Downdetector，果然，全球一大半知名的网站都不好受。
Cloudflare作为全球排名前列的CDN提供商，一直是个赛博活佛的存在。便宜、好用、功能全。CDN、DNS、DDoS 防护、边缘计算，一条龙服务，价格还香。久而久之，为了省钱和省心，出海和本身就在海外的服务都默认用Cloudflare了。结果这种级别的服务，一挂就是影响一大片。
到今天，他的故障复盘出来了，原文点这里

这次Cloudflare故障的主要原因是数据库权限的变更，导致生成Bot管理配置文件时出现重复数据，文件变得比预期大。结果文件太大，触发了Bot管理模块的一个BUG，导致HTTP 5xx错误，所有正常流量都被认为是恶意Bot，然后通通拦在了系统外面，然后它内部也是依赖这套系统，导致影响了很多核心服务，包括网站访问、Workers KV、Access和Turnstile。开始时误以为是DDoS攻击，但后来发现其实是配置文件的问题。修复后，Cloudflare表示会加强系统的容错能力，防止类似问题再发生。

还是那套熟悉的说辞，每次出事后都是“百年难遇”，只能说咱们都是吃这碗饭的，懂得都懂，不要以为大厂、关键基础设施就稳得一批。互联网正加速集中化，为了降低成本，我们把关键服务交给了少数几家公司。这种便利背后，是巨大的系统性风险。

最后，幸亏人工智能还没取代底层的代码民工，要不然……

日常XVI-OVA Ⅱ 关于云服务的那点事

赞赏作者