本周,微软 Azure 出现了一次持续超过 8 小时的重大服务中断,影响范围覆盖微软旗下多项产品和服务。甚至至少有一家航空公司、一个机场以及一家电信巨头受到波及。
目前微软已经发布初步事件复盘报告(PIR),并公布了后续防范措施。
相比之下,此次故障虽然没有上周 AWS 宕机造成的损失规模大(AWS 那次故障估计带来数亿美元损失),但依旧让全球企业敲响警钟——云并非不会倒,关键业务仍需架构冗余。

事件影响:Azure 及多项微软服务大范围异常
北达科他州的 ABM Technology Group(CRN MSP 500强公司)的技术副总裁 Zac Paulson 在接受采访时表示:
“我们使用的一些供应商门户完全无法访问,看起来是在 Azure 上托管的。”
受影响的不仅包括 Azure,还涉及 Microsoft 365 产品链。虽然 ABM 深耕微软生态,但 Paulson 表示,上周 AWS 宕机时他们也遭遇问题,说明多云架构并不能完全避免风险。
“这种时候所有人都会真正意识到:每个关键系统到底跑在哪个云上。”
故障时间线:超 8 小时中断
微软报告显示:
- 开始时间:周三 15:45 UTC
 - 结束时间:周四 00:05 UTC
 
故障核心为 Azure Front Door(AFD) ——微软的全球 CDN 与网络安全分发层。
导致大量微软服务延迟、超时、无法登录,包括:
- Azure Active Directory B2C / Entra ID 功能
 - Azure Databricks、Azure SQL Database
 - Azure Portal 管理后台
 - Azure Virtual Desktop
 - Microsoft Copilot for Security
 - Microsoft Defender EASM
 - Microsoft Purview / Sentinel
 - 视频索引服务等
 
受影响企业包括:
- Kroger
 - 阿拉斯加航空
 - 苏格兰议会(导致议会暂停投票)
 
根本原因:错误的租户配置变更
微软称此次事故由 “AFD 内部无意的租户配置更改” 引发。
简单来说:
一次错误的后台配置 → 影响 AFD 节点 → 节点异常被逐步剔除 → 流量挤爆剩余节点 → 全球范围访问异常。
微软采取的动作包括:
- 阻止进一步配置更新
 - 回滚至“最后一次已知稳定”配置
 - 逐步恢复节点
 - 增加额外验证机制与回滚保护
 
关联历史:10 月曾出现类似 AFD 故障
10 月 9 日,微软也发生过 AFD 故障,影响欧洲、非洲、中东和亚太地区用户。
原因是:
清理租户时触发未知系统漏洞 → 生成错误元数据 → 保护机制被绕过 → AFD 节点崩溃
在那次事故后微软表示会“加强操作流程”。然而如今再次出问题,引发疑问:上次的补救措施是否不足?
微软称最新事件与上次是否相关仍在调查,但强调将进一步加固配置保护机制。
此外,微软计划在 12 月前完成 Azure Portal 的独立切换机制,避免 Portal 再受 AFD 影响。
行业反应:云可靠性与冗余再被讨论
多家微软解决方案提供商表示此次故障带来了业务中断:
Troinet CEO Wayne Roye:
“再高评价的云也达不到 100% 稳定。企业必须做好业务连续性和多重备份。”
Net Friends CEO John Snyder:
“SSO(单点登录)失败,让很多同事一天都在处理登录问题。”
云依然统治市场:停机≠信心崩塌
虽然云大厂频繁宕机,但财报显示市场信心依旧强劲:
| 企业 | 云业务收入增长 | 
|---|---|
| Microsoft Azure | +39% | 
| AWS | +20%,年化收入 1320 亿美元 | 
微软还与 OpenAI 进一步加深合作,OpenAI 追加了 2500 亿美元的 Azure 订单 ——近乎是对 Azure 的“最高信任票”。
这次 Azure 宕机再次提醒企业:
- 云计算不是无敌的
 - 关键系统要备份、冗余、甚至多云部署
 - SSO、Portal、CDN 等基础服务失效时,连“能否登录后台”都可能成为问题
 
未来云基础设施还将持续强劲发展,但“云原生时代的可靠性设计”依旧是每家企业需要思考的课题。

