微软Azure八小时大规模宕机：5个关键信息

本周，微软 Azure 出现了一次持续超过 8 小时的重大服务中断，影响范围覆盖微软旗下多项产品和服务。甚至至少有一家航空公司、一个机场以及一家电信巨头受到波及。
目前微软已经发布初步事件复盘报告（PIR），并公布了后续防范措施。

相比之下，此次故障虽然没有上周 AWS 宕机造成的损失规模大（AWS 那次故障估计带来数亿美元损失），但依旧让全球企业敲响警钟——云并非不会倒，关键业务仍需架构冗余。

微软Azure八小时大规模宕机：5个关键信息

事件影响：Azure 及多项微软服务大范围异常

北达科他州的 ABM Technology Group（CRN MSP 500强公司）的技术副总裁 Zac Paulson 在接受采访时表示：

“我们使用的一些供应商门户完全无法访问，看起来是在 Azure 上托管的。”

受影响的不仅包括 Azure，还涉及 Microsoft 365 产品链。虽然 ABM 深耕微软生态，但 Paulson 表示，上周 AWS 宕机时他们也遭遇问题，说明多云架构并不能完全避免风险。

“这种时候所有人都会真正意识到：每个关键系统到底跑在哪个云上。”

故障时间线：超 8 小时中断

微软报告显示：

开始时间：周三 15:45 UTC
结束时间：周四 00:05 UTC

故障核心为 Azure Front Door（AFD） ——微软的全球 CDN 与网络安全分发层。
导致大量微软服务延迟、超时、无法登录，包括：

Azure Active Directory B2C / Entra ID 功能
Azure Databricks、Azure SQL Database
Azure Portal 管理后台
Azure Virtual Desktop
Microsoft Copilot for Security
Microsoft Defender EASM
Microsoft Purview / Sentinel
视频索引服务等

受影响企业包括：

Kroger
阿拉斯加航空
苏格兰议会（导致议会暂停投票）

根本原因：错误的租户配置变更

微软称此次事故由 “AFD 内部无意的租户配置更改” 引发。

简单来说：
一次错误的后台配置 → 影响 AFD 节点 → 节点异常被逐步剔除 → 流量挤爆剩余节点 → 全球范围访问异常。

微软采取的动作包括：

阻止进一步配置更新
回滚至“最后一次已知稳定”配置
逐步恢复节点
增加额外验证机制与回滚保护

关联历史：10 月曾出现类似 AFD 故障

10 月 9 日，微软也发生过 AFD 故障，影响欧洲、非洲、中东和亚太地区用户。

原因是：

清理租户时触发未知系统漏洞 → 生成错误元数据 → 保护机制被绕过 → AFD 节点崩溃

在那次事故后微软表示会“加强操作流程”。然而如今再次出问题，引发疑问：上次的补救措施是否不足？

微软称最新事件与上次是否相关仍在调查，但强调将进一步加固配置保护机制。

此外，微软计划在 12 月前完成 Azure Portal 的独立切换机制，避免 Portal 再受 AFD 影响。

行业反应：云可靠性与冗余再被讨论

多家微软解决方案提供商表示此次故障带来了业务中断：

Troinet CEO Wayne Roye：

“再高评价的云也达不到 100% 稳定。企业必须做好业务连续性和多重备份。”

Net Friends CEO John Snyder：

“SSO（单点登录）失败，让很多同事一天都在处理登录问题。”

云依然统治市场：停机≠信心崩塌

虽然云大厂频繁宕机，但财报显示市场信心依旧强劲：

企业	云业务收入增长
Microsoft Azure	+39%
AWS	+20%，年化收入 1320 亿美元

微软还与 OpenAI 进一步加深合作，OpenAI 追加了 2500 亿美元的 Azure 订单 ——近乎是对 Azure 的“最高信任票”。

这次 Azure 宕机再次提醒企业：

云计算不是无敌的
关键系统要备份、冗余、甚至多云部署
SSO、Portal、CDN 等基础服务失效时，连“能否登录后台”都可能成为问题

未来云基础设施还将持续强劲发展，但“云原生时代的可靠性设计”依旧是每家企业需要思考的课题。

微软Azure八小时大规模宕机：5个关键信息

事件影响：Azure 及多项微软服务大范围异常

故障时间线：超 8 小时中断

根本原因：错误的租户配置变更

关联历史：10 月曾出现类似 AFD 故障

行业反应：云可靠性与冗余再被讨论

云依然统治市场：停机≠信心崩塌

相关推荐

优质VPS推荐

国内外VPS测评，分享最新行业资讯

推荐栏目