用心打造
VPS知识分享网站

微软Azure八小时大规模宕机:5个关键信息

本周,微软 Azure 出现了一次持续超过 8 小时的重大服务中断,影响范围覆盖微软旗下多项产品和服务。甚至至少有一家航空公司、一个机场以及一家电信巨头受到波及。
目前微软已经发布初步事件复盘报告(PIR),并公布了后续防范措施。

相比之下,此次故障虽然没有上周 AWS 宕机造成的损失规模大(AWS 那次故障估计带来数亿美元损失),但依旧让全球企业敲响警钟——云并非不会倒,关键业务仍需架构冗余。

微软Azure八小时大规模宕机:5个关键信息

事件影响:Azure 及多项微软服务大范围异常

北达科他州的 ABM Technology Group(CRN MSP 500强公司)的技术副总裁 Zac Paulson 在接受采访时表示:

“我们使用的一些供应商门户完全无法访问,看起来是在 Azure 上托管的。”

受影响的不仅包括 Azure,还涉及 Microsoft 365 产品链。虽然 ABM 深耕微软生态,但 Paulson 表示,上周 AWS 宕机时他们也遭遇问题,说明多云架构并不能完全避免风险。

“这种时候所有人都会真正意识到:每个关键系统到底跑在哪个云上。”

故障时间线:超 8 小时中断

微软报告显示:

  • 开始时间:周三 15:45 UTC
  • 结束时间:周四 00:05 UTC

故障核心为 Azure Front Door(AFD) ——微软的全球 CDN 与网络安全分发层。
导致大量微软服务延迟、超时、无法登录,包括:

  • Azure Active Directory B2C / Entra ID 功能
  • Azure Databricks、Azure SQL Database
  • Azure Portal 管理后台
  • Azure Virtual Desktop
  • Microsoft Copilot for Security
  • Microsoft Defender EASM
  • Microsoft Purview / Sentinel
  • 视频索引服务等

受影响企业包括:

  • Kroger
  • 阿拉斯加航空
  • 苏格兰议会(导致议会暂停投票)

根本原因:错误的租户配置变更

微软称此次事故由 “AFD 内部无意的租户配置更改” 引发。

简单来说:
一次错误的后台配置 → 影响 AFD 节点 → 节点异常被逐步剔除 → 流量挤爆剩余节点 → 全球范围访问异常。

微软采取的动作包括:

  • 阻止进一步配置更新
  • 回滚至“最后一次已知稳定”配置
  • 逐步恢复节点
  • 增加额外验证机制与回滚保护

关联历史:10 月曾出现类似 AFD 故障

10 月 9 日,微软也发生过 AFD 故障,影响欧洲、非洲、中东和亚太地区用户。

原因是:

清理租户时触发未知系统漏洞 → 生成错误元数据 → 保护机制被绕过 → AFD 节点崩溃

在那次事故后微软表示会“加强操作流程”。然而如今再次出问题,引发疑问:上次的补救措施是否不足?

微软称最新事件与上次是否相关仍在调查,但强调将进一步加固配置保护机制。

此外,微软计划在 12 月前完成 Azure Portal 的独立切换机制,避免 Portal 再受 AFD 影响。

行业反应:云可靠性与冗余再被讨论

多家微软解决方案提供商表示此次故障带来了业务中断:

Troinet CEO Wayne Roye:

“再高评价的云也达不到 100% 稳定。企业必须做好业务连续性和多重备份。”

Net Friends CEO John Snyder:

“SSO(单点登录)失败,让很多同事一天都在处理登录问题。”

云依然统治市场:停机≠信心崩塌

虽然云大厂频繁宕机,但财报显示市场信心依旧强劲:

企业 云业务收入增长
Microsoft Azure +39%
AWS +20%,年化收入 1320 亿美元

微软还与 OpenAI 进一步加深合作,OpenAI 追加了 2500 亿美元的 Azure 订单 ——近乎是对 Azure 的“最高信任票”。

这次 Azure 宕机再次提醒企业:

  • 云计算不是无敌的
  • 关键系统要备份、冗余、甚至多云部署
  • SSO、Portal、CDN 等基础服务失效时,连“能否登录后台”都可能成为问题

未来云基础设施还将持续强劲发展,但“云原生时代的可靠性设计”依旧是每家企业需要思考的课题。

赞(0)
未经允许不得转载;国外VPS测评网 » 微软Azure八小时大规模宕机:5个关键信息
分享到