微软称消防系统故障导致Azure中断

9月29日,微软公司在欧洲地区的一个数据中心消防系统意外的释放了灭火气体,引发了一系列不幸事件,导致客户的Azure云出现中断。

微软称消防系统故障导致Azure中断
微软称消防系统故障导致Azure中断

该事件被微软Azure工程师称为“存储相关事件”,导致了该公司在北欧数据中心中的客户托管虚拟基础架构出现故障,他们将此次事件的原因归咎于,数据中心灭火系统在定期维护期间所发生的意外事故。

发布于Azure状态页面上的事件报告,是这样描述这场事故的:

在常规的定期灭火系统维护中,一场意外事故爆发了,消防系统释放出了灭火剂。而当灭火扑救被触发时,导致了空气处理单元(AHU)自动关闭。尽管数据中心的状况得到重新确认,AHU正在重启,其受影响的隔离区的环境温度仍高于正常的运行参数。而受影响区域的某些系统会在内部热健康监测的触发下自动停机或重新启动,以防止这些系统过热。

在意外的气体释放发生35分钟之后,工作人员重新将空气处理器进行了恢复,环境温度也恢复到正常的运行水平,同时修复了所有的系统。但是由于某些地区的温度变化,一些服务器和存储单元没有在控制下进行关机,这意味着需要花费更多的时间对这些系统进行故障排除和恢复。

总而言之,在故障持续了7小时之后,消防系统最终关闭,同时依赖于此的存储规模单元和服务也已恢复正常。依赖受影响的存储资源的服务包括虚拟机,云服务、Azure备份和其他10项服务等。这一事故所产生的影响包括延迟、错误,以及服务停用。

这种故障情况对云服务提供商来说已如家常便饭,微软表示,在多个独立硬件集群中部署冗余虚拟机的客户将不会受到网络中断的影响。这款具有高可用性功能的特定Azure被称为“可用性集群”。

尽管在IT基础设施(物理或虚拟)中建立一定程度的冗余是一个明智之举,但是成本较高,而且一些公司往往为了避免运行非重要应用程序所带来的额外成本,不会选择这么做。

除了可用性集群,Microsoft Azure最近又开始推出可用性区域,多个独立数据中心都集中在这个单云可用区域内。目前,只有两个地区拥有这一多区域预览版,其中一个在北弗吉尼亚州,另一个在西欧。

Azure北欧区域托管在了都柏林的Microsoft数据中心。