阿里云崩溃复盘
阿里云崩溃复盘
Kuka概况
在2023.11.12阿里云大部分产品出现崩溃的情况,以下是官方的回复
尊敬的客户:您好!北京时间2023年11月12日 17:44起,阿里云监控发现云产品控制台访问及API调用出现异常,阿里云工程师正在紧急介入排查。非常抱歉给您的使用带来不便,若有任何问题,请随时联系我们。
17:50 阿里云已确认故障原因与某个底层服务组件有关,工程师正在紧急处理中。18:54 经过工程师处理,杭州、北京等地域控制台及API服务已恢复,其他地域控制台服务逐步恢复中。19:20 工程师通过分批重启组件服务,绝大部分地域控制台及API服务已恢复。19:43 异常管控服务组件均已完成重启,除个别云产品(如消息队列MQ、消息服务MNS)仍需处理,其余云产品控制台及API服务已恢复。20:12 北京、杭州等地域消息队列MQ已完成重启,其余地域逐步恢复中。21:11 受影响云产品均已恢复,因故障影响部分云产品的数据(如监控、账单等)可能存在延迟推送情况,不影响业务运行。
前述故障影响范围说明:云产品控制台、管控API等功能受到影响,大部分产品如ECS、RDS、网络等的实际运行不受影响。OSS、OTS、SLS、MNS等产品的服务受到影响。
此次故障的恢复时间约为3.5小时,涉及多个地区和Region,特别是北京和杭州这两个阿里最重要的区域。可见此次故障影响非常严重。不仅对自己的产品造成了较大的损失,对客户如瑞幸咖啡、蜜雪冰城、人人、芒果等造成的赔偿也将是一笔不小的数目。
影响范围
- OSS、OTS、SLS、MNS 等产品的部分服务受到影响,大部分产品如 ECS、RDS、网络等运行不受影响。
- 云产品控制台、管控 API 等功能受到影响。
时间
2023年11月12日17:39~19.20,故障时间为 1 小时 41 分。
问题
2023 年 11月 12 日 17:39 起,阿里云云产品控制台访问及管控 API调用出现异常、部分云产品服务访问异常,工程师排查故障原因与访问密钥服务 (AK)异常有关。工程师修订白名单版本后,采取分批重启 AK 服务的措施,于 18:35 开始陆续恢复,19:20 绝大部分 Region 产品控制台和管控 API 恢复。
处理过程
2022.11.12
17:39
阿里云云产品控制台访问及管控 API 调用出现异常。
17:50
工程师确认故障是 AK 服务异常导致,影响云产品控制台、管控 API 调用异常,以及依赖 AK 服务的云产品服务运行异常。
18:01
工程师定位到根因
18:07
开始执行恢复措施,包括修订白名单版本、重启 AK 服务。
18:35
杭州等 Region 开始恢复正常。
19:20
绝大部分 Region 的云产品控制台和管控 API 调用恢复正常。
原因
访问密钥服务 (AK)在读取白名单数据时出现读取异常,因处理读取异常的代码存在逻辑缺陷,生成了一份不完整白名单,导致不在此白名单中的有效请求失败,影响云产品控制台及管控 API 服务出现异常,同时部分依赖 AK 服务的产品因不完整的白名单出现部分服务运行异常。
改进措施
- 增加 AK 服务白名单生成结果的校验及告警拦截能力。
- 增加 AK 服务白名单更新的灰度验证逻辑,提前发现异常。
- 增加 AK 服务白名单的快速恢复能力。
- 加强云产品侧的联动恢复能力。 下一步阿里云将在此次故障复盘和整改措施基础上,继续深入做好风险隐患排查工作,举一反三,梳理行程问题清单逐项整改。