通信世界网消息(CWW)阿里又上热搜了!双十一过后的第二天”阿里云盘崩了“”淘宝崩了“”钉钉崩了“”咸鱼崩了“......可谓是影响甚广!
11月12日晚,阿里云被曝云产品控制台访问及API调用出现异常,涉及产品包括淘宝、闲鱼、钉钉、阿里云盘等各业务,影响地区包括北京、乌兰察布、杭州、广州、成都、上海、香港等区域,以及美国、英国、韩国、日本等地区。
直到21:11阿里云发布消息称,受影响云产品均已恢复,因故障影响部分云产品的数据(如监控、账单等)可能存在延迟推送情况,不影响业务运行。故障持续时间尽然长达三个半小时,由此可见本次故障肯定不小。
不过,近几年阿里云“崩盘事故”时有发生。2018年6月,阿里云曾出现持续近半小时的故障,阿里云官方对外解释称:“我们在运维上的一个操作失误,导致一些客户访问阿里云官网控制台和使用部分产品功能出现问题。”2019年3月,阿里云出现大规模宕机,阿里巴巴旗下的淘宝、天猫、闲鱼等多个APP登录异常。2022年12月18日,阿里云位于香港的数据中心因制冷故障发生宕机事故。事故持续超过12个小时。而这一次,影响范围更广,涉及的产品更多。
就在刚刚结束的云栖大会上阿里巴巴集团创始合伙人、董事长蔡崇信表示,阿里巴巴是全球第一个自身所有业务都搬上云的大型互联网公司。目前中国80%的科技企业,国内一半的大模型公司都跑在阿里云上。阿里云要做AI时代最开放的一朵云。不知这次事故的发生,蔡崇信有何想法,未来阿里云技术发展战略是否有调整,如加大技术运维的投入等。
为何阿里云会发生如此重大事故,行业人士也纷纷提出猜想。可能是降本增效,可能是裁员,尤其是高级技术人才的丢失或是重大因素之一。据阿里巴巴第二季度的业绩报告,截至今年6月底,阿里巴巴的员工人数较3月份少了6541人,仅今年上半年,阿里巴巴裁员11065人。可能是某个架构设计有缺陷,由于某个底层组件调用异常导致,说明在关键节点上的单点故障的风险很大,大规模的网络集群架构中比较少见,或是某个架构设计存在风险。具体的原因还需等阿里最终发布的消息。