当前位置:首页|资讯|阿里巴巴|AI大模型

阿里云“双十一”后“崩了”,管理风险早已埋下

作者:付亮的竞争情报应用发布时间:2024-03-03

原标题:阿里云“双十一”后“崩了”,管理风险早已埋下

今年双十一期间,阿里巴巴、淘宝、天猫等运行平稳,没想到第二天,11月12日下午,多个阿里系APP出现连不上服务器问题。据新浪科技转,阿里云客户服务支持相关的钉钉官方群内,相关管理员发布公告称,2023年11月12日17:44起,阿里云产品控制台访问及API调用出现出现使用异常。据阿里巴巴之后的消息,19:20左右,经工程师紧急处理,阿里旗下淘宝、钉钉、阿里云盘等APP已全面恢复,影响使用接近2小时,这在互联网公司属于灾难级的大事故。

一般重大保障时,要做双工备份。例如央视的春晚直播,背后支撑的是两个电信运营商。另一种模式是内部支撑,类似阿里云支撑阿里业务,阿里云在内部更多以成本中心的形式出现,通过内部的超量部署及完善的安全流程保证支撑稳定在高质量。这次阿里云事故,很可能与支撑保障有关。

抛开直接导致此次阿里云异常导致阿里系多款APP“崩了”的技术原因,今年阿里巴巴管理模式大调整也可能带来新的管理隐患。从管理层面,阿里全面推进各业务集团及下属公司独立,各实体之间“公司化协议运作”,各业务集团及具体条件的公司独立盈亏,结果必然是,各业务集团、公司加强了盈利项目、压缩了非盈利项目,跨业务集团的支撑也很难避免不会受到盈利目标的影响,这主要表现在阿里云、菜鸟对阿里重点业务“淘天集团”电商业务的支撑上,尤其实阿里云这样的幕后的保障支撑。

“双十一”是阿里电商的重头,作为支撑部门,在阿里云也是重中之重。阿里云“双十一”的重点保障,也是到11日当天半夜就可以庆功了,没想到,第二天工作时间差不多结束的时候,问题出现了……这时已经处于“双十一”重点保障后的“疲态期”,因为之前把更多的资源挪去保障“双十一”了,这导致事故隐患没有及时发现并处置。

其中,由于高管几次调整,业务团队变动,以及内部将更多精力从云向仍处于投入期的AI大模型转移,带来的业务稳定性降低,不确定性明显增加,再加上加强的利润考核逐步下压(降低成本,增加效益,以增加利润)减少了资源配置,这是导致阿里云业务支撑出现隐患的重要原因。

估计阿里巴巴集团、阿里云智能集团的高管也没想到,扛过了“双十一”,一松懈就出事了。

类似的案例不少,电信运营商近期的几次故障,也都与重点保障无关。重点保障能顶住,但大幅减少了设备冗余、高素质人员冗余,反倒是在压力小的时候,一个小故障或bug,就可能带来很大的连锁反应。希望三大电信运营商能吸取教训,在制定2024年计划时,略微放慢新建网络的速度,而在运维保障上投入更多资源。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1