昨日(11月12日),两起“故障”备受关注。
晚间,阿里云疑似出现故障,“阿里全系产品崩了”“淘宝又崩了”“闲鱼崩了”“钉钉崩了”“阿里云盘崩了”等话题相继登上微博热搜;早些时间的下午时段,OpenAI表示,ChatGPT和其他一些服务出现故障,正在调查各种服务宕机原因。
截图自微博
阿里应用故障或与数据中心存储系统有关
据网友实测,阿里系应用故障范围涵盖阿里云、阿里云盘、淘宝、天猫、闲鱼、饿了么、钉钉、语雀等,其中钉钉等应用直接无法打开,淘宝、天猫、闲鱼等则是交易系统故障。网友对此吐槽表示,双11退单多;希望工作日崩等。
截图自微博
多家媒体报道表示,在一个阿里云客户服务支持相关的钉钉官方群内,相关管理员发布公告称,11月12日17:44起,阿里云产品控制台访问及API调用出现使用异常,阿里云工程师正在紧急介入排查。
根据媒体报道,阿里方面消息,19:20左右,经工程师紧急处理,阿里旗下淘宝、钉钉、阿里云盘等APP已全面恢复。
分析则指出,此次故障的原因或许是IO HANG,即输入/输出挂起。这类故障通常与数据中心的存储系统有关,可能是由于硬件故障、软件错误、网络问题或系统资源限制引起的。在IO HANG的情况下,数据的读写操作无法完成,导致系统功能受限或完全停止响应。
此类故障的影响通常较为广泛,因为现代云计算服务依赖于大量的数据读写操作来支持各种应用和服务。一旦发生IO HANG,就会影响到整个数据中心的运作,尤其是在云计算环境中,一个节点的故障便可能迅速影响到整个网络。此外,故障还可能导致数据损坏或丢失,增加数据恢复和系统修复的难度。
ChatGPT在1周内3次故障
另一起事故——ChatGPT等服务出现故障后不久,OpenAI在网站表示,已将四项服务的故障问题解决。API、ChatGPT、Labs和Playground等服务此前中断,现已正常运行。
事故具体事故原因并未对外透露,不过,外界猜测这与近期ChatGPT故障频发原因类似。1周时间内,ChatGPT已经出现多次故障,暴露了其在算力、网络、安全等方面面临较多挑战,亟需提升算力基础设施支撑能力,提高安全防护能力。
美东时间11月8日,从早上9点开始,大量网友报告无法使用OpenAI的ChatGPT和API(应用程序编程接口)。根据网络状况监测网站Downdector的数据,整个大规模故障时间持续了约2个小时。OpenAI的CEO山姆·奥特曼(Sam Altman)在X(原推特)上公开致歉,称用户对于公司前一天发布的新功能的使用量远超预期。
11月8日晚间,ChatGPT和API再次出现了有时无法打开的问题。这次,OpenAI表示是受到了DDoS(分布式拒绝服务)攻击,在状态页上更新称:“由于DDoS攻击造成了异常流量模式,我们正在处理其导致的周期性停机。我们将持续努力缓解这种情况。”
由此来看,在数据中心、云计算、人工智能技术的支撑下,部分软件已经深入到社会生产、生活中,也因此,一旦出现故障,势必将造成较为严重的影响。而想要解决相应问题,必须提升算力供给能力、算力基础设施建设能力、网络安全能力,这一过程中,保障数据中心安全性是重中之重。
定于2023年12月13日在北京国家会议中心举行的第十八届中国IDC产业年度盛典(IDCC2023)数据中心服务稳定与可靠性专题论坛将基于安全基本需求,通过案例、产品、应急方案的分享,风险的预估及防范,有效提升数据中心服务安全可靠性,以降低软件故障率,更好地服务于社会生产、生活。
欢迎报名,现场参与!
| 文章来源:中新经纬、券商中国等
• END•
IDC行业市场研究
部分一线城市市场增速下滑超9% 数据中心供需、价格将呈何种走向?
部分一线城市价格下跌10% 数据中心正发生哪些变化?
上架率近60%!未来三年中国IDC行业市场环境解析
【专栏】精品在读(点击进入)
数据中心新增CUE指标!工信部等六部门重磅新政
网络传输比快递慢4天 数据中心建设不能只看算力
狂砸7亿购买智算服务器 味精行业也要拼算力了?