据美国媒体Information报道,OpenAI和微软计划用千亿美金打造一款名为“Stargate”的超级计算机。
在选择网络方案时,即便微软是Infiniband的用户,OpenAI还是更加倾向使用以太网电缆而不是Infiniband电缆(简称IB),是什么让AI行业巨头弃用成熟的IB,选择以太网呢?
虽然Stargate的投资额巨大,但谁让以太网技术远比IB更具性价
比呢?苍蝇腿儿再小也是肉,更何况IB交换机是真贵,光价格一项就足以劝退很多厂商。
对于一些预算有限的企业或者初创公司来说,构建大规模的IB网络导致的成本过于高昂,承担不起。
IB技术的优越性自不必多提,但它的规模不易扩展。IB使用基于树状或者多层拓扑结构的架构,导致网络可扩展性受到限制,这是不能忽视的巨大缺陷。
在构建大规模的AI集群时,如果节点数量超过了IB网络的扩展能力,可能需要考虑其他网络技术或者拓扑结构进行补充,IB技术是一种专有的高性能网络技术,自成一套的通信协议与通用的以太网协议不兼容,这增加了部署和管理网络的复杂性。
AI应用构建网络正如发展中的城市构建交通网络一般,一开始车流量(网络流量)并不大,但随着城市发展(AI技术日新月异,产品迭代迅速),原有的(网络)基础设施必将承载更多压力,急需扩建。如果可扩展性差,不仅会增加扩建成本,也对日后的流量管理、其他服务集成造成麻烦,网络不足容易造成交通堵塞,在网络流量上的表现就是增加时间损耗,IB的低延迟性能将会受影响。
根据2024年年初Dell’Oro 的预测,部署交换机的支出人工智能后端网络的应用预计将使数据中心交换机市场扩大 50%,虽然IB预计将保持领先地位,但以太网预计将取得实质性进展,例如到2027年收入份额将增加20个百分点,3年内收入份额翻番,留给以太网的未来发展空间可观。
虽然大部分市场需求将来自一级云服务运营商,但预计2/3级和大型企业的需求量将很大,以头部公司为例,除了微软以外,亚马逊、Meta、腾讯这些头部公司机器学习场景用的都是以太网而非IB,当Stargate这么大规模的AI集群搭建也选择以太网技术,已然表明了大厂们对以太网的青睐。
在AI厂商最关心的网络性能领域,人工智能网络将加速向更高速度过渡,比如预计到2025年,人工智能后端网络大部分端口将达到800G。不同供应商将在AI应用这一巨大市场面前不断推出新的解决方案,让以太网技术更好地满足AI发展的需要,比如星融元就能提供性能媲美IB交换机的CX-N超低时延交换机,可以满足AI场景下低时延高带宽无损网络的需求。
不可否认,目前IB依旧是AI厂商构建网络的主要选择,但是对比IB,以太网低成本、易扩展、不易被厂商绑定的优势愈发明显。对于考虑部署网络的AI厂商来说,选择跟随大厂一起选择以太网,根据市场需求不断实现技术的更新迭代,会比选择大笔资金入手IB更划算。万一业务增加,选择IB意味着市场扩张后又得继续增加大笔资金、等待漫长的供货周期再对网络进行扩容,会增加部署和管理网络的复杂性。
参考资料:
https://www.delloro.com/news/ai-workloads-require-new-network-buildouts-expanding-data-center-switch-market-by-50-percent/
https://mp.weixin.qq.com/s/GM4H9SgBkhnq0Z7HXzh6tA
关注vx公号“星融元Asterfusion”,获取更多技术分享和最新产品动态。