出品|搜狐科技
作者|郑松毅
编辑|杨锦
“算力将成为未来最宝贵的财富之一,会成为未来的‘货币。”——OpenAI CEO山姆·奥特曼曾这样定义算力的价值。而在这场硝烟四起军备竞赛中,马斯克也不愿做落后的一方。
The Information近日报道,马斯克向投资人透露了建造超级算力工厂(Gigafactory of Compute)的计划,为AI聊天机器人Grok的下一版本提供算力支持。
xAI 新建的“超级算力工厂”本质上是一个超级计算机,和 Meta 为训练 AI 模型而构建的 GPU 集群类似,即单个数据中心内通过线缆连接的众多服务器芯片,以便它们能以高效的方式同时运行复杂计算。
这是继特斯拉超级工厂、储能超级工厂后,马斯克建立的又一超级工厂。马斯克的超级计算工厂计划连接10万块英伟达H100 GPU。
相比之下,Meta的Research SuperCluster (RSC) 是目前世界上最大的AI超级计算集群,由约2.4万块英伟达H100组成。
马斯克的超级计算工厂建成后,规模至少是目前最大GPU集群的四倍。
据了解,这家超级计算工厂的选址最需要考虑的因素是电力供应,10万GPU规模的数据中心可能需要100兆瓦的专用电力。为了降低成本,其很可能建在特斯拉总部,德克萨斯州奥斯汀市。
每块英伟达H100 GPU售价高达3万美金,10万块总金额则高达30亿美元。算力竞争刻不容缓,xAI也正在加紧“筹粮”。
当地时间5月27日,xAI宣布获B轮融资60亿美元。本轮融资完成后,包括最新注入的现金在内,其估值将超过240亿美元。
从融资状况来看,外界给予了xAI这家初创公司相当看好。话说回来,马斯克此番大费周章,买马囤粮的操作是为哪般?超级计算机究竟能为大模型解决什么瓶颈问题?
第五代大模型的“入场券”
马斯克在2023年7月正式宣布xAI成立,xAI专注于人工智能技术发展,旨在向OpenAI和谷歌发起挑战。去年11月,xAI推出首款AI大模型聊天机器人Grok。
浙江大学计算机科学与技术学院教授汤斯亮向搜狐科技介绍,无论是模型训练还是用模型提供服务,都离不开算力的支持。当前最新的开源模型在通用能力上已经接近GPT-4为代表的第四代模型,因此从某种程度来说,目前的闭源第四代大模型基本已无技术“护城河”。更大规模、支持多模态输入、能力更强的第五代大模型(以GPT-5为代表以GPT-5为代表)将会形成新的技术壁垒,而在探索第五代大模型更多技术技术及其应用之时,算力尤为重要。
“马斯克现在的布局,是为了让Grok模型不掉出第一梯队。”
不光是xAI在布局超算,OpenAI和微软正在合作建造一个代号为“星际之门”(Stargate)的超级计算机项目,预计耗资高达1000亿美元,计划2028年上线。
“从xAI、微软等科技大厂争相布局算力基础设施的行动上来看,Scaling laws原理仍在主导现有大模型的开发,即更大(参数)规模的模型,在多个方面的性能表现仍在持续提升, 在‘大力’面前,‘奇迹’仍在发生,大算力支撑下的大模型能力想法还在被期待还未达到上限。”
很多人疑问,执着于追求模型规模的意义何在?
目前人工智能领域的普遍共识是越大的模型在泛化能力方面具有越大的优势,即在模型的训练优化过程中,大模型有更大的可能找到更优的结果。如深度学习中的“大乐透理论”所揭示的,模型越大包含的可能性就越多,就越能找到通向更强智能的“彩票”。这也解释了为什么业界一直在追求更大的模型规模。
汤斯亮解释道,尽管现在模型的规模在持续变大,但最新的模型在实际的训练和使用过程中大模型由神经网络构成,但在实际工作中,如同人类的大脑,只有一小部分神经元是激活高度活跃的。这种稀疏激活减少了计算的复杂性,从而提高模型效率计算量,因此模型的规模与其对应的算力并不一定成固定比例,但肯定是正相关的。
而想要追求更大规模的模型,拿得出足够的算力才算是拿到“入场券”。
他介绍,训练GPT-3所用算力约为1张英伟达A100(相当于3千到5千张英伟达H100 GPU),GPT-4所用算力约为GPT-3的10倍以上,即3万到5万块英伟达H100 GPU。下一代GPT-5的算力需求可能会是GPT-4的10倍。这样看来,10万块英伟达H100 GPU并不多。
值得注意的是,随着模型规模越发庞大,训练所需资源增加,今天AI赛道上的这些“玩家”都意识到了“抱团取暖”的道理。过去一年,美国已出现多个巨头+模型公司的深度联盟。如,微软+OpenAI,亚马逊+Anthropic等。
xAI此次也想借力于Oracle进一步提升大模型研发效率。Oracle是全球云服务市场的主要参与者之一,利用Oracle强大的云基础设施和数据管理能力,以支持xAI在人工智能研究和开发中的计算需求。
训练成本一直是倍受关注的问题,汤斯亮推测,“xAI基于运营成本考虑,可能会将算力托管在Oracle的云端。”
从叠卡到架构设计的较量
既然大家都在追求用更强的算力打造规模更大的模型,那是不是简单粗暴的叠卡(GPU),就能成为AI界的领袖了?
“当然不是”,汤斯亮肯定的回答道,“并不是说卡越多就越强,如何能把卡的算力充分利用,需要计算任务以及软硬件的相互协同。”
“越多的加速卡就意味着越多的卡间与集群间的通讯,以及更多的预处理,这些都将带来大量的额外开销。当额外开销增多的时候,加速就会受限。”
他打了一个比方,一个人就能很快完成的任务如果非要分给四个人去做,过程中开会拉齐进度的沟通成本和时间成本都会造成效率损失。“总的来说大模型的训练想要加速,不仅仅是靠增加加速卡的数量,也需要与之匹配的计算架构,以及与之匹配的计算任务,这样才能最大限度的利用算力增幅。”
“从总体算力来说,马斯克构建超级算力工厂肯定会带来算力大幅提升。现在最大的GPU集群有2.4万块英伟达H100 GPU,一下子提升4倍后,比如原来训练一个大模型需要一个月的时间,在最理想的情况下,现在用1周多的时间就训练完成了。”汤斯亮说。
谈及中国算力现状,汤斯亮坦言,国内能拿得出这个算力数量级的卡的厂商少之又少。就算有这些卡,也无法都拿出去训练大模型,因为还要用于支持别的业务。
这是一个在全球AI算力竞争特殊时期,充满矛盾感的故事——它激烈又沉默,团结又精明,美好又残酷。