对话腾讯云田丰：智算集群从万卡迈向十万卡组网难度大幅增加

作者：智东西发布时间：2024-12-17

作者｜依婷

编辑｜漠影

智东西12月5日报道，2022年ChatGPT面世即万众瞩目，又在两个月内获得了1亿注册用户，点燃了大众对AI的期待，也让业界看到了AI大模型技术广泛的应用前景。

两年间，AI大模型如雨后春笋般涌现。中国信通院数据显示，截至2024年7月，全球AI大模型数量为1328个（包含同一企业、同一模型的不同参数版本），中国大模型数量占比36%。行业对模型的研发和应用也已经从最开始的大语言模型，走到了多模态模型。而算力、网络等AI大模型赖以生存和发展的基础设施，仍需要不断优化。

在中国大模型进入所谓“洗牌年”的节点上，昨日，智东西等媒体和中国AI大模型独角兽MiniMax副总裁刘华、腾讯云北区云原生总经理田丰进行了交流。他们从双方公司的合作出发，谈及了算力、网络对AI大模型落地应用带来的影响。

一、多模态大模型期待更有性价比的算力

MiniMax成立于2021年12月，是“国产大模型六小虎”之一，自主研发了包括万亿参数的MoE文本大模型、语音和音乐大模型、图像大模型、视频大模型在内的多模态通用大模型。

成立至今三年，基于不同模态的通用大模型，MiniMax推出了智能助手“海螺AI”、AI内容社区“星野”“Talkie”等C端应用；MiniMax开放平台则为企业和开发者提供API服务。

采访中，刘华从AI大模型公司的角度出发，谈到了多模态大模型应用过程中不断提高的算力成本问题。

他说，以往的大模型处理的是文本任务，现在的大模型处理的是语音任务、视频任务；用token来计算的话，一个小视频的tokens比一篇文章的tokens高出太多。如果要让新的技术落地、让更多的企业或个人能够接受新技术，就必须确保大模型能够以非常有性价比的方式处理大规模的输入或输出。

二、大集群并不等于大算力，要优化资源利用率

自MiniMax成立以来，腾讯云就与其建立了合作关系，为其提供算力、网络等基础设施支持。田丰形容两家公司“是一起手牵手走到今天”，在大模型的发展过程中，“一起去解决难题，是双向奔赴的一个过程”。

站在云服务厂商的视角，田丰分享了这两三年来自己对客户需求变化的观察。

他说，大模型公司客户早期可能需要的是千卡集群，现在可能都是要上万卡，后续可能会到十万卡，“这个规模对我们的组网的能力、集群的运维，都是一个非常大的、全新的挑战，跟原来完全是不一样的”。

田丰拿“网络”举例。他称，训练万亿参数的大模型时，传统的网络协议容易造成拥堵、高延时。在这个过程中，0.1%的丢包率都会导致50%的续训效率的下降；中断恢复之后，需要从上一个续训点继续训练模型，这会给万亿规模的模型训练造成非常大的损失。

另外，田丰还提到，大集群并不等于大算力，算力不是靠简单地“堆”出来的，而是需要大量优化和调整GPU资源的利用率，以及网络传输通讯的效率。