腾讯推出了一条大模型“高速公路”，大模型通信性能可提升10倍 | 最前线

作者：咏仪发布时间：2023-06-30

腾讯 AI大模型

作者 | 邓咏仪

编辑 | 苏建勋

你在和AI机器人的对话框中，敲下一行想问的问题：现在你是一位英语老师，请帮我写一封邮件……

AI机器人的回复光标，在对话框中闪动数秒——这几秒背后，是AI大模型正在经历一轮高速而密集的计算过程。

顾名思义，“AI大模型”指拥有巨大的参数量的模型，其训练和推理也需要巨大算力挑战。这对底层基础设施：芯片、网络、存储、计算的要求，达到了前所未有的高度，迫使基础设施经历一轮升级。

腾讯云副总裁、腾讯云网络总经理王亚晨

近日，腾讯云就首次对外完整披露自研高性能计算网络“星脉”，专门面向AI大模型训练。

高性能计算计算网络如同AI大模型的“高速公路”和管道，数据在其中快速流动、交换。高性能计算网络连接了大量的服务器，组成算力集群。网络、服务器互联互通，才能共同完成AI的训练任务。

但大集群并不等同于大算力。计算集群越大，产生的额外通信损耗越多。因此，对AI大模型的网络而言，大带宽、高利用率、信息无损，是其面临的核心挑战。

腾讯云自研的“星脉”，是服务于AI大模型的专属高性能计算网络。在交换机、通信协议、通信库以及运营系统等方面，腾讯在软件和硬件层面，都进行了升级和创新。

就具体参数而言，腾讯云的“星脉”网络支持单服务器从1.6T升级到3.2T，这如同将“高速公路”拓宽了两倍，能传输更多的数据。

带来的计算效果提升也是明显的。据腾讯云，“星脉”能够提升40%的GPU利用率，节省30%-60%的模型训练成本，为AI大模型带来10倍的通信性能提升。

来源：腾讯云

事实上，从传统的计算网络到如今的高性能网络，都是由关键的技术革新所驱动的。

以腾讯自身为例，腾讯的计算网络发展也经历了三大阶段：

一、互联网服务时期：腾讯的起家产品QQ和微信，促使腾讯建立起了一张的巨大的计算网络。就以QQ为例，在线时长超过1亿，对应的服务器规模就超过了10万。“此时，网络的走向是比较常见的’南北向流量‘——也就是外部的用户的访问需求为主。”腾讯云副总裁、腾讯网络平台部的总经理王亚晨表示。

二、云服务时期：腾讯云不仅要服务自家的业务需求，也开始对外向企业提供云服务。此时，底层计算网络的形态也会发生变化。

购买云算力的企业用户，相当于在腾讯云上“租”了一个个小房子。云时代需要传输的数据，也不只是外部访问需求（比如C端用户要看电影、购物等），而是出现了大量“东西向”流量。

数据中心之间的互访流量越来越多——比如企业用户需要调用自己在云上的各类数据，这些数据存放在腾讯云不同的格子中。这对网络要求也更高，比如时延要求比以前是10倍甚至更高提升。

三、AI大模型时期：到了大模型时期，训练大模型需要巨量的数据和算力，这对计算网络的带宽需要经历再一次提升。

比起外部访问的流量，AI大模型的从开发到应用主要会分为两个阶段，在训练阶段，大模型的网络需求，大多来自以服务器和服务器之间的流量——也就是“东西向”流量为主，而非以前的外部访问流量。

“如果说过去前两个阶段，我们是村村通，解决大规模部署和广覆盖的问题，到了第三个阶段的星脉网络，我们解决的是高速公路，全自动化、无拥塞的高速公路。”王亚晨打了个比方。

通用AI大模型的GPU算力基本要到数千张甚至万卡级别。如何在服务器中部署这样的“高速公路”？

王亚晨表示，腾讯云主要通过自研设备搭建告诉公路，包括自研的交换机、光模块等，可以做到更快迭代。

腾讯也给每台服务器配备了高性能通信库TCCL，相当于“导航”，感知到网络拓扑，感知到路径的拥塞情况，做一些通信加速。腾讯也自研了端网协同的TiTa协议，这相当于在出现拥塞问题时，让数据重新“排队”通过。

而对于整个计算网络，“星脉”配置了全栈网络运营系统，进行验收部署、故障处理和问题定位。对大规模服务器集群的管理需要长时间的积累，王亚晨表示，最早腾讯做一个定位都是以天为级别的，但如今星脉可以实现故障的自动诊断，可以把时间降到分钟级。

在“星脉”高性能计算网络基础上，如今腾讯已经进行大模型的相关训练。以万亿参数大模型为例，在前年，100G网络训练相同数据需要50天；但在今年上半年，腾讯用七天时间就可以完成相同的训练。

王亚晨表示，在未来，随着数据集、参数不断增加，腾讯也有计划推出星脉2.0版本，包括GPU的互联规模、带宽、计算加速等等环节。“到下半年，我们可能就会推出互联数据达到800G、1.6T带宽的解决方案。

相关资讯

周愚 2023-06-09

湖北高速公路版ChatGPT上岗，它是检验员、导航员、话务员……

“你好，随心。请问装载大蒜通行高速公路能免费吗？”“大蒜在《鲜活农产品品种目录》之中，合法合规装载，通行高速公路可以免费。”2024年1月1日，湖北交投随岳运营公司自主设计研发的湖北首个高速公路智能AI虚拟人…

ChatGPT

武汉发布 2024-01-07

BFT最前线|商汤科技发布大模型—商量；昆仑万维将推出大模型天工

BFT最前线|商汤科技发布大模型—商量；昆仑万维将推出大模型天工；王小川大模型产品命名为百川智能文 | BFT机器人 01商汤科技发布大模型商量4 月 10 日，商汤科技发布大语言模型——商量（SenseChat），其背后的 AI 大模型「日日新 SenseNova」，寓意为“苟日新、日日新、又日新“。和 ChatGPT 有些类似，商量作为一款聊天助手，具有语言理解、支持问答、解决复杂问题、提供定制化建议、创建文本等生成能力，同时也是一款不错的 AI 代码助手。02昆仑万维宣布即将推出大模型天工昆仑万维宣

ChatGPT 编程王小川商汤天工大模型

BFT白芙堂机器人 2023-04-12

腾讯推出了一条大模型“高速公路”，大模型通信性能可提升10倍 | 最前线

推荐体验

相关资讯

十倍提升大模型通信性能！腾讯云首次完整披露自研星脉高性能计算网络

76页PPT丨智慧高速公路整体解决方案（附下载）

Adobe生成式AI工具Firefly推出企业版，大企业可训练专属AI模型 | 最前线

湖北高速公路版ChatGPT上岗，它是检验员、导航员、话务员……

BFT最前线|商汤科技发布大模型—商量；昆仑万维将推出大模型天工

近期资讯

外媒：从AI到空中出租车，2024年这些技术令人印象深刻

新宝安新举措

一加Ace5曝光，跌至新低的一加Ace3Pro，非常值得体验！

推动大湾区生产要素流通再提速

银昕推出VANGUARD系列金牌电源：ATX 3.1标准、原生12V-2×6接口

15000元！这把纯铝键盘实在太贵了

12月25日股市必读：金博股份（688598）董秘有最新回复

税惠“春雨”浇灌 “新质沃土”生机勃发

调结构促消纳降电价

小米平板7即将在印度发布主打生产力国行早已开售

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响