AI大模型专题：大模型时代，智算网络性能评测挑战(附下载）

作者：勇敢的鹏子发布时间：2024-03-22

AI大模型人工智能

今天分享的是AI系列深度研究报告：《AI大模型专题：大模型时代，智算网络性能评测挑战》。

（报告出品方：中国移动研究院）

报告共计：18页

海量/完整电子版/报告下载方式：公众号《人工智能学派》

算和网是新型智算中心关键基础设施

智算中心是以GPU芯片为核心的计算基础设施和以高速以太网交换芯片为核心的网络基础设施的综合体，智能算力需求激增推动计算与网络基础设施建设不断布局。

网络成为AI算力瓶颈，以网强算对我国更加重要

AI大模型以算力集群分布式训练为基础，带来大量节点间通信消耗，组网规模、网络性能和可靠性决定集群有效算力，网络成为AI算力“瓶颈”，以网强算成为提升大模型训练效率的关键。

集群有效算力∝｛GPU单卡算力*总卡数*线性加速比*有效运行时｝。

智算中心网络概况

智算中心网络用于连接CPU、GPU、内存等池化异构算力资源，贯穿数据计算、存储全流程，网络性能增强对提升智算；

中心整体算力水平具有关键意义；与通用云计算网络不同，AI参数面网络要求极高，是业界关注焦点。

通算中心与智算中心流量模型差异性

通用算力以CPU芯片为主，业务种类多流量小，业务间相互独立；

智能算力以GPU、Al芯片等人工智能芯片为主，通信关系固定，流数量少流量大，分布式训练带来大量节点的同步突发，木桶效应明显。

通算中心流量模型：单个流量：数量多、带宽小、突发异步。累积流量：抖动幅度较小，具有随机性。

智算中心大模型（All-to-all）流量模型：单个流量：数量少、带宽大、突发同步。累积流量：波峰、波谷效应明显，具有周期性。

通算中心与智算中心网络差异性

业界主流通算中心与智算中心均采用spine-leaf架构，但两者端口速率、组网方式、网络协议均存在差异性。

通算中心组网方案：端口速率方面：服务器端口10GE/25GE并存，汇聚层从40GE向 100GE演进。服务器网卡数量：一机双卡。设备关系：交换机设备之间部署MC-LAG。组网形态：Leaf为盒式设备，Spine多为框式设备。

智算中心组网方案：端口速率方面：服务器端口200GE/400GE，汇聚层 400GE/800GE。服务器网卡数量：一机八卡。设备关系：交换机设备之间独立。组网形态：Leaf为盒式设备，Spine多为盒式设备。

智算网络技术评测面临的挑战

智算中心具有明显的通信特征，且AI技术的快速发展推动算、网软硬件技术的快速迭代升级，制定普适统一的智算中心网络性能评测体系仍面临诸多挑战。

节点规模：模拟GPU实际的计算、周期性通信，测试结果是否可以客观反映实际结果。仪表是否能支持千卡级、甚至万卡即模拟能力。

性能指标：测试仪端口、规模是否能匹配网络的演进速度。能够反映的新指标（有效带宽、长尾时延等）。

模型种类：基本的通信原语&通信原语不同的实现方式。支持大模型的种类、测试工具迭代速度是否能匹配。不同模型对网络的性能评价标准能否归一。

定制化：端网协同是趋势，需同时兼做网卡和网络。私有拥塞控制协议、传输协议等优化，是否具备灵活的可编程能力和定制化功能。

报告共计：18页

海量/完整电子版/报告下载方式：公众号《人工智能学派》

相关资讯

面向AI大模型的智算中心网络演进白皮书（附下载）

今天给大家带来【面向AI大模型的智算中心网络演进白皮书】报告内容节选如下：来源：中国移动关注公众号【数策智库】获取完整PDF电子版免责声明：以上报告均系本平台

AI大模型

数策集市 2023-06-01

AI大模型专题：网络大模型十大问题白皮书（附下载）

本文介绍了AI系列深度研究报告《AI大模型专题：网络大模型十大问题白皮书》。该报告共21页，提供了网络大模型的定义、应用场景和技术结构。网络大模型包括L0、L1和L2三层模型，具有较高的通用性、基础性和规模，能够在全网各领域通用，通过...

AI大模型

烟树晚雁 2024-03-07

AI算力专题：AI时代领先者，大装置+大模型推动AGI落地（附下载）

商汤是一家行业领先的人工智能软件公司，其人工智能算力系列深度研究报告共计28页。该公司长期投入于原创技术研究，并不断提升全栈式人工智能能力。其优势领域涵盖感知智能、决策智能、智能内容生成和智能内容增强等关键技术领域。

AGI 人工智能商汤

烟树晚雁 2024-02-07

AI大模型专题：落地为王（附下载）

本文介绍了AI大模型的发展趋势以及大模型的优势。大模型采用“预训练+下游任务微调”的方式，解决AI过于碎片化和多样化的问题，具备自监督学习功能，降低训练研发成本。在1750亿参数量和超大的45TB训练数据的支持下，ChatGPT模型一...

AI大模型 ChatGPT

烟树晚雁 2024-02-15

AI大模型专题：大语言模型能力测评报告2024（附下载）

该报告为《AI大模型专题：大语言模型能力测评报告2024》，共计43页，由极客传媒出品。报告指出，多家企业和机构按照相关规定完成备案和变更手续后，对公众全面开放，标志着大模型发展进入新阶段，加速推动大模型产业化应用。

AI大模型大语言模型

烟树晚雁 2024-01-23

AI大模型专题：大模型时代，智算网络性能评测挑战(附下载）

算和网是新型智算中心关键基础设施

网络成为AI算力瓶颈，以网强算对我国更加重要

智算中心网络概况

通算中心与智算中心流量模型差异性

通算中心与智算中心网络差异性

智算网络技术评测面临的挑战

推荐体验

相关资讯

面向AI大模型的智算中心网络演进白皮书（附下载）

AI大模型专题：网络大模型十大问题白皮书（附下载）

AI算力专题：AI时代领先者，大装置+大模型推动AGI落地（附下载）

AI大模型专题：落地为王（附下载）

AI大模型专题：大语言模型能力测评报告2024（附下载）

近期资讯

“失落”的《鱿鱼游戏2》：现象级IP与奈飞的命运纠缠

一年800亿，字节凶猛，追赶AI

“速成版”泡泡玛特，没有涨价自由

看一部就回本？短剧会员制走得通么？

合肥，再跑出百亿IPO

财富自由涨粉百万，初代网红选择扎堆翻红

从AI中找商机，XR内容创作也该迎来春天了

藏在“听歌报告”后的音娱平台现况

2024海外本土电商崛起，中国商家成“抢手货”

沪上阿姨，多线作战

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响