人工智能是数字经济的核心驱动力,AI大模型是人工智能的新引擎。AI大模型指通过在海量数据上进行预训练,能够适应多种下游任务的模型,具有强大的泛化能力、自监督学习功能和精度突破性能。其已经在自然语言处理、计算机视觉、气象预报等多个领域取得了令人瞩目的成果。大模型的发展是大势所趋,未来将会助推数字经济,为智能化升级带来新范式。
近年来,随着ChatGPT等生成式人工智能(AIGC)的突飞猛进,全球范围内的经济价值预计将达到数万亿美元。尤其在中国市场,生成式AI的应用规模有望在2025年突破2000亿元。这一巨大的潜力不仅吸引着业内领军企业竞相推出万亿、10万亿参数量级别的大模型,而且对底层GPU支撑规模提出了更高的要求,达到了万卡级别。然而,如何满足如此庞大规模的训练任务,对网络的规模、性能、可靠性和稳定性等方面提出了前所未有的挑战。
以GPT3.5为例,其训练过程依赖于微软专门建设的AI超算系统,由1万个V100 GPU组成的高性能网络集群,总计算力消耗约为3640PF-days。在这种情况下,寻求提供极致高性能网络已成为人工智能领域的重要研究方向之一。
本白皮书将从AI业务发展的历程出发,深入研究大模型对网络能力的需求,分析当前网络与业务需求的差距,并探索网络技术发展趋势以弥补这一差距。我们希望,通过本白皮书的研究和分析,为未来面向AI大模型的智能计算中心网络发展提供有益的参考和启示。
来源:中国移动研究院