ChatGPT爆火激发生成式AI热潮,掀起 AI 大模型领域的“千模大战”。随着大模型训练愈发深入,所涉及的参数规模愈发庞大,业界发现在提升数据中心算力的同时,强化数据中心运力也至关重要——高运力甚至已成为释放大算力的关键因素!
这不难理解,因为对于单卡GPU等AI计算设备来说,网络I/O能力已经是制约算力充分发挥的短板;当大模型进入千卡万卡集群时代后,大规模系统的算力性能和稳定性自然更加受到网络能力的制约。也就是说,网络吞吐率往往决定AI的算力性能,网络可靠性则决定AI训练的稳定性。
如何破局?在9月20日开幕的华为全联接大会2023期间,科大讯飞携手华为数据中心网络宣布启动AI运力底座联合创新项目,同时分享了双方在数据中心网络领域的合作成果,为业界呈现了一个面向AI大模型场景的高运力底座解决方案及应用实践。
讯飞识别大模型训练三大网络挑战:大规模,高吞吐,高可靠
在千帆竞技的大模型赛道,作为AI龙头企业科大讯飞推出的新一代认知智能大模型,讯飞星火认知大模型已经名声在外。在近期新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》,讯飞星火位列国产主流大模型测评榜首位。而在《麻省理工科技评论》中国发布的大模型评测报告中,讯飞星火更是被评为“最聪明”的国产大模型。
据科大讯飞基础设施总监张骁介绍,在讯飞星火认知大模型的训练过程中,团队识别到AI训练对于网络的诉求可以归纳为三个词:大规模,高吞吐,高可靠。
首先是大规模。AI大模型训练涉及的参数规模动则百亿千亿甚至万亿,这需要AI集群调动各计算节点资源,通过高速网络实现互联互通、相互协作才能完成训练任务。这意味着,无论是节点内部还是节点之间,都需要强大的网络去实现规模组网及高效部署。
其次高吞吐。集群架构下的AI大模型训练场景中会存在负载不均衡的情况,且设备网络规模越大,传统负载方式冲突会越严重。要想充分发挥各节点的强大算力提升AI训练效率,就必须确保网络的高吞吐率。这类似于,要想提高车辆的运行速度,在拓宽道路的基础上,还需要解决堵车的难题。
再次是高可靠。大模型训练是一个复杂的系统工程,从数据准备、模型预训练到模型训练,系统稳定运行十分重要,一旦出现网络故障导致训练中断将代价不菲,因而高可靠的网络基础设施是长稳训练的关键。
“星河”联“星火”,华为星河AI网络加速讯飞星火大模型训练
为了提升AI大模型的组网规模及其部署效率、AI训练效率、AI训练网络可靠性,科大讯飞与华为数据中心网络联合创新,利用后者创新的星河AI网络解决方案构筑一个大规模、高吞吐、高可靠的AI高性能数据中心网络,保障了AI大模型高效、稳定、可靠的训练。
首先,讯飞星火认知大模型采用华为数据中心交换机构建超大规模组网,支持了万亿参数的大规模训练。星河AI网络解决方案采用业界最高密的400GE和800GE接口,可以支持高达18000卡的大规模集群组网。
其次,讯飞星火认知大模型采用华为独创的AI加速器,基于华为独创的全局负载均衡NSLB算法、自动化开局和全栈可视运维技术实现算网实时协同调度,在提高网络吞吐的同时,能将网络有效吞吐从业界的50%提升到98%,将大模型训练效率提升20%(内部测试数据效果)。
再次,讯飞星火认知大模型依托华为独家网络数字地图,使能计算网络一体化运维,通信异常一键诊断,将训中排障效率提升了90%,大幅提高了训练的可靠性。
在高运力底座的加持下,依托在通用人工智能领域的持续深耕和系统性创新,科大讯飞于今年5月6日正式发布星火认知大模型,并在6月9日迅速完成迭代升级,又于8月15日重磅发布讯飞星火V2.0,以惊人的速度实现了AI大模型的快速训练与能力跃迁。
9月5日,讯飞星火认知大模型正式开放全民使用,14小时用户数便突破100万,迅速登上AppStore免费总排行榜第一。如今的讯飞星火认知大模型,已经具有文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力等7大核心能力,拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务。
强强联合继往开来,引领AI模型高性能、高安全网络创新突破
面向未来,为了抓住AI发展浪潮契机,抢占产业制高点,科大讯飞和华为数据中心网络继续深化合作,共同探索产业发展的新道路。为此,双方在本届华为全联接大会期间正式宣布“双子星计划”,启动AI运力底座联合创新项目,共同打造面对AI大模型场景的最佳数据中心网络解决方案。
根据计划,科大讯飞和华为数据中心网络、华为网络安全将继续携手在AI高性能网络的快速部署、极致吞吐、高效运维、安全可靠等四个方向上寻求突破。三方将凝心聚力,共同推动AI大模型创新变革,为AI大模型接入访问保驾护航,通过行业实践和验证加快AI产业化落地,引领社会发展的新进程。
例如,随着越来越多用户通过各种智能应用接入访问AI大模型,面向智算中心与海量用户之间的高效互联,双方将致力于构建弹性高并发的网络能力,支持弹性多路径调度算法,从而使得网络通信的性能最大化,有效地解决网络拥塞问题,减少网络延迟,提高网络通信的可靠性,使得即使是在遥远的乡镇山村也能顺畅享受AI的魅力。
会上,华为还联合中国信息通信研究院、科大讯飞正式发布了《星河AI网络白皮书》(以下简称白皮书),阐述了星河AI网络在AI大规模参数计算场景下的广泛应用前景,并从AI业务的发展趋势、网络架构和关键技术创新三个方面展示星河AI网络在人工智能产业的技术领导力,为构建面向AI大模型的高性能训练网络提供参考。
小结:
智能经济是数字经济发展的新阶段。有报告预测,到2030年,全球智能经济的价值将达到18.8万亿美元。对于驱动智能未来的关键要素,业界已基本达成共识:AI大模型将决定智能经济的高度,数据价值挖掘决定智能经济的深度,而运力、算力和存力协同发展则将决定智能经济的厚度。
从中可见,科大讯飞携手华为构筑AI大模型高运力底座,是在面向AI大模型掀起的智能经济大浪潮,“以网强算”加速行业智能化,即以高运力释放AI时代的高算力,赋能千行百业智能化跃迁。相信随着“双子星计划”的深入推进,双方必将能为业界构筑更好的AI大模型高运力底座,加速释放智能经济的巨大价值!