“应对生成式AI的发展和挑战,应该从算力系统、AI Infra、算法模型、产业生态四个层面创新,通过大模型算力效率、模型算法等创新有效提升基础大模型能力,以健康产业生态助推‘百模千行’应用落地。”浪潮信息高级副总裁刘军在以“智算力系统创新,加速生成式AI的产业发展”为题的演讲中表示。
该演讲来自于11月29日在北京举办的2023人工智能计算大会。会上,国际数据公司(IDC)与浪潮信息联合发布《2023-2024中国人工智能计算力发展评估报告》(以下简称《报告》)。
图丨刘军(来源:资料图)
据了解,自2018年以来,该《报告》已连续发布六次。其以洞察AI算力发展趋势为宗旨,从算力发展、地域分布、行业AI算力对比等维度出发,对中国人工智能计算力的发展进行了综合评估,以期为行业客户和技术提供商提供更加具有针对性的行动建议。
生成式AI,是今年《报告》的核心主题。其指出,在生成式AI的带动下,人工智能计算力的发展趋势迎来三大变化。首先是计算范式的改变。生成式AI的发展,驱动了算力基础设施的建设,也推进人工智能在云、边、端的覆盖。同时,应用场景的多样化,让底层基础设施呈现多元化发展态势。其次是产业动量的改变。生成式AI会重构人们的生活和生产方式,给自动驾驶、医疗等领域带来深入影响;AI算力、算法等产业变量也会助力算力生态链繁荣。最后是算力服务格局的改变。生成式AI与云计算的服务方式不同,企业在对其进行训练时,除了可以自行构建训练平台,还能通过租赁算力服务的方式满足训练需求,这为算力服务市场带来了新机会。
中国人工智能计算力城市排行,是该《报告》中值得关注的一大亮点。最新排行榜单显示,北京、杭州、深圳、上海和苏州排名前5位,广州、济南、合肥、重庆和成都则位列前十名。可以看出,排名的背后,是生成式AI对于不同区域在算力投资上的重要拉动。排名靠前的城市,不管是大模型企业的生态发展,还是包括智算中心平台的算力基础设施建设,都处于领先水平。
(来源:资料图)
中国人工智能应用场景的发展情况,则是该《报告》中的又一关键内容。目前,生成式AI应用正在快速发展,并进一步赋能到各行各业。从领域来看,知识管理、对话式应用、代码生成将是企业应用生成式AI的主要领域;从行业来看,互联网仍是生成式人工智能技术应用和研发的主战场,金融业较早使用生成式AI,制造业还处于早期阶段,医疗业的应用正在加速进行,能源、零售、教育等行业在不断推进。
总结该《报告》可以得出,生成式AI为我们带来了很多新机会。同时,也不可避免地会有新的挑战不断产生。那么,该如何从智算力系统层面上,应对生成式AI带来的发展和挑战呢?如上所说,浪潮信息认为应该从算力系统、AI软件基础设施、算法模型和产业生态这四个方面进行综合考虑。
算力系统方面,主要在计算、数据和互联上存在挑战。基于此,浪潮信息提供了如下解决之道。
其一,打造开放多元的AI算力平台。最新发布的G7新一代多元算力平台,可兼容国内外高端AI训练芯片,能应对目前的算力多元化趋势,为客户的AI业务提供良好的算力支撑。
其二,研发开放加速的计算架构,可实现896GB每秒的互联带宽,整个集群的性能加速比超过90%,能保障更大规模的集群扩展性能。
其三,开发一套能同时支持文件、大数据等非结构化协议的集群系统,满足AI时代的数据存储需求。另外,为保障数据的存取效率和质量,自研了SSD存储介质。
其四,打造支持51.2T交换容量的核心交换机。其性能与InfiniBand技术接近,但比后者具备更好的与企业级以太网兼容的特性。相较于传统的RoCE,网络带宽利用率能从60%提升到95%,满足生成式AI计算可靠运行的需求。
除了算力系统,也需要对AI Infra进行创新。
在这方面,浪潮信息开发了大模型智算软件栈OGAI“元脑生智”(Open GenAI Infra),以提升大模型训练和推理的效率,加速模型研发与落地应用。
事实上,目前行业还没有对AI Infra进行明确定义,只是形成了其是位于AI硬件之上的软件层的共识。对此,浪潮信息又持有怎样的观点呢?
“我们认为硬件之上、应用之下的都属于AI Infra层。”浪潮信息人工智能与高性能应用软件部AI架构师Owen ZHU表示,“它会是比较厚的软件技术栈,可能不仅仅是一层。”
浪潮信息将OGAI定义为五层,分别是L0基础设施层(智算中心OS)、L1系统环境(PODsys)、L2调度平台(AIStation)、L3模型工具(YLink)和L4多模纳管(MModel)。
此外,需要说明的是,AI Infra并非仅用于支撑大模型的训练和推理。“训练是第一步,也是最重要的一步。有了基础大模型之后,可能还要对它做微调,接着要对模型做管理、评估和对比分析,之后还要做应用开发等,这都需要AI Infra层的一些软件来支撑。”Owen ZHU说。
基础大模型的关键能力,是大模型在行业和应用落地表现的核心支撑。日前,浪潮信息正式发布“源2.0”基础大模型,包括1026亿、518亿、21亿三种不同参数规模,在编程、推理、逻辑等方面表现突出。
据了解,该模型主要具备以下三方面的优势。
算法上,在源2.0中引入了一种名为局部注意力过滤增强机制的新型注意力算法结构。该结构与经典的Attention结构相比,模型精度有明显提升,也大大加强了模型的学习能力。
(来源:资料图)
数据上,由于模型能力的提升在很大程度上取决于它所训练的数据,因此源2.0在数据构建方面做了诸多工作。据浪潮信息人工智能软件研发总监吴韶华介绍,源2.0的数据来源包含三个部分,分别是业界的开源数据、从互联网上清洗的数据和模型合成的数据。模型团队不仅对2018年至2023年的互联网数据进行了清洗,从总量12PB左右的数据中仅获取到约10GB的中文数学数据;为进一步弥补高质量数据集的匮乏,还基于大模型构建了一批多样性的高质量数据,并将其补充到训练数据集当中。
(来源:资料图)
算力上,提出了非均匀流水并行的高性能训练方法,能显著降低经典大模型在训练过程中,对AI芯片之间的通讯带宽需求,即便AI芯片间的通信带宽很低,也能获得较好的性能。
(来源:资料图)
目前,该模型已经实现全面开源。吴韶华指出:“在开源上强调的一点是,完全免费、完全可商用、不需要授权、最彻底的开源。我们鼓励用户去商用,去做各种各样的应用。”
此外,在11月29日的AICC 2023人工智能计算大会上,浪潮信息还公布了源大模型共训计划:针对开发者自己的应用或场景需求,通过自研数据平台生成训练数据并对源大模型进行增强训练,训练后的模型依然在社区开源。开发者只需要提出需求,说清楚具体的应用场景、对大模型的能力需求以及1~2条示例,由源团队来进行数据准备、模型训练并开源。
其实,早在2021年,浪潮信息就发布了参数规模为2457亿的中文巨量模型“源1.0”。从数据选择的层面上说,源2.0相比源1.0实现了较大的进化,对数据质量的把控更加严格。具体来说,首先,在构建源2.0数据集时,不再一味追求体量,而是注意控制数据质量;其次,会采用大模型生成一批高质量数据,并将其用到模型预训练中。
“我们认为,在数据多样性能够满足的前提下,数据的质量越高,训练的效果就越好。而且,当数据质量足够好的时候,哪怕用相对较少的数据量,也能训练出能力非常强的模型。”吴韶华表示。在这方面,业界已有不少研究成果能够证明,比如,一些小模型基于高质量数据,在代码、数学上训练出的结果,超过了比其参数量大10倍的模型。
谈到浪潮信息发布的模型,便不能不提起如今“百花齐放”的大模型发展态势。在此背景下发展大模型,需要注意的关键是什么呢?
浪潮信息认为,基础大模型是大模型变革中的核心内容,并始终选择在基础大模型上投入。吴韶华说:“只有先提升基础模型的能力,再将其应用到行业中,才能得到比较好的回报。试想一下,当基础模型能力不够时,就直接把它拿到行业里,其实很难解决行业中大场景碎片化的问题,依然会导致落地难。”
此外,在“百花齐放”的过程中,也可能出现重复建设大模型的情况,这是否有必要?吴韶华给出了自己的观点,其认为在OpenAI引领大模型发展浪潮的当下,业界其他参与者沿着不同的方向和路径对大模型进行探索,是值得被鼓励和支持的。“因为只有这样才有可能快速接近,甚至超越OpenAI的GPT4。”他说。
有了基础大模型,还需要进一步深入到应用场景,把大模型的能力赋能到具体的产业环节之中。但这很难由一家厂商独立完成,必须有更多厂商来深度协同配合。对此,浪潮信息提出元脑生态,致力于通过技术支持、方案联合和平台共享,来实现不同厂商之间的优势互补。
作为一家平台厂商,浪潮信息不仅依托自身在算力、算法、平台方面的积累,为生态伙伴提供适配、测试等支持,还联合生态伙伴构建生成式AI解决方案。据了解,元脑生态已经对接了超40家AI芯片商、超400家算法厂商和超4000家系统集成商。
综上来看,目前浪潮信息正以大模型应用为导向,从计算、存储和网络等方面开展算力系统创新,从AI软件基础设施出发提升大模型算力效率,从模型算法、数据质量和算力等方面提升基础大模型的能力,并携手生态伙伴营造健康的产业生态。正如刘军所言,“我们希望聚集业界最丰富最优质的资源,来助力千行百业加速生成式AI的产业创新,进而高效释放生产力”。