9月14日-15日,2023全球AI芯片峰会(GACS 2023)在深圳市南山区圆满举行。在第二天举行的智算中心算力与网络高峰论坛上,来自商汤科技、中国移动研究院、浪潮信息、科华数据、首都在线、趋动科技、中科驭数等7家企业或机构的技术决策者及高管分别发表主题演讲,分享有关智算中心的探索与实践。
算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力,主要通过算力中心等算力基础设施向社会提供服务。10月8日,工业和信息化部、中央网信办、教育部、国家卫生健康委、中国人民银行、国务院国资委等6部门联合印发《算力基础设施高质量发展行动计划》,提出到2025年算力规模超过300EFLOPS,智能算力占比达到35%,足见对智能计算中心发展的高度重视。
当前,新一轮科技革命和产业变革正在向纵深演进,算力基础设施的重要性不断提升。聚焦生成式AI与大模型浪潮带来的算力机遇、挑战与创新,7位行业嘉宾分别从智算中心技术瓶颈与优化方向、大模型工程实践经验、模块化液冷解决方案、包含DPU的异构计算、GPU资源池化等方面,对智算中心如何进一步突破算力天花板、达成“双碳”目标进行分享和解读。
以下是此次论坛的核心干货:
商汤科技联合创始人、大装置事业群总裁杨帆指出AI行业的场景碎片化问题,强调行业场景极度细分,导致边际成本高,使得AI公司难以盈利。而解决之道是通过AI基础设施,达到算力、数据、算法等核心要素协同的最佳实践,提供给行业低成本、高效益的AI基础能力。
商汤认为,未来5年,AI基础设施可能会是行业的真正发展路径,是解决AI目前创造巨大价值但行业自身不盈利的困局,最有可能的方向之一,因此商汤科技也将其作为核心战略之一。
▲商汤科技联合创始人、大装置事业群总裁杨帆
随着AI技术的进步,智算逐渐成为一个独立的概念。
算力方面,商汤的临港智算中心AIDC截至今年8月底,线上算力超过6000P,可以在单一的网络训练中聚集4000以上的GPU卡,可支持20个千亿级别超大模型同时训练。
数据方面,商汤认为数据要素是产业智能化发展中最宝贵的资源。商汤大模型数据专家团队通过对世界上最大的公开爬取数据集之一Common Crawl中,3PB+的原始数据进行清洗、去重、有害信息消除、质量过滤等处理动作,生成约30TB的有效数据用于大模型训练,可极大降低AI技术研发之中的成本。
算法方面,改进的方向主要集中于优化性能和优化推理过程,用更低成本的推理去达到同样的效果。
把算力、数据、算法这三要素中基础的核心沉淀出来,更加规模化地向外提供,降低边际成本,扩大边际效益,这是商汤科技认为AI产业发展的方向。
中国移动研究院网络与IT技术研究所技术经理、主任研究员陈佳媛分享了中国移动的NICC(New Intelligent Computing Center)新型智算中心技术体系。
根据信通院发布的中国综合算力指数预测,到2025年,智能算力在全国的占比将从今年的25.4%上升到85%。中国移动研究院将智算中心的发展分为两个阶段,一是2025年之前的集群时期,主要面向百亿或者是千亿规模的大模型发展;其次是2025年之后的超级池化时期,将面向万亿级的大模型进行革新。
基于这个预判,中国移动定义了新型智算中心的技术体系,并从互联、算效、存储、平台、节能等五个方面进行系统性重构,牵引行业在多个技术领域形成共识,加快相关技术成熟。
▲中国移动研究院网络与IT技术研究所技术经理主任研究员陈佳媛
陈佳媛认为,在新互联方面,为支撑更大规模的模型训练,构建更大规模的卡间高速通信能力,产业应共同打造统一的计算总线协议,联合AI芯片、交换芯片、服务器等上下游企业共同推动国内高速互联技术生态成熟;对于更大规模的网络互联,中国移动已经创新性提出全调度以太网技术(GSE),革新以太网底层转发机制,实现三大核心机制转变,打造无阻塞、高带宽、低时延、自动化的新型智算中心网络,希望更多伙伴加入,加速落地应用的过程。
在新存储方面,为突破GPU显存容量的限制,简化AI模型开发,行业应共同加速内存池技术的成熟,使得CPU、GPU/AI加速卡等异构设备共享统一内存,为大模型海量数据的高效处理奠定基础。
在新算效方面,陈佳媛谈到,产业在聚焦GPU能力升级、探索存算一体等新型芯片的同时,更要关注CPU,GPU、DPU三大芯片协同,加快验证DPU在智算中心的场景应用,整体提升智算中心海量数据的处理能力。
在新平台方面,中国移动原创提出算力原生技术,打造“芯合”算力原生跨架构平台,目标是打破“框架+工具链+硬件”紧耦合的智算生态,屏蔽底层硬件差异,实现智算应用的跨架构迁移部署,目前中国移动已经实现至少三家芯片的跨架构迁移,希望未来能有更多AI芯片加入,构建算力原生的产业生态。
在新节能方面,针对智算中心不断攀升的能耗需求,产业标准化程度较低的问题,中国移动坚定推进液冷技术成熟,通过制定五大统一标准,在智算中心建设项目中大规模引入,实现极致能效、极高密度、极简运维的三“极”目标。
大模型时代,新型智算中心的相关技术受到国内外高度关注,但是目前产业存在多种解决方案,技术路线也尚未统一,希望产业凝聚力量,形成共识,共同推动智算关键技术成熟,共同繁荣国内AI生态发展。
AI
算力是驱动大模型发展的核心引擎,但当前算力荒、算力贵的供给情况,恰恰成为了制约大模型发展的关键因素。浪潮信息开放加速计算产品总监Stephen Zhang从开放AI算力平台创新、促进多元算力融合发展、助推多元算力产业化应用等方面解读了生成式AI时代下算力的挑战与创新。
当前,多样化的技术路线带来了AI算力多元化的需求,但由于缺乏统一的业界规范,不同厂商的AI加速芯片存在显著差异,需要定制化的系统硬件平台承载,带来了更高的开发成本和更长的开发周期。同时,大模型训练需要更高性能、高互联、强扩展的大规模AI算力集群支撑。因此,在芯片技术创新突破的同时,产业界也需要从更高的系统层面共同应对大模型时代的算力挑战。
▲浪潮信息开放加速计算产品总监Stephen Zhang
浪潮信息基于开放的算力系统研发和大模型工程实践经验,发布了《开放加速规范AI服务器设计指南》,面向AIGC应用场景,细化完善了从节点到集群间的AI芯片应用部署全栈设计参考,并提供系统测试指导和性能评测调优方法。AI芯片厂商可以基于《指南》快速将符合开放加速规范的AI芯片落地成高可用高可靠高性能的大模型算力系统,提高系统适配和集群部署效率。
开放加速计算架构具有大算力、高互联和强扩展的特点,天然适用于超大规模神经网络并行训练,近年来已经取得丰富的产业实践成果。基于此,浪潮信息已经发布了三代AI服务器产品,和10余家芯片伙伴实现多元AI计算产品落地,并推出AIStation平台,可高效调度30余款AI芯片,充分释放多元算力价值。
同时,面向复杂的大模型训练工程,浪潮信息最新推出了OGAI大模型智算软件栈,能够为大模型业务提供AI算力系统环境部署、算力调度及开发管理能力的完整软件栈和工具链,高效释放算力系统性能,加速生成式AI产业创新步伐。
芯片的功耗在持续上升,单颗芯片功耗的逐渐增大。英特尔2023年第一季度发布的Max9462处理器,TDP达350W;英伟达2023年第一季度发布的HGX Grace Hopper Superchip Platform,其TDP高达1000W。如用风冷技术,将很难降低CPU、GPU表面温度。此外基于双碳要求,工信部于2021年发布新型数据中心发展行动计划,要求到2023年底,新建大型及以上数据中心PUE值降低到1.3以下,严寒和寒冷地区力争降低到1.25以下。
科华数据智慧温控制拓展部副总监魏芳伟谈道,目前主要的散热方式有6种,包括传统风冷、自然冷源风冷、冷板式液冷、喷淋式液冷、单相浸没式液冷以及两相浸没式液冷。其中,使用最多的是冷板式液冷和单相浸没式液冷。魏芳伟说,冷板式液冷适合绝大多数客户使用,优势是高性价比,低改造、低建设难度;浸没相变式液冷适合极致性能客户使用,特点是高性能、高投资。
▲科华数据智慧温控制拓展部副总监魏芳伟
魏芳伟解读了科华的模块化液冷一站式解决方案,主要包括三大类产品,包括主要应用在大型互联网IDC和超算中心的液冷微模块,应用在边缘计算领域的液冷集装箱,以及应用在挖潜和老旧机房改造的是液冷一体机。
液冷微模块的特点是高度集成,集成电源、配电、风冷空调、液冷CDU、二次侧管道等。每一个液冷项目具备特殊性,但是可以采用模组形式搭建多样化的适配载体,提高通用性。
液冷集装箱由各个模块组成,IT模块、电力模块、电池模块、消防模块、综合布线、液冷模块等可以根据单机柜功率、总功率、配电架构和占地面积等因素综合评估、选择、确定各模块配置数量,拼装组成数据中心。
首都在线副总裁牛继宾谈道,构建新一代智能算力平台或是智算中心有很多痛点。一是英伟达高端算力供应链的问题,二是国产算力芯片的可用性问题,三是建成以后找不到足够多的运行客户。一个智算中心,如果解决不了以上几个问题,就建造不起来或者出现运营亏损。此外大规模内网互联、存储高速吞吐、模型优化服务、平台生态服务等技术因素也造成智算平台建设的技术瓶颈。
首都在线提出的解决方案是建设大规模异构智能算力平台。该平台拥有异构算力的资源池,以英伟达算力为主,以国产算力为辅,实现上做了从内网互连到公网的调优,模型的适配调优,并基于此提供GPU裸金属、GPU云主机、高速存储、数据库等多方面的云服务。经过一年半左右时间的迭代,首都在线打通了智算IaaS到智算MaaS,再到到客户的端到端应用场景,提供一套从生产到业务的端到端模型适配与服务平台,目前的客户包括国内数家TOP大模型客户以及终端的应用客户等。
▲首都在线副总裁牛继宾
牛继宾谈道,大模型的推理如果用8卡的机器,是严重浪费的,首都在线最早和国内大模型客户的在线推理业务合作,能够将千亿模型做到在两张24G显存、月成本只有千元左右的GPU云主机进行部署,而一台8卡A100成本得四五万元左右,相当于超过一个数量级的降低。“这样才能让最终的大模型应用走到每一个终端上。”
据他分享,首都在线目前已在搭建有商用级的千卡高端训练集群,能够直接响应大模型用户训练需求,同时建设了万卡的推理集群,目前已有数十个大模型客户案例、也有成功的将大模型服务转售给垂直场景用户的多个案例。国内依托于东输西算的业务形态进行部署,加快用户的响应,降低用户的研发与线上服务成本;海外在东南亚正在部署H100集群,在美国也上线了比较大的推理资源池。这就相当于打通了全球的训练、推理、网络。
DPU是数据专用处理器,被称为继CPU、GPU之后数据中心的“第三块主力芯片”。DPU能够提供智算中心所必须的大带宽和低时延能力,使更多的CPU、GPU算力可以真正服务于业务,从而为新型智算中心提供更高效的算力底座,成为智算中心必备的核心组件。
中科驭数高级副总裁张宇强调了DPU和普惠算力在数智系统中的重要性。随着大模型和智能计算的崛起,传统的算力底座已不再满足需求成为瓶颈,AI大模型应用需要新型算力底座进行支撑。硬件架构突破以CPU为中心的体系,应用维度从芯片内、节点内向系统级分布式异构延伸,CPU+GPU+DPU+FPGA的异构计算成为主流趋势。在新的算力架构中,云、边、端共同构成了多层立体的泛在计算架构,通过与DPU的深度融合,构成新型算力底座。
▲中科驭数高级副总裁张宇
张宇谈道,大带宽、低时延,已成为AI大模型算力底座的核心诉求,而DPU可以提供这两项必须的能力,异构算力、三U一体成为算力底座主流的趋势。他认为对于所有的算力芯片而言,上层软件生态是最重要的,有时甚至会超出芯片本身设计的重要性。
中科驭数践行“IaaS on DPU”,从标准化的基础设施到客制化的业务应用均进行产品布局,历时五年打磨了开放DPU软件开发平台HADOS,具备丰富的算力能力接口,接口数量超过2000个,具有完备的生态兼容能力、多种开发维护工具,支持丰富的应用场景。
在AI大模型时代,英伟达的高端先进芯片难以采购,价格也是水涨船高。在巨大需求和AI算力供不应求情况下,趋动科技华南区技术总监刘渝认为应该优化GPU,也就是AI芯片和AI算力的供给模式。
传统的供给模式是物理卡挂载给AI应用使用,无论是基于物理机、容器或虚拟机,通过软件对GPU做简单的虚拟化切分,没有办法使算力资源动态满足不同AI应用的弹性需求。AI开发、训练、推理,这些不同的工作任务对于GPU资源的需求是不一样的。
▲趋动科技华南区技术总监刘渝
软件定义AI算力的解决方案,总体来说包含了六大典型应用场景:1、“隔空取物”,进行vGPU资源的远程调用;2、“化零为整”,通过软件进行GPU资源的聚合,节省算法人员的时间;3、“化整为零”,将GPU切分为多份,让多个AI任务叠加使用,比如推理场景;4、“显存扩展”,调用内存补显存;5、“随需应变”,通过软件进行资源动态伸缩,无需重启;6、“动态超卖”,资源高效轮转使用。
刘渝称,趋动科技在业界首提GPU资源池化的定义。趋动科技的OrionX GPU池化(GPU Pooling)软件处在驱动程序以上,属于标准化软件;对于AI应用和框架来说,不需要修改任何代码,就可以使用OrionX池化之后的GPU,对于用户来说也不需要改变任何的使用习惯。OrionX对GPU资源进行池化后共享,每人按需动态进行GPU挂载和释放,GPU硬件采购成本平均节省70%以上,GPU综合利用率平均提升4倍以上。
正如智一科技联合创始人、CEO龚伦常作为主办方在致辞中所言,在人工智能进入新阶段之后,全球对算力的需求与日俱增。随着社会智能化、数字化快速演进,未来,每个大一点的企业都需要智算中心。
▲智一科技联合创始人、CEO龚伦常
一方面,大模型时代下,传统的算力中心面临着与大模型匹配度较低、缺乏行业统一标准、竖井式发展、缺乏全局协同等多方面的挑战。另一方面,国内企业已经发起冲锋,从基础设施、液冷技术、芯片协同等方面,重新定义新型智算中心,为构建更加健康、高效和可持续的AI生态系统铺设了道路。