国内GPU公司天数智芯在WAIC 2023上展示的板卡产品(来源:受访者提供)
今年以来,随着ChatGPT和人工智能(AI)大模型引发热潮,大模型产品层出不穷。随之而来的是对 AI 算力的需求,也出现爆发式增长,算力供需出现巨大缺口,所有人都开始抢购美国芯片巨头英伟达的A100显卡作为大模型“入场券”。
如今,大算力底座已成为 AI 大模型发展的“标配”。
7月6日-8日举行的2023年世界人工智能大会(WAIC)昇腾分论坛上,华为轮值董事长胡厚崑表示,伴随大模型带来的生成式AI突破,AI 正在进入一个新的时代。算力是 AI 产业创新的基础,大模型的持续创新,驱动算力需求的爆炸式增长。可以说,大模型训练的效率或者是创新的速度,根本上取决于算力的大小。中国的算力已经成为一个越来越稀缺的资源。
本届WAIC上,华为推出首个昇腾万卡AI集群。截至目前,昇腾AI集群已支撑全国25个城市的人工智能计算中心建设。据悉,昇腾AI原生孵化和适配了30多个大模型,目前中国有一半左右的大模型创新,都是由昇腾AI支持。
与华为昇腾不同,国内通用GPU公司天数智芯研发的天垓100芯片已经开始跑通多个大模型,包括智谱 AI 大模型ChatGLM,国外主流的LLaMA,以及北京智源研究院的Aquila等产品;而百度昆仑芯公司在今年6月披露,其产品矩阵已适配文心一言、ChatGLM、GPT等主流行业大模型。
本届WAIC上,当被问及如果英伟达A800不能在中国售卖国产GPU能否替代,天数智芯董事长兼CEO盖鲁江对钛媒体App等表示:
“目前我们已经证明可以用了,不管他们的能不能买,或者卖不卖给中国,我们的产品现在已经在用起来了。”
基于目前国内 AI 大模型算力布局,无论是训练还是推理,AI 大模型算力主要分为三派:
那么,这么多的算力供应渠道,中国本土的AI芯片到底行不行?
没有英伟达GPU,华为昇腾支持近半数大模型
“没有大算力做大模型就是天方夜谭。”中国工程院院士、鹏城实验室主任高文在WAIC 2023昇腾人工智能产业高峰论坛上表示,从现在开始,算力已经成为是数字经济发展的一个指标,算力够,你的数字经济就能发展好,不够就发展不好。
据中国信通院数据,每1元的算力投入,可以带动3-4元的国家GDP(国内生产总值)经济产出,实现经济增长的倍增效应。麦肯锡则预测,生成式 AI 最终每年可为世界经济增加7.3万亿美元的价值。
7月8日WAIC大模型生产与产业落地合作论坛上,一位中国科学院研究中心主任甚至直言,“没有算力平台,数字经济将‘不复存在’。”
而对于大模型企业来说,巨大的算力成本是首先要考虑的问题。
本届WAIC上,毕马威和联想集团联手发布的《普慧算力开启新计算时代》报告显示,以构建GPT-3为例,OpenAI数据显示,满足GPT-3算力需求至少要上万颗英伟达GPU A100,一次模型训练成本超过1200万美元,这还不包括模型推理成本和后续升级所需的训练成本。
在WAIC腾讯分论坛上,NVIDIA英伟达全球副总裁、中国云计算和互联网行业总经理何涛提到,到了大语言模型的时代,算力必须发展。如果数据足够大,算法模型也足够大,算力需求也特别大。
所以,华为提出了鲲鹏和昇腾 AI 算力方案,没有英伟达GPU,重点应用于政务、金融等领域,在智算中心实现模型训练,随后在华为云或其他混合云中实现模型推理。
本届WAIC上,华为宣布昇腾AI集群全面升级,集群规模从最初的4000卡集群扩展至16000卡,是业界首个万卡AI集群,拥有更快的训练速度和30天以上的稳定训练周期。同时,华为还与知乎/面壁智能、清华智谱AI、科大讯飞、云从科技等多家拥有大模型的公司联合发布的昇腾AI大模型训推一体化解决方案,建立“生态包围网”。
胡厚崑表示,华为在各个单点创新的基础上,充分发挥云、计算、存储、网络以及能源的综合优势,进行架构创新,推出了昇腾AI集群,相当于把AI算力中心当成一台超级计算机来设计,使得昇腾AI集群性能更高,并且可靠性更高。“据我所知,目前我们已经可以达到10%以上的大模型训练效率的提升,可以提供10倍以上的系统稳定的提高,支持长期稳定训练。”
胡厚崑在开幕式上谈到,华为推出了对等平构架构,以突破传统以CPU为中心的异构计算带来的性能瓶颈,提升了整个计算的带宽,使得节点的性能可提升30%。同时,华为部署的昇腾AI集群实现10%的效率提升。
“中国的算力很难跟上不断增长的 AI 需求,而且 AI 算力缺乏稳定性。许多公司花高价购买英伟达GPU,但训练中GPU会出现故障不得不重新训练,交货时间很长、代价大。我们希望在 AI 算力方面提供一种替代方案。”7月7日华为云CEO张平安在华为云盘古大模型3.0发布会上直言,由于华为不可以用英伟达成熟的GPU,所以华为使用的自研的鲲鹏和昇腾AI算力方案,建立智算中心训练大模型。
张平安指出,华为云在贵安、乌兰察布、安徽芜湖等地都建立了算力中心,训练效率领先于业界主流GPU的1.1倍,昇腾Al云服务整个算力达2000PFlops。
华为昇腾计算业务总裁张迪煊表示,基于昇腾AI,原生孵化和适配了30多个大模型,到目前为止,中国有一半左右的大模型创新,都是由昇腾AI来支持的。昇腾的生态也逐步发展壮大,有180万开发者在昇腾开发平台上工作;与300多所高校院所与昇腾开展合作,每年培养超过10万名专业的AI人才。
本土算力持续追赶,但GPU软件生态仍需时日
除了华为之外,以阿里云、腾讯云、字节、商汤等企业为代表的算力底层,囤积大量的英伟达A100、T40芯片组进行模型训练,部分智算中心则增加AMD、英特尔芯片,以及天数智芯、寒武纪、海光等国产芯片,为客户提供异构、混合型算力支持。
智算厂商方面,阿里云表示,其拥有国内最强的智能算力储备,阿里云的智算集群可支持最大十万卡GPU规模,承载多个万亿参数大模型同时在线训练,拥有大规模AI集群。而在AI平台层,阿里云将AI训练效率提升可达10倍,推理效率提升可达6倍。目前,阿里发起的AI模型社区魔搭已拥有180多万AI开发者、900多个优质AI模型,以及30多个10亿以上参数规模大模型。
腾讯云则大量采购了英伟达A100/H800芯片,发布新一代HCC高性能计算集群,实现业界最高的3.2T超高互联带宽,提供高性能、高带宽和低延迟的集群算力,用于大模型训练、自动驾驶、科学计算等领域。基于新一代集群,腾讯团队在同等数据集下,将万亿参数的AI大模型“混元NLP”训练由50天缩短到4天。据悉,腾讯云服务器组还使用了AMD、燧原科技的芯片产品。
火山引擎副总裁张鑫泽透露,其拥有庞大的算力支持,亚州/美洲有数百万CPU核心、超过20PB内存、数万张GPU计算卡,训练系统单日样本吞吐最超百万亿,高峰时GPU利用率达90%。此前消息称,字节跳动目前已经购买和到货英伟达A100/H800加速卡共10万块。
据联想和毕马威的分析报告预计,阿里云目前拥有200-300万台服务器,腾讯云拥有100-200万台服务器,字节跳动和华为云拥有约100万台服务器。
与此同时,从芯片端看,目前在加速计算/大模型算力领域,英伟达在全球市场占比高达95%以上,甚至可达99%。英伟达无论产品力还是CUDA算力生态构建,都是首屈一指,也“收割”了本轮AI热潮以来最大的利润。
据登临科技联合创始人王震宇估算,2022年,英伟达在中国市场的数据中心产品销售额约400亿元,按照行业机构预估,到2026年将会达1000亿元,这是在ChatGPT爆火之前的预测。
在WAIC 2023上,盖鲁江告诉钛媒体App,天垓100是该公司2018年研发的通用 AI 训练芯片,目前这款产品目前已经成功跑通了清华智谱 AI 大模型ChatGLM,Meta研发的LLaMA模型,北京智源研究院的Aquila模型等。
“现在大模型发展的核心三要素:算法、数据及算力,算力是底座。在6月9日,我们跟北京智源研究院,在北京发布了他们的AquilaCode-7B模型,用的就是我们天垓100这款产品在跑,这也充分体现了天数智芯产品的通用性。目前我们正在帮他们跑650亿参数的模型,预计10月份可以跑完。”盖鲁江表示,预计今年年底以及明年,天数智芯都会有新的产品推出来,而且对大模型算法做了硬件级优化。
如果不采用通用架构,客户进行平台切换门槛比较高。盖鲁江表示,天数智芯在第一阶段就走了一条兼容国际主流生态的路线,公司2022年全年确认收入在2.5亿元左右。“因为我是通用架构,基于我的硬件去做软件栈的开发,再在API接口层面兼容国际主流生态,这样其实让我们的下游客户能更方便地用起来,让他们的迁移成本很低。所以说在商业化这条路上,我们已经率先迈出了一步。”
另一家腾讯投资的AI芯片公司燧原科技。已拥有邃思系列芯片、云燧训练和推理加速卡和云燧智算机的全系列算力产品线。在WAIC 2023上,燧原科技发布了全新文生图MaaS平台服务产品“燧原曜图(LumiCanvas)”,利用燧原科技的算力以及首都在线的基础设施,实现文生图模型训练和推理。
燧原科技创始人、董事长、CEO赵立东在本届WAIC AI芯片论坛上提到,目前燧原已经为大型科研机构部署了千卡规模的AI训练算力集群,并成功落地;而且与腾讯合作,在OCR文字识别,智能交互,智能会议等方面,性能达到了业界同类产品两倍以上,性价比上具有很高优势。此外,在智慧城市方面,燧原完成2022年成都高新区国产化AI视频基础设施平台项目建设。
钛媒体App在现场了解到,燧原科技公开的生态伙伴已包括腾讯、上海银行、中国移动、中国联通、新华三、卓视智通、北京智源、中科院计算所、之江实验室、清华大学、西安交通大学等30家以上的机构。
今年7月7日获得中国互联网投资基金独家投资的通用GPU研发商上海登临科技,在WAIC现场展示了第二代通用GPU Goldwasser(高凛)系列产品。钛媒体App了解到,高凛二代已针对基于Transformer和生成式AI 大模型进行专门优化,在性能有大幅提升,已于2022年流片,目前已开始规模化量产和商业客户验证。据现有客户测试结果,二代产品针对基于transformer类型的模型提供3-5倍的性能提升,大幅降低类ChatGPT及生成式AI应用的硬件成本。
最后一类是服务器云和各地算力中心,大模型公司与其合作/租用形式,补充算力训练不足的情况。而在服务器底层则依然用英伟达、鲲鹏、寒武纪、海光等产品。
例如,北京超级云计算中心官网披露,拥有超过50PFlops通用超算算力,超60万CPU核心数,超过20万算力用户;上海到2023年底,依托本市人工智能公共算力服务平台,接入并调度4个以上算力基础设施,可调度智能算力达到1000 PFLOPS(FP16)以上;到2025年,上海市数据中心算力预计将超过18000 PFLOPS(FP32)。
今年6月初,鸿博股份透露,搜狗创始人王小川成立的大模型公司百川智能(五季智能)和其签署了一个1280P的订单;二期正在推进,具体将围绕客户需求展开。据悉,鸿博股份全资子公司英博数科将在协议签署后的12个月内向五季智能提供高性能GPU算力出租服务,1期交付不超过256台服务器总计不低于1280P算力。
不过目前,国内 AI 算力、国产GPU芯片还存在制程工艺和产品规格限制、没有双精度浮点功能、没有CUDA这种完整生态、与其他芯片之间的解耦性较差、通信网络连接问题导致算力损耗高等挑战亟待解决。
多位行业内人士对钛媒体App透露,当下大部分模型训练领域仍会用英伟达产品,但信创、政务等数据私有化程度高的领域会更多采用本土算力。
“全球CUDA生态的注册开发者人数接近400万,多年来大家一直在沿用这一生态架构。因此,国内GPU企业现在面临生态迁移问题,操作系统、编程系统不一样。如果企业要换一个新的生态,就要做大量代码性的迁移及改变,这个成本及时间是非常高的。”盖鲁江透露,天数智芯在持续加大这部分投入,但这需要行业上下游企业共同研发,需要时间和过程。
“中国目前大算力芯片的发展还处于起步阶段。”清华大学电子工程系长聘教授、系主任汪玉认为,天数智芯、燧原科技、寒武纪等本土芯片算力如何做到高效统一的部署,在芯片上把这样的算法跑起来,是一个非常重要的问题。
启明创投合伙人叶冠泰表示,大模型时代,训练千亿参数、万亿参数的模型必不可少的就是算力,大模型参数规模的高速增长对GPU的能力不断提出更高的要求。大算力的GPU要支撑各种各样的模型,需要具备稳定性、扩展性、延迟控制、性价比等,展现出典型的“木桶理论”,而且大算力芯片的推广,需要整个上下游的生态支持。AI的时代已经到来,芯片公司需要和大模型公司紧密合作。
据毕马威和联想联手发布的报告数据显示,放眼全球,算力已成为各国科技战略布局重点。当前,美、中、欧、日基本稳居全球算力产业规模前四,美、中两国处在领先地位且中国算力规模增速明显领跑。各国算力投资或补贴计划均超千亿。
经初步测算,到2025年,数据中心、云计算、人工智能市场规模总计将突破2.5万亿元,算力核心产业规模将不低于4.4万亿元,关联产业规模可达24万亿元,成为与新能源汽车比肩的超万亿级高潜赛道。
华泰证券研究所科技行业首席分析师黄乐平在WAIC上表示,未来AI应用的逐步丰富将推动推理芯片等相关市场保持强劲增长,算力需求增长会率先利好算力芯片、光模块、服务器产业链等“送水人”。
“芯片半导体行业没有捷径可言。专注于产品研发和与用户的合作,踏踏实实做事,最后用产品说话。倾听客户需求是重中之重。”壁仞科技合伙人梁刚在WAIC 2023启明创投分论坛上称。据悉,今年WAIC,寒武纪、壁仞科技等部分 AI 芯片公司没有参展。(本文首发钛媒体App,作者|林志佳)