1:芯片种类繁杂,哪些芯片会受益此轮AI+?
芯片按照用途分类包括计算芯片、存储芯片、感知芯片、通信芯片、能源芯片等等,其中最为受益于当下AI+浪潮的是计算芯片,存储芯片次之。作为AI浪潮中的“金铲子”,AI计算芯片主要包括图形处理器(GPU)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、神经拟态芯片(NPU)等。人工智能深度学习需要非常强大的并行处理能力,芯片厂商正在通过不断研发和升级新的芯片产品来应对挑战。
目前GPGPU是绝对主流的AI计算加速芯片,IDC报告显示其占据9成左右市场份额,其他计算芯片大部分都不能够满足当下巨量数据的并行运算。
2:目前国内做AI芯片的主要是哪些公司?
在主流的AI芯片GPGPU这个队列中,目前有寒武纪、海光信息、壁仞、摩尔线程等等。在这些企业当中,我们认为,将在2024年上半年量产的寒武纪思元590可能在一年后超越其他竞争者性能登顶。而目前国产超算GPGPU领域绝对领跑者,则是以Z100在成都、昆山、郑州的超算中心得到大规模部署的海光。
3:目前国内AI芯片市场情况如何?
AI算力是Chatgpt的核心基座,AI芯片占据算力服务器最大价值量,也是最为核心产品。2021年,我国AI芯片达到427亿元,同比增长124%。在政策、市场、技术等合力作用下,中国人工智能芯片行业将快速发展,预计2023年我国AI芯片市场规模将达1600亿元,复合增速100%以上。
4:如何看待美国制裁?
应该说是危机并存,机遇更大。目前还是能有一定途径购买到英伟达A100的芯片,英伟达也能提供阉割掉一部分性能的芯片,华为之前也囤积了大量的训练芯片,应该说短期内不会压制国内的的算力需求。此外,Chiplet技术可以实现对海外高端芯片性能的部分追赶。当下,无论从政府策还是企业侧,在芯片领域实现自主可控应该说达到了空前的团结,华为刚发布了能实现14nm的EDA软件,相信后面在光刻机领域也能有所突破。
5:目前国内政府采购情况会偏向国内芯片吗?
这是必然的。近年来国内三大运营商的服务器采购中,国产CPU的比例已经逐步提高到40%,海光跟华为平分秋色。目前国内已建成和在规划的100PFlops以上超算中,也量采购了海光和华为的产品。在近期编号为HCZB-2021-ZB0364的北京大学高性能计算系统采购中标公告中,海光DCU Z100单块GPU卡显存32GB HBM2,FP64算力10.8TFlops,通用计算核心8192个,硬件参数基本与英伟达A100和AMD MI100在同一起跑线上。目前昆山超算中心400PFlops算力,拥有一万个节点,每个节点为1颗海光CPU和4颗海光DCU。成都超算中心规划300PFlops,现已达到100PFlops算力,采用曙光NebulaAI(海光CPU+DCU异构计算,之前的8000原型机也就在成都)。郑州超算中心之前采用英伟达GPU,新建的嵩山超级计算机100PFlops算力,也全部转为采用自主CPU+DCU异构。
6:在芯片竞争背景下,寒武纪思元、华为昇腾、海光DCU能够多大程度上替代英伟达A100?
由于国际环境的影响,芯片国产替代这个态势是不可逆转的,国内的超算中心、智算中心都有一个国产化指标。从流出的硬件指标上看,思元590已经优于A100。但是好马尚需配好鞍,目前英伟达CUDA在人工智能业界具有绝对性的影响力,建立软件生态不是一朝一夕就可以实现的。
在软件生态方面,华为早在2018年就发布了CANN1.0,而且在大部分双一流理工科院校以训练营的形式铺开了,目前CANN的态势还比较好。寒武纪则需要下很大力气把Neuware生态做好,不然思元590的硬件对于客户来说比较浪费。
另外英伟达还对GPT-3这样的大型语言模型还有非常多的优化,比如Nemo Megatron,目前国内一些团队正在开始做这方面的工作,如Colossal AI,但他们依然是基于CUDA生态的。所以按照当下的软件生态格局而言,类CUDA的海光DCU对于进行模型训练的用户更为友好一些。
7:如果中美之间的芯片竞争进一步升级,海光深算会受到影响吗?
海光深算系列DCU脱胎于AMD CDNA,现已形成自主可控,同时可以运用ROCm软件栈的强大丰富生态。ROCm是一项开源计划,现有大部分CUDA上运行的应用,都可以迁移到ROCm。量子化学领域的CP2K,天气预报领域的WRF,药物研究领域的GROMACS,生物信息学领域的HMMER等软件都获得了ROCm完整的并行高性能计算支持。也就意味着在英伟达数据中心级GPU可能断供的情况下,海光深算系列可以无缝承接目前国内超算和数据中心的大部分GPU运算能力,在芯片战发生时为我国的科学和技术研究撑起保护伞。
8:寒武纪在资本市场热度为何大幅高于海光?
不知道,可能近期流出了很多未被证实的思元590硬件参数和性能指标,寒武纪的曝光率较高,使得市场的关注度也较高。海光Z100 FP32算力约为21TFlops,显存带宽为1TB/s,网上一些消息称将在一年后量产的思元590 FP32算力达到80TFlops,显存带宽为2.7TB/s。单从FP32算力和显存带宽上看,思元590的确有优势。当然,同为国产替代,也要考虑思元590最终采购单价和软件生态的成熟程度。A100在业界的大规模使用,是全球AI产业认可英伟达软件生态,并在英伟达产品体系内根据产品性能价格比做理性决策的结果,不然大家就去上更高端的H100了。
从我们专业的角度,在当前海光无论是从产品还是盈利能力,都要远优于寒武纪的。目前看,海光应该是国内唯一一家在高端芯片领域实现盈利的公司,公司产品在21年开始爆量,快速均摊了成本,净利率大幅提升。从目前国内采购情况看,海光今年爆发已经没有悬念。在寒武纪思元590尚未量产的这一年内,海光Z100在性能上是国产自主可控GPGPU的领跑者。寒武纪思元590实现量产的过程中,海光也有机会通过Chiplet技术进一步提升产品硬件实力,与思元590一较高下,并且海光仍然有软件栈和生态的巨大优势。
9:寒武纪思元MLU和海光深算DCU与百度飞桨的兼容适配进展?
思元百度飞桨认证的工作做得比较早,在2020年就开始了。海光DCU则是在2021年10月才拿到的百度飞桨生态兼容性认证,飞桨上的所有训练模型海光DCU都支持。相比之下,思元在这其中支持的训练模型约为四成,对推荐系统、视频分类、语音合成、生成对抗网络四个大类均未适配,余下五个大类,除字符识别所有模型全数支持外,其他的四个大类中的模型支持不足半数。特别是在当下最为热门的CHATGPT相关的自然语言处理大类,海光DCU支持9种模型,而寒武纪MLU只支持其中3种。海光DCU使用国际通用的ROCm软件栈,这一类CUDA架构使得海光与国际通用的大部分AI模型适配较好,只是在部分模型上并行性有些影响。成都超算中心在成立的两年来与百度飞桨合作,根据国际开源项目AlphaFold2研发了国产DCU蛋白质预测模型。此外,还根据中科院成都山地所具体需求,在海光CPU+DCU异构硬件生态上为其研发的“山地灾害风险模拟与险情预报系统”赋能,实现数十万平方公里范围内所有数千条小流域精细化全过程模拟。在从硬件的自主可控到软件的自主可控这条路上,看起来海光DCU走得更远一些。
10:近期芯片龙头都已经大涨,如何理性对他们进行估值?
对芯片企业进行估值是一件比较困难的事情。芯片流片常常伴随着巨大风险,一旦流片失败,会对公司现金流造成巨大的伤害。要抵御这样的风险乃至国际政治风险,都需要有非常好的财务规划。芯片企业不仅是技术密集,其资本密集程度也远远高于一般实体企业。所以要对这类企业估值,并非我们的专长。但有两点是可以肯定的,一是在AIGC浪潮下,像海光、华为这些已经量产出AI芯片并建立良好生态的,肯定能从中受益;二是国产替代进程不可逆,从14亿人口产生的巨大AI需求来看,国内应该会,也必然会出现类似英伟达这样的AI芯片巨头。如果以寒武纪100多亿美金,海光200多亿美金的估值,对比英伟达6000多亿美金的估值来看,悲观的人看到的是差距,乐观的人看到的也是差距。来自文八股调研