今天分享的是人工智能专题系列深度研究报告:《推理芯片,生成式AI驱动,或迎来重大机遇》
(报告出品方:西部证券)
报告共计:10页
海量/完整电子版/报告下载方式:公众号《人工智能学派》
核心结论
生成式 Al 模型性能不断提升,或处于更大规模放量前夕,推理需求有望高速增长。OpenAl于2022年11月推出生成式Al应用ChatGPT,在不到两个月的时间内,月活跃用户数突破1亿人。以ChatGPT为代表的生成式A应用快速迭代、落地,模型推理的算力需求逐渐显现。随着生成式 A1 模型参数和 Token 数量不断增加,模型单次推理所需的算力持续攀升。同时,ChatGPT、Gemini、Kimi等聊天机器人的用户数逐步上升,MicrosofCopilot、Adobe Firefly、WPSAI等办公助手持续落地,用户侧的流量不断上升,推理算力未来有望超过训练算力,最终训练芯片与推理芯片数量之比或达到2:8。
量化技术(Quantization)是决定生成式 A1 推理成本的关键因素,量化技术的迭代升级有望降低推理门槛,为CPU+ASIC、CPU+FPGA等技术路线的发展,以及国产算力的放量提供了技术基础。人工智能模型的量化技术从最初的 FP16 量化快速发展到目前应用最成熟的 INT8 量化,再到正在进一步研究中的 INT4 量化,呈现出数据精度逐步降低,内存或显存占用不断减少的趋势。这一趋势有助于 CPU+ASIC、CPU+FPGA等技术路线通过软硬件的优化提高推理能力,也有助于国产算力通过增加低精度计算单元等方式,以较成熟的制程工艺实现可用的推理算力。消费级 GPU 产品和海外 CSP 企业的自研芯片同样被用于推理场景。英伟达和 AMD 的消费级 GPU产品,同样具备接近千亿参数量级的生成式 A1模型的推理能力,从侧面说明推理芯片的门槛相对较低。谷歌、微软、亚马逊、Meta 等海外 CSP 企业在大规模采购英伟达数据中心 GPU的同时,也在积极自研用于模型训练和推理的芯片,有望成为满足推理算力需求的另一种途径。
我们认为:生成式 A|的发展是一个不断选代升级的过程,随着国内生成式Al 模型的质量持续提升,有望出现更多优质应用,从而带动推理算力需求快速上升。在推理场景下,算力的性价比显得更为重要。在供给端有所限制的情况下,国产推理芯片有望受益于国内生成式 Al 应用的落地,迎来重大发展机遇。
报告共计:10页
海量/完整电子版/报告下载方式:公众号《人工智能学派》