当前位置:首页|资讯|AIGC

AIGC向端侧下沉成趋势,有望引领新一轮硬件创新(附下载)

作者:紫袖红方发布时间:2024-01-12

原标题:AIGC向端侧下沉成趋势,有望引领新一轮硬件创新(附下载)

深度研究报告:《AIGC专题:AIGC向端侧下沉成趋势,有望引领新一轮硬件创新》。

(报告出品方:国海证券)

报告共计:47

报告下载方式:

AI PC/手机作为端侧相较于云端能够解决数据安全、延迟等问题

AI PC/手机作为端侧大模型解决方案,能够帮助解决数据安全及隐私泄露等问题。对个人用户而言,可通过访问本地数据形成其数字孪生,大模型成为用户的个性化助 理;对企业用户而言,可通过公司内网访问企业数据库以实现智能化协同办公。云端通用模型不具备服务某一领域的能力,需要接入数据后才具有专业能力,这意味着企业为获得行业模型,须将关键性资产——数据上传至云端,而一旦训练完成的模型被全行业共享,则意味着一定程度上企业竞争壁垒的消弭,由此催生出各企业在数据 墙内训练专用模型的需求,AI PC/手机应运而生。

绝大多数应用场景下用户对推理的时效性要求较高,在云端进行推理再将结果传回端和边缘因物理距离而不可避免存在延迟,AI PC/手机直接面向终端用户,因此能很 大程度上缓解这一问题,为用户带来更好的使用体验。

AI PC/手机作为去中心化的服务模式能够帮助云端分担算力成本

将大模型部署在端侧和边缘可能会带来公有云、私有云和本地数据中心市场需求,以及云、端和边缘算力的平衡。生成式AI在诞生之初主要通过云端以付费API接口的形 式向用户提供服务,过去市场对算力的关注多集中于云服务提供商以及大模型训练阶段,但云端算力相对有限,在高峰期难以满足所有用户的推理需求,因而提高端侧和边缘算力,为推理加速成为市场新的焦点。通过智能终端(如AI PC/手机)和边缘设备为云端分担算力成本或使云、端、边缘算力需求走向平衡。

基于渗透率对AI PC出货量及增量收入空间的测算

我们基于渗透率对AI PC的出货量进行测算,据Canalys,2024年全年PC出货量预计将达到2.67亿台,我们参考这一数据对PC出货量进行情景假设,在四种不同情 景下分别为2.4/2.6/2.8/3.0亿台;同样对AI PC渗透率进行情景假设,在七种不同情景下分别为5%/10%/20%/30%/40%/50%/60%。通过测算可知,AI PC出货量 区间为0.12~1.80亿台。对AI PC的提价水平进行假设,在AI PC提价1000元/台和1500元/台两种不同情景下的增量市场空间分别为120~1800亿元及180~2700亿元。

GPU发展史:诞生于专用性需求,作为辅助处理器执行并行计算任务

图像处理催生出专用处理器需求,GPU的设计初衷正是为了应对批量同类任务的高并行执行,随着工艺的发展,GPU开始不断在个人PC以及移动设备上普及,甚至于 随着其性能呈指数级增长,独显势头渐起。

NPU:诞生于神经网络计算的需求,相较于GPU同时兼顾专用性和能耗比

NPU(Neural network Processing Unit),即神经网络处理单元,可在电路层模拟人类神经元和突触,并用深度学习指令集直接处理大规模的神经元和突触,一条指令完成一组神经元的处理。相较于CPU和GPU的冯诺依曼结构,NPU通过突触权重实现存储和计算一体化,从而提高运行效率。NPU是ASIC芯片的一种,目前主 要应用于深度学习和机器学习等人工智能任务。

骁龙8 Gen3让手机运行大模型提速,骁龙 X Elite助力高通切入AI PC赛道

高通在2023骁龙技术峰会上发布用于AI手机的骁龙8 Gen3和用于AI PC的骁龙 X Elite,率先成为同时抢占生成式AI应用落地的两个端侧赛道的芯片厂商。就手机端而 言,搭载了骁龙8 Gen3的手机运行Stable Diffusion模型,只用0.6秒即在本地生成了一张图像,其相较于骁龙8 Gen2的15秒很大程度上优化了移动终端生成式AI的推 理速度;就PC端而言,高通开创性地推出骁龙 X Elite平台,该处理器不仅拓展了生成式AI应用的广度,也是高通强势切入PC市场的重要举措。

骁龙8 Gen3采用的高通AI引擎拥有面向移动终端的强大Hexagon NPU,集成了升级后的硬件加 速单元、微切片推理单元、加强张量、标量和矢量单元,所有单元共享2倍带宽的大容量共享内存。 同时支持INT8+INT16的混合精度以及INT4、INT8、INT16和FP16的所有精度。据机器之心报道, 其性能较前代提升98%,能效提升40%。骁龙8 Gen3首次支持运行100亿参数的模型,规模迈入 百亿量级。同时将Stable Diffusion生成图像的时间降到了1秒之内,创下最快速度。在跑Meta大 语言模型Llama2-7B时,骁龙8 Gen3每秒可以生成20个token,同样是手机终端侧最快之一。

骁龙 X Elite处理器采用4nm制程工艺,集成定制的高通Oryon CPU,据机器之心报道,其运行速 度是Intel 12核处理器的2倍,功耗比Intel竞品低68%,高峰时段的运行速度比苹果M2快了50%。 骁龙 X Elite专为AI打造,其采用业界领先的、集成Hexagon NPU的高通AI引擎,异构算力高达 75 TOPS,支持在终端侧运行超过130亿参数的生成式AI模型,面向70亿参数大模型每秒生成30 个token,AI处理速度是竞品的4.5倍。据高通官方,搭载骁龙 X Elite的PC预计将于2024年中面 市。

报告共计:47


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1