智东西
作者 | 云鹏
编辑 | 李水青
智东西5月31日报道,今天,智能终端产业正与以大模型为代表的生成式AI技术进行一场前所未有的深度融合,以AI手机和AI PC为代表的移动领域,作为与我们每个人生活关系最为密切的赛道,已经涌现出诸多新的AI需求和场景。
生成式AI带来了新的算力挑战和存储挑战,并加速着背后一系列硬件、软件、算法、生态等方面的技术迭代,从芯片厂商到终端厂商,再到大模型厂商,每一个领域的玩家都被深度卷入。
作为移动领域底层计算解决方案提供者的科技巨头Arm,近期也亮出了一系列与生成式AI产业发展密切相关的新产品、新技术,可以说,作为移动生态巨头的Arm,正在向AI加码布局。
就在昨天,Arm在中国北京举办了一场线下发布会,公布了自家最新的终端计算子系统(CSS),这一系统结合了Armv9架构的特性,基于3nm工艺节点打造,包括Arm最新的CPU和GPU。同时Arm还发布了为开发人员量身定制的开发工具Kleidi库。
新CPU Cortex-X925实现了41%的AI性能提升,并显著提高了LLM等设备端生成式AI的响应能力,而Arm Immortalis-G925则在多个AI和ML网络上提升了34%的性能。
可以说,Arm的一系列重磅技术和新品都剑指AI。
值得一提的是,这是Arm首次为Arm CPU和GPU交付物理实现,这可以让构建和部署基于Arm架构的解决方案变得更加简单。
此次智东西也有幸与Arm终端事业部产品管理副总裁James McNiven进行了面对面的深入交流,对Arm在生成式AI时代的机遇、挑战进行了深入探讨,并挖掘了Arm在架构、硬件、软件、生态等方面的核心优势和深入思考。
在生成式AI时代,计算的“能效”成为行业首要关注焦点,而能效正是Arm的“DNA”。Arm毫无疑问已经成为搅动移动智能终端产业的重要变量。
一、生成式AI掀起存储、计算需求暴涨,安卓端CPU挑大梁
毫无疑问,当下正是移动智能终端行业的关键时刻。生成式AI的端侧落地,重新定义了智能手机的“智能性”,而在这一关键时刻中,Arm是计算的“基石”。从手机、笔记本电脑到可穿戴设备和数字电视等设备,Arm正在为最大的计算生态系统提供普适应用。
生成式AI的到来必将会催生更多的计算需求,带来更多新的用例,这对Arm、芯片厂商、终端厂商来说都是一件好事,但同样这对于Arm来说也是一种挑战,他们需要不断迭代架构、硬件、软件等方面的技术,让生成式AI可以在Arm平台上更好地运行。
McNiven谈到,针对生成式AI的到来,Arm针对AI推理和训练优化了Arm CPU和GPU,并持续在架构中对一些新的指令和数据类型新增支持,此外,为了应对内存流量需求的激增,Arm也花费了大量时间优化数据流。
在生成式AI落地的过程中,异构计算成为了行业的主流,CPU、GPU、NPU需要相互协同,但实际上,有70%的第三方安卓ML工作负载都是在CPU上运行的,因此CPU仍然是AI时代计算的核心。
二、CPU、GPU性能能效提升,死磕AI能力,新软件工具剑指AI落地
正如Arm高级副总裁兼终端事业部总经理Chris Bergey称,Arm平台秉承了Arm DNA的能效理念,随着AI时代的加速发展,它正为下一波计算需求奠定根基,这也是Arm的核心竞争力所在。
Arm全面计算解决方案(TCS)我们已经不陌生了,而此次推出的Arm终端CSS带来了新的CPU与GPU,提升了性能、能效、对开发者软件的支持以及AI方面的诸多能力,并首次为Arm CPU和GPU交付物理实现。
据了解,此次发布的Arm终端CSS是迄今速度最快的Arm计算平台,提升了30%以上的计算和图形性能,以应对要求苛刻的实际用例中的安卓工作负载,同时其AI推理速度提高了59%,可以更好地处理AI、ML和计算视觉工作负载。
McNiven在发布会上特别强调称,Armv9重点提升了在矢量加速、ML等领域的计算能力,并增加了面向AI的功能。
据称,新Arm Cortex-X925实现了Cortex-X系列推出以来最高的同比性能提升,该CPU采用3nm工艺,主频最高达到3.8GHz,配合微架构的改进,与2023年旗舰智能手机采用的4nm SoC相比,其单线程性能提高了36%。
McNiven谈道,Arm想通过命名的更改更清楚地呈现其与前代产品的不同——Cortex-X925是Cortex-X推出以来取得最高IPC同比增幅的CPU。
在AI性能方面,Cortex-X925的token首次响应时间提高了41%,这意味着如大语言模型等设备端生成式AI的响应能力有明显提升。
具体来看,Arm对微架构进行了重点改进,采用了迄今为止最宽的解码和矢量设计,实现了50% TOPS数的增长。同时,Arm通过更强的可配置性和更大的私有L2缓存大小,保留进出过CPU的指令和数据。
GPU方面,新Arm Immortalis-G925 GPU在各款头部手游应用中实现了37%的性能提升,在多个AI和ML网络上实现了34%的性能提升,此外,Arm Mali-G725和Mali-G625 GPU可以覆盖更多移动智能终端产品,比如智能手表和XR可穿戴设备。
在可扩展性方面,Arm的合作伙伴可以利用一系列不同的CPU和GPU选项,针对大屏幕计算、智能手机、数字电视和可穿戴设备设计自己的解决方案。
在工具和软件库方面,Arm首次发布了Arm Kleidi,其中包括面向AI工作负载的KleidiAI和面向计算机视觉应用的KleidiCV。
据了解,KleidiAI是一套面向AI框架开发者的计算内核,让开发者们能够在各种设备上轻松获得Arm CPU上的最佳性能,支持Neon、SVE2和SME2等关键Arm架构功能。
KleidiAI与PyTorch、Tensorflow、MediaPipe等热门AI框架集成,可以加速Meta Llama 3、Phi-3等关键模型的性能,并且还可前后兼容,以确保Arm在引入更多技术时依然能适用未来市场的需求。
在Arm看来,CPU是唯一可以确保运行未来网络的计算引擎,因此Kleidi的解决方案都是为CPU构建的。Arm一直在将KleidiAI集成到各种框架中,从可以在任何设备上运行任何网络的通用框架到特定任务的点对点解决方案。
值得一提的是,Kleidi一词来源于希腊语,意为“钥匙”,即为开发者释放更多性能的钥匙。
三、AI PC浪潮涌起,WoA生态加速生长
值得一提的是,此次Arm重点提及了他们在Windows on Arm(WoA)生态系统中所取得的进展,这部分也归功于AI PC的快速发展。
McNiven特别谈到,对于WoA生态系统来说,今年是成果丰硕的一年。除了Microsoft Office、Dropbox、Zoom、Adobe套件,越来越多的应用正在成为Arm原生应用,尤其是百度、哔哩哔哩、Chrome浏览器、爱奇艺、搜狗、腾讯QQ音乐等头部应用。
此外还有许多针对创作者的开源工具,例如最近新增的Audacity、Blender和OBS Studio,这些应用整合了大量的开源库和开发者工具。
Arm与微软合作,通过资助开源和发布面向Windows的Arm性能库来发展生态系统。据了解,对于大多数用户来说,他们绝大部分时间都在基于Arm CPU的AI PC上运行Arm原生应用。
在McNiven看来,新用例的涌现会为市场带来新的活力,无论是在PC笔记本电脑、物联网、基础设施还是手机中,Arm希望任何有计算发生的地方都有Arm的技术。
AI用例的兴起带来无处不在的计算,这对Arm和合作伙伴而言都是一个很好的机会,生态系统对Arm而言至关重要。
结语:构筑面向未来AI的计算平台,Arm先行一步
可以看到,Arm正将前沿的CPU和GPU技术、生产就绪的物理实现和持续的软件优化相结合,Arm终端CSS结合Kleidi软件,成为未来AI计算的优秀平台。
面向生成式AI的未来,移动智能终端产业必然将涌现出更多创新,Arm将如何通过技术创新保持自身的核心竞争力并不断壮大自身的生态,我们拭目以待。