在智能科技的浪潮中,近两年快速崛起的生成式AI,已成为推动手机、PC等智能设备行业发展的关键力量。但生成式AI对硬件快速赋能的背后,也对算力、存储等方面提出了新的需求,因此这对芯片厂商、终端厂商、应用开发者等都提出了新的挑战。
因而,作为移动计算“根基”提供者Arm,也在积极拓展自身业务边界,为行业提供更高效、强大的算力支撑。近几年,Arm已经从IP提供商转型为一家计算平台公司,在致力于IP授权业务的同时,也专注于为智能产业提供完整且全面的计算解决方案。
为了迎合当下生成式AI的发展势头,Arm在今年的新品发布上,也将AI作为了关键的发力点。近日,面向终端领域,Arm推出了终端计算子系统 (CSS),囊括最新的Armv9.2 CPU、Arm Immortalis GPU、基于三纳米工艺生产就绪的CPU和GPU物理实现,以及最新的CoreLink系统互连和系统内存管理单元 (SMMU)。此外,Arm也同步推出了Arm Kleidi软件库,助力软件开发者无缝取得Arm CPU上的最佳性能,其中包含面向AI工作负载的KleidiAI和面向计算机视觉应用的KleidiCV。
可以说,在生成式AI引领的智能设备发展的新浪潮下,Arm为了加速让生成式AI融入到智能产品之中,通过发布一系列先进的硬件、软件和工具,从而帮助芯片、终端厂商们探索更适合端侧AI的技术路线,把生成式AI智能设备,所带来的体验构想变成现实,让AI普惠用户。
端侧AI背后,到底要比拼什么?
当下,“端侧AI”路线无疑是智能设备领域的确定性趋势。但想要让端侧AI被大众广泛接受,真正普及化,充足性能的硬件架构、算力和强劲的软件算法才是关键。
一方面,AI技术的不断发展,对手机、PC等智能设备芯片的功耗、速度等都提出更高要求,并且具有极强的科技前瞻性,同时也能给产品带来更多全新的创新点。
这也是为什么,芯片、终端厂商最近一直在新品上强调AI特性的原因。
另一方面,行业从“硬件定义产品”跃迁到“AI定义产品”,AI愈发彰显出中枢价值,发挥的作用越来越重要。
值得注意是,端侧AI的部署的关键不仅在芯片,更重要的是芯片底层架构、IP设计等。
这也意味着芯片领域“底层设计”的更新,才是将行业AI涟漪变为浪潮的关键。换言之,只有像Arm这样的行业巨头,它的举动,才将深刻影响行业的走向。
之所以这么说,是因为龙头企业有其特殊性,它的一举一动代表不仅是行业此刻的动向,更是行业的将来时、发展的“风向标”。
Arm全面赋能端侧AI生态发展
Arm其实很早之前就注意到AI对于智能设备行业的影响,在2021年就推出了专为性能和 AI 而设计的 Armv9 架构,并且对其计算能力、安全性、稳健性等方面不断优化,也正是其提早布局,让它在生成式AI爆发的关键节点,推出了可面向AI 智能手机和 PC等广泛终端领域的Arm终端CSS。
据悉,Arm终端CSS得益于Armv9.2的能效优势与 3nm制程的CPU和GPU物理实现,以及持续的软件优化,让它在性能方面有了很大的飞跃。作为Arm最快的安卓平台,在一些更接近现实用例的测试场景中,Arm终端CSS的头部流行应用平均启动时间比去年的全面计算解决方案(TCS23)加快了33%,网页浏览速度加快了60%。而在包含了光追和可变速率着色的七项图形基准测试当中,其峰值图形性能平均增长也达到了30%。
在CPU方面,Arm Cortex-X925 CPU的主频可以达到3.8GHz,配合微架构的改进,其单线程性能提高了36%,是Cortex-X推出以来取得最高IPC同比增幅的CPU;而在最为重要的AI方面,3nm的Cortex-X925的token首次响应时间提高了41%。AI 性能的提升得益于微架构的显著演进,利用了迄今为止最宽的解码和矢量设计所带来的巨幅提升,实现了50% TOPS的增长。
而在GPU方面的提升,也是Arm此次重点发力的方向。全新的 Immortalis-G925 GPU 是 Arm 至今最强大的 GPU,其专为旗舰移动设备设计,在各种图形应用中的性能提升达 37%,在 AI 和 ML 网络上的性能提升达 34%。而包括 Arm Mali-G725 和 Mali-G625 GPU 在内的全新GPU 系列具有高度可扩展性,适用于从高端手机到智能手表和 XR 可穿戴设备的广泛市场。
值得一提的是,硬件上的高算力、高能效一直以来都是Arm的“绝活”,因而终端CSS能有这样的表现其实并不让人意外。但作为移动设备端AI变革的关键变量,Arm显然意识到了它需要为这个生态的建设提供更多的便利,尤其是对于开发者群体,需要让他们能够更加高效、便捷地开发、部署,才能加速构建涵盖全场景的端侧AI生态。因而,Arm为所有开发者提供了一把可以加速打开这个市场的“钥匙”。
Kleidi就是这把“钥匙”,它不仅包含面向AI工作负载的KleidiAI,还有着面向计算机视觉应用的KleidiCV。但究其根本,Arm做Kleidi最核心的目的,就是要确保开发者能够快速获得开发生成式AI应用所需的性能、工具和软件库。简单理解,KleidiAI是一套面向AI框架开发者的计算内核,像PyTorch、Tensorflow、MediaPipe这样的热门AI框架都已经集成到KleidiAI中了,这对于加速主流AI大模型是十分重要的。
并且,在Arm看来,CPU是唯一可以确保运行未来网络的计算引擎,因此对于可以解锁 Arm CPU 最高性能的Kleidi,无疑是开发人员解锁AI应用的最佳利器。
在生成式AI加速革新移动生态的大背景下,Arm不仅给予了硬件更强的性能表现,还为开发者提供了完善、高效的解决方案,表现出Arm对整个端侧AI生态的重视和拥抱,Arm对于引领移动生态抓住生成式AI机遇、构建新应用生态并为用户创造新价值的决心显而易见。
写在最后:如今Arm终端CSS出色的架构升级、性能和能效的大幅提升为功能更丰富、性能更强、更智能的终端设备铺路,扩展了移动设备的可能性和能力。同时Arm在软件层面的开发工具和平台则让开发者可以快速地将这些Arm的技术优势落地到应用和产品中,可以说Arm通过全面的布局,赋能终端侧AI快速落地。