当前位置:首页|资讯|人工智能|生成式AI

NPU IP累计出货超1亿颗!芯原股份一站式AI解决方案揭秘

作者:芯智讯发布时间:2024-06-21

6月13日,2024上海国际嵌入式展开幕,在此次展会期间芯原股份召开了主题为“从云到端,AI触手可及”的“芯原AI专题技术研讨会”。芯原股份介绍了其AI产品线布局及面向AIGC的芯片设计平台和软件解决方案。

近年来,人工智能(AI)可谓是非常的火爆,特别是随着生成式AI在云端的发展并进入终端侧,推动了对于各类AI芯片需求的爆发。作为国产半导体IP大厂,芯原拥有丰富的与AI相关的NPU、GPU、ISP、VPU IP产品线,并且得到了极为广泛应用。

据芯原股份执行副总裁、IP事业部总经理戴伟介绍,在过去七年里,芯原在嵌入式AI/NPU领域全球领先,其NPU IP已被72家客户用于128款AI芯片当中,主要应用于物联网、可穿戴设备、智慧电视、智慧家居、安防监控、服务器、汽车电子、智能手机、平板电脑、智慧医疗等10个市场领域。目前,集成了芯原NPU IP的AI类芯片已在全球范围内出货超过1亿颗。

除了专用的AI加速的NPU IP之外,在目前被广泛应用于通用AI加速的GPU方面,芯原也拥有一系列自研的GPU IP。芯原在GPU领域也已经耕耘了20多年,拥有70项国外专利,集成了其GPU IP的芯片已在全球累计出货近20亿颗,并进入了近千万辆汽车。

在目前生成式人工智能大模型在云端及边缘端蓬勃发展的趋势之下,芯原根据目前市场的需求,基于自身NPU IP可伸缩可扩展的特性,已发展了覆盖从高性能云计算到低功耗边缘计算的生成式AI解决方案,包括专门面向边缘端大模型的NPU IP——VIP9X00以及AI-GPU IP,以及面向云端大模型的Tensor Core GPU IP——CCTC-MP。

芯原股份NPU IP研发总监查凯南表示,端侧AI性能很重要,但是功耗、面积对于端侧的IP更重要,一定要有比较好的PPA。因为端侧主要是要做推理,也要有一些浮点运算的能力,更关注的是低比特的量化及压缩能力。而在云端一定是高性能、非常高的TOPS,它要能够去做训练和推理。而且不光是单卡的训练推理,还要做分布式的推理训练,需要多卡多机的能力,所以它需要的更多是通用的GPGPU的编程模型,需要比较高的浮点跟定点算力的配比,对于高精度是比较重要的,然后还要能够去接入到大的生态当中去。

在过去两年当中,Transformer基本已经变成一个主导的模型架构,不仅仅是在大语言模型上面,在视觉、语音、Pixel等,都有比较好的表现。相对于传统的卷积神经网络,Transformer整个的效果提升是比较明显的。因此,在芯原最新的NPU架构里面也专门对Transformer做了定制优化,包括4bit、8bit、16×4、16×8等。能够去把权重做4bit和8bit的量化压缩,能够大大减少带宽的消耗。对于通用的矩阵运算,GEMM/GEMV,大模型需要的Transformer里面需要的大量卷积运算,以及在Transformer里面有不同的Vector直接构建到里面的带宽。芯原针对Transformer相关的网络性能提升了10倍。

据查凯南介绍,芯原的端侧NPU能够实现48TOPS的算力,能够支持在终端侧的大模型运行。比如在Stable Diffusion 1.5模型下,芯原的NPU可以在2秒内进行20步推理;在LLaMA2 7B模型下,芯原的NPU能够在1秒内生生成20个Token。

目前,芯原股份的端侧NPU IP已经可以支持智能手机、AI PC、智能汽车等边缘设备上的大模型的运行。

同时芯原基于自研的NPU IP和ISP IP等其他丰富的处理器IP储备,还推出了一系列创新的AI-ISP、AI-GPU等子系统,以应对人工智能不断发展的应用需求。

据介绍,芯原最新的面向边缘和云端大模型提供优化的图像数据的AI ISP芯片在9个月内就完成了从开案到流片,软件SDK在流片前就完成了所有功能验证。该芯片基于台积电N6制程,集成了高性能的RISC-V内核,拥有良好的PPA,模拟待机功耗低于4mW,AI增强拍照功耗也低于3.5W。

另外,在视频处理方面,基于芯原AI VPU(视频处理器)IP的第一代视频转码加速解决方案,在提供传统高端CPU 6倍转码能力的同时,功耗仅为其1/13。这一创新技术已成功应用于全球头部芯片公司定制的基于5nm工艺的媒体加速器芯片,并已进入量产阶段。

为便于开发者对于各种大模型的部署以及各种AI应用软件的开发,芯原也基于自己的AI-Computing IP产品线推出了配套的AI-Computing软件框架。

“不管是端侧还是云侧,整个芯原AI-Computing软件都是通用的软件栈。应用层有框架上面比较支持PyTorch、Transformer。专门针对大模型的,我们会选择去支持VLLM的框架。再往下走有通用的算子加速库及运算图加速库、以及多核间通讯库,底层会支持有标准的OpenCL、OpenVX,编译器及驱动。整个芯原的推理工具链,是芯原自研可以通过工具链直接导入所有类型框架的,内部自嵌一些量化的功能、可以去直接生成一个非常易于部署的Generate Binary。可以支持微软的ONNX Runtime,今年10月还会接入OpenAI的Triton。”查凯南介绍道。

除了前面提及的与AI相关的NPU、GPU IP、VPU IP、ISP IP之外,芯原还拥有视频/语音DSP IP、显示处理器IP,以及1,500多个数模混合IP和射频IP,已经服务了近400家IP授权客户,可以支持客户的各类的AI SoC的设计。

此外,芯原还拥有一站式的设计服务平台,每年流片30-50颗芯片,累计出货了10000片14nm FinFET晶圆,近30000片10nm FinFET晶圆。芯原在2018年就完成了全球首批7nm EUV芯片流片一次成功,并且已有5nm SoC一次流片成功,多个一站式服务项目正在执行。

据芯原股份高级副总裁、定制芯片平台事业部总经理汪志伟介绍,芯原的SiPaaS系统级芯片设计平台既可以满足数据中心要求的高性能AIGC芯片的设计需求,基于Chiplet构建云端高性能AIGC方案;也能够满足基于Chiplet技术的下一代可扩展高性能自动驾驶芯片设计需求,利用超高算力在边缘端运行大模型。

同时,芯原还提供了完整的软件解决方案,可以满足推理、训练和数据通信需求。

在此次的2024上海国际嵌入式展上,芯原也展示了集成芯原神经网络处理器(NPU)IP的新一代8K电视及领先的智能相机;集成芯原视频处理器(VPU)IP的新一代无人机;内嵌芯原图形处理器(GPU)IP和显示处理器IP的智能手表及AR眼镜;内嵌芯原IP的智慧家居设备等;基于芯原GPGPU IP和NPU IP的蓝洋智加速卡的高性能AI PC产品;基于芯原双通道图像信号处理器(ISP)IP的银牛视觉AI处理器等;芯原第二代数据中心视频转码平台解决方案等。

编辑:芯智讯-浪客剑


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1