当前位置:首页|资讯

无需GPU,你的设备即将变身超级智能

作者:亿欧网发布时间:2024-10-17

硬件多样化的潮流正在到来,ASIC的专用化、FPGA的灵活性、RISC-V的开源特性以及存算一体的能效优势,共同推动着AI的创新和应用普及。

里 

人工智能(AI)从早期的发展到如今的跨越式进步,背后离不开图形处理单元(GPU)的支持。GPU曾是AI革命的中流砥柱,以其强大的并行计算能力助力深度学习的腾飞。

然而,AI行业正在迎来全新的时代——一个不仅仅依赖英伟达GPU的时代,一个追求高效、灵活、多样化的硬件时代。

GPU从图形加速器到通用计算

20世纪80年代,GPU作为一项创新技术首次亮相,它的设计初衷是为了提升图形渲染的速度,是一种专为图形处理而设计的专用硬件。这个时期,NVIDIA和ATI(现归属AMD)等公司在GPU技术的发展上扮演了至关重要的角色。

GPU的真正突破发生在20世纪90年代末至21世纪初,可编程着色器的引入极大扩展了GPU的应用范围。开发人员开始利用GPU的并行处理能力,不仅在图形渲染,还在其他计算任务上发挥其潜力。

21世纪到来,GPU在非图形计算任务中的应用得到了更深入的研究。NVIDIA推出的CUDA(计算统一设备架构)和AMD的Stream SDK为开发人员提供工具,使得GPU能够被用于执行科学模拟、数据分析等复杂的计算任务。

紧接着,人工智能和深度学习的兴起为GPU的发展带来了新的机遇。GPU在处理大规模数据和并行计算方面的能力,使其成为训练和部署深度学习模型的关键工具。

如今,TensorFlow和PyTorch等深度学习框架通过利用GPU加速,使得全球的研究人员和开发人员都能够更加高效地进行深度学习研究和开发。

尽管GPU它凭借巨大的并行计算能力适应了深度学习的矩阵运算需求,但在不断增长的AI应用场景中,其局限性逐渐显露。

GPU的局限性

功耗与成本是首要问题。大模型(如GPT-4、PaLM)的训练常常需要数千个甚至数万个GPU协同工作,不仅使得硬件成本居高不下,也导致巨大电力消耗。现代数据中心在能源和效率方面面临巨大压力,特别是在绿色计算标准越来越高的今天,GPU的高功耗成为不小的负担。

扩展性也是瓶颈。对于许多异构的AI任务,GPU架构显得过于“通用”。有些计算任务需要极高计算性能,有些需要带宽和低延时。GPU无法灵活地在不同任务之间进行优化,统一的架构反而在多样需求面前捉襟见肘。

软件生态的复杂性亟待打破。英伟达CUDA生态系统虽为开发者提供了强大的工具,其专有性质也限制了开发的自由度。

专用加速芯片(ASIC)的崛起

为了克服GPU的种种局限,专用加速芯片(ASIC)进入了AI领域的视野。ASIC的代表产品之一是Google开发的TPU(Tensor Processing Unit);在2023年,Google发布了最新的TPUv5e,专为大模型训练和推理优化,显著提升了性能和效率,特别适合处理大规模数据集和生成式AI任务,2024年发布第六代Trillium芯片,计算性能比TPU v5e芯片提高4.7倍,能效比v5e高出67%,预计在年底可供其云客户使用。

在中国,也有不少企业开始拿出相关自研产品。

寒武纪已量产的云端智能芯片及加速卡产品可提供从30TOPS到128TOPS的单加速卡单芯片计算能力。燧原科技推出“邃思1.0”和“邃思2.0”,专门用于云端人工智能训练的芯片,其计算核心使用了燧原科技自研的GCU-CARE计算引擎。景嘉微面向AI训练、AI推理、科学计算等应用领域的景宏系列高性能智算模块及整机产品也在2024年研发成功等等。

ASIC的定制化高效率使其在AI特定应用中占据了一席之地。通过专为特定算法设计,ASIC能够极大地提高计算效率并降低能耗,使它在处理类似推荐系统和搜索引擎的大规模运算时比GPU更具优势。尤其在功耗方面,ASIC为实现节能AI提供了可能。

ASIC追求多样化AI应用的时代中却不够全面

ASIC的劣势同样明显,由于是专为某一类任务设计,ASIC的灵活性远不如GPU。它无法轻松适应多种类型的计算需求,只适合那些计算需求明确、任务类型固定的应用场景,比如推荐系统的矩阵运算。

FPGA的灵活性强但开发难度高

与ASIC相比,可编程逻辑器件(FPGA)为AI行业提供了高度的灵活性。FPGA可以通过重新配置硬件逻辑来应对不同类型的任务,让它在许多需要动态响应和多变任务的场景中脱颖而出。

FPGA的灵活配置与低延时特性,其实是边缘计算、实时处理等场景中的理想选择。边缘计算中,FPGA可以被优化用于实时视频处理、语音识别等任务,通过动态调节硬件逻辑以实现最佳性能。此外,FPGA的低延时特性在需要快速响应的场景中也展现出强大优势。

然而,FPGA的开发难度较高。与GPU相比,FPGA的编程模型更加复杂,需要深入的硬件知识,这增加了开发成本和时间成本。而在处理大规模计算任务时,FPGA的计算密度不如GPU高,因此总体性能也相对有限。

总的来说,FPGA在灵活性和快速原型设计方面具有优势,适合需要快速响应市场变化和技术支持的应用。而ASIC在性能和大规模生产成本效益方面更胜一筹,适合技术已经成熟且需求量大的应用。

端侧AI的新兴机遇-RISC-V

在AI硬件领域,开源的概念也崭露头角。RISC-V的开源特性允许开发者根据特定需求进行定制优化,为AI硬件设计提供了更大的自由度,尽管RISC-V芯片并不适用于所有AI模型的应用,但在边缘设备和物联网设备领域,RISC-V的低成本和高效性成为了备受关注的解决方案。中国企业在RISC-V领域的发展尤为迅速,已有数百家公司在关注或以RISC-V指令集进行开发,其中专注于AI领域的超过半数。

RISC-V人工智能芯片通常采用两种不同的集成模式。

第一种是集成模式(紧耦合),这种模式适用于对功耗要求较低的应用场景(例如RISC-V与AI的结合)。这类模式下,AI处理单元紧密地与CPU核心集成在一起,共享相同PC寄存器和流水线单元,只是在CPU执行单元中增加了专门的矩阵或向量处理能力。

第二种是附加模式(松耦合),更适用于需要大规模计算能力的应用。这类模式下,AI处理单元作为一个独立的协处理器外挂于CPU,拥有自己的流水线、寄存器堆和缓存,允许协处理器异步处理来自一个或多个CPU的指令,从而并行执行不同的任务。

中国市场上,基于这俩类模式不少企业正在各细分领域做积极推进与尝试,除了大厂之外,睿思芯科、赛昉科技、进迭时空、芯来科技、华米科技等等企业都推出了基于RISC-V开发、适用于边缘侧AI应用的芯片。

图表:中国RISC-V指令集开发的人工智能芯片企业

存算一体与新兴架构

另一个在近年来受到广泛关注的是存算一体(Processing-in-Memory,PIM)。传统计算架构中,处理器和存储器之间的频繁数据传输是导致延时和能耗的主要原因之一。存算一体技术通过将计算能力直接集成到存储单元中,减少数据在处理器和存储器之间的传输,从而提高计算效率和能效,在深度学习中尤其有用。

深度学习算法通常涉及大量的数据传输和高内存带宽任务,如图像处理和大规模矩阵计算。存算一体技术通过将计算能力直接集成到存储单元中,减少了数据搬运的开销,从而提高了计算效率。

在深度学习中,PIM技术的潜力巨大,尤其适用于需要高内存带宽的任务,如图像处理和大规模矩阵计算。通过将存储与计算紧密结合,PIM在能效方面具有显著优势,这为低功耗AI提供了新的解决方案。

例如,三星的HBM-PIM技术通过在内存模块内部直接执行计算,在每个内存库中放置一个DRAM优化AI引擎,允许数据处理在存储数据的同一位置进行,减少数据移动操作,从而提高性能降低能耗。

除此之外,中国市场上,在当下人人关注的新能源汽车行业,存算一体智能驾驶芯片近年来也是创新频频。

未来的发展趋势

AI硬件的未来必然走向多样化。不同类型的硬件,如GPU、ASIC、FPGA、RISC-V、PIM等,将根据各自的特性和优势,承担不同的计算任务,构建一个高效且多元的AI基础设施。

对于企业和开发者来说,如何选择最合适的硬件方案将取决于具体的应用场景。在需要大规模并行计算的任务中,GPU和ASIC仍然是重要选择;而在需要快速响应和高灵活性的场景中,FPGA和RISC-V则更具竞争力;而对于能效至上的边缘计算和物联网设备,存算一体技术展示了广阔的前景。

结语

AI行业的未来绝不再是GPU一统天下。硬件多样化的潮流正在到来,ASIC的专用化、FPGA的灵活性、RISC-V的开源特性以及存算一体的能效优势,共同推动着AI的创新和应用普及。未来,我们可以期待一个更加开放、多元的硬件生态,它将使得AI技术以更低的成本、更高的效率深入到各行各业,带来更多可能性。

本文来自微信公众号 “亿欧网”(ID:i-yiou),作者:不寒,36氪经授权发布。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1