在可预见的未来几年,人工智能将在国家和国际安全中发挥重要作用。因此,美国政府正在考虑如何控制人工智能相关信息和技术的传播。由于难以对通用人工智能软件、数据集和算法进行有效管控,现代智能系统所需的计算机硬件自然成为关注重点。领先的、专业的“人工智能芯片”对于经济、高效地大规模应用人工智能至关重要。对此,美国乔治敦大学安全与新兴技术中心(Center for Security and Emerging Technology,CSET) 发布报告《人工智能芯片:概念内涵及其重要性》,重点介绍何为人工智能芯片,为什么其对于大规模开发和部署人工智能不可或缺,并分析人工智能对国家竞争力的影响。
一、产业发展青睐人工智能芯片而非
通用芯片
(一)芯片创新的规律
包括通用的中央处理器(Central Processing Unit,CPU)、专用芯片(如人工智能芯片)在内的所有计算机芯片的发展都得益于较小的晶体管,相比于较大的晶体管,前者运行更快,功耗更少。不过,至少在21世纪头10年,尽管晶体管的尺寸收缩速度很快,并带来了巨大的速度和效率提升,专用芯片的设计价值仍然很低,通用CPU占据主导位置。
随着缩小晶体管的技术不断发展,芯片中的晶体管密度持续增加。20世纪60年代,摩尔定律指出,芯片中的晶体管数量大约每两年翻一番。遵从该定律,CPU速度得到了极大的提高。晶体管密度增加对速度的提升主要通过“频率缩放”(frequency scaling)来实现,即晶体管在开(1)和关(0)状态之间切换得更快,从而允许给定的执行单元在每秒进行更多计算。此外,晶体管尺寸的减小降低了每个晶体管的功耗,使芯片的效率也获得了很大的提高。
随着晶体管的缩小和密度的增加,新的芯片设计成为可能,新的芯片运行效率和速度得到进一步提升。CPU可以集成更多不同类型的执行单元,这些执行单元能够针对不同功能进行优化。同时,更多的片上存储器可以减少对片外存储器的需求,从而提升访问速度。此外,CPU可以为实现并行而非串行计算的架构提供更多空间。与此相关的是,如果晶体管密度的增加使得CPU更小,那么单个设备可以容纳多个CPU,实现同时运行不同的计算。
(二)摩尔定律的减慢与通用芯片的衰落
随着晶体管缩小到只有几个原子大小,其尺寸正迅速接近绝对下限,小尺寸下的各种物理问题也使得进一步收缩晶体管尺寸在技术上更具挑战性。这使得半导体行业的资本支出和人才成本以不可持续的速度增长,新芯片制程技术节点的引入速度比过去更慢。因此,摩尔定律正在放缓,也就是说,晶体管密度翻倍所需的时间越来越长。
在通用芯片占主导地位的时代,其成本可分散在销售的数百万个芯片中。而专用芯片虽然实现了针对特定任务的改进,但无法依靠足够的销量来弥补高昂的设计成本,其计算优势很快就被下一代CPU抹去了。如今,摩尔定律的放缓意味着CPU不再快速改进,通用芯片的规模经济效应遭到破坏。与此同时,一方面,半导体能力的关键改进已经从制造驱动转向设计和软件驱动;另一方面,人工智能应用需求不断增长,需要依托专用芯片实现高度可并行、可预测的计算。
这些因素驱动芯片向人工智能专用化方向发展,促使人工智能芯片夺取CPU的市场份额。
二、人工智能芯片的主要特征
人工智能芯片是一种常见的专用芯片,具有一些共同的特点。一是与CPU相比,人工智能芯片可以并行执行更多计算;二是能够采用低精度计算模式成功实现人工智能算法,但同时减少相同计算所需的晶体管数量;三是通过将整个算法存储在单个人工智能芯片中来加速内存访问;四是使用专门的编程语言来有效地翻译人工智能计算机代码,以便在人工智能芯片上执行。需要阐明的是,人工智能芯片是计算机芯片的特定类型,能够高效、高速实现人工智能计算,代价是在其他通用计算中只能以较低的效率和速度运行。
人工智能芯片包括三种类型:图形处理器(GPU)、现场可编程逻辑门阵列(FPGA)和专用集成电路(ASIC)。GPU最初用于图像处理。2012年,GPU开始越来越多地用于训练人工智能系统,这种应用从2017年起占据主导地位。GPU有时也用于推理。然而,尽管GPU可以提供比CPU更高程度的并行性,它仍然是为通用计算而设计的。相比于GPU,专用FPGA和ASIC效率更高,在推理方面的应用变得愈发突出,ASIC还越来越多地被用于训练。FPGA包括很多逻辑块(即包含一组晶体管的模块),逻辑块之间的互连可以在芯片制造后由程序员重新配置以适应特定算法,而ASIC则包括为特定算法定制的硬连线电路。前沿的ASIC通常能比FPGA提供更高的效率,而FPGA则比ASIC更具定制化能力,能够随着算法的发展促进设计优化。相比之下,ASIC则只能随着算法的迭代变得越来越过时。
机器学习是一种实现人工智能的重要方法,主要涉及到训练(Training)和推断(Inference)。简单来说,训练也就是搜索和求解模型最优参数的阶段。当模型参数已经求解出来,使用和部署模型,则称为推理。考虑到训练和推理中每项任务对芯片的要求不同,二者可能采用不同的人工智能芯片。首先,训练与推理需要不同形式的数据并行和模型并行,在一些相同的计算步骤基础上,训练还需要一些额外的计算步骤。其次,训练实际上总是受益于数据并行,但推理并非如此,例如有时可能只需要对单个数据块执行一次推理。最后,根据应用场景的不同,效率和速度对于训练和推理的相对重要性可能会有所不同。
人工智能芯片的商业化取决于其通用能力的程度。GPU早已被广泛商业化,FPGA的商业化程度较低。同时,ASIC设计成本高,专业化特征导致低销量,比较难以商业化。不过,人工智能芯片的预计市场规模增长可能会创造必要的规模经济效应,从而使应用更窄的ASIC盈利。
人工智能芯片依据性能的不同,可以分为不同的等级。在高性能领域,服务器级人工智能芯片通常用于高性能的数据中心,并且在封装后比其他人工智能芯片更大。中等性能的芯片是消费者常用的个人计算机人工智能芯片。在低性能领域,移动人工智能芯片通常用于推理,并集成到一个还包含CPU的芯片系统中。
三、为什么人工智能需要尖端的人工
智能芯片
人工智能芯片的效率和速度通常比CPU高10—1000倍。一个效率是CPU 1000倍的人工智能芯片提供的改进效果相当于26年摩尔定律驱动的CPU改进效果。
(一)从成本—效益视角分析使用尖端人工智能芯片是否有效
前沿人工智能系统需要的不仅是人工智能芯片,还是最先进的人工智能芯片。普通芯片体积更大、运行更慢、耗能更高,导致人工智能模型训练过程中,功耗成本将迅速膨胀到无法承受的水平。
通过对比尖端人工智能芯片(7纳米或5纳米)与普通芯片(90纳米或65纳米)的成本,可得出两大结论。在生产和运营成本方面,使用尖端人工智能芯片会比普通芯片节约更多的经济成本。因为普通芯片使用2年后耗费的电费成本将会是芯片本身成本的3—4倍,并且随着时间推移还将逐年增加。而尖端人工智能芯片耗费的电费成本刚刚超过芯片本身的成本。其次,据估计,生产和运行5纳米芯片的成本需要8.8年才能与7纳米的成本持平。因此,在8.8年以下,7纳米芯片更便宜,而在8.8年以上,使用5纳米芯片更便宜。因此,只有当用户预计使用5纳米节点芯片8.8年时,他们才有动力更换现有的7纳米节点芯片。
通常来说,企业会在运营大约三年后更换服务器级芯片,但是如果购买5纳米芯片,他们可能会期望更长的使用时间,所以市场需求的放缓也与摩尔定律正在放缓的规律相匹配。由此预测,3纳米芯片可能在很长一段时间内都不会推出。
(二)芯片成本和速度是计算密集型人工智能算法的瓶颈
企业在人工智能相关计算上花费的时间和金钱已成为该技术进步的瓶颈。鉴于尖端人工智能芯片比旧版芯片或尖端CPU更具成本效益和速度,人工智能企业或实验室需要此类芯片来继续推动智能技术进步。
首先,DeepMind开发了一系列领先的人工智能应用(如AlphaGo),有的训练成本甚至高达1亿美元。OpenAI报告称,其2017年总成本为2800万美元,其中有800万美元用于云计算。如果用旧版人工智能芯片或尖端CPU来运行计算,则计算成本会乘以30甚至更多,这将使此类人工智能训练或实验在经济上令人望而却步。计算成本增长如此之快,可能很快就会达到上限,因此需要最高效的人工智能芯片。
其次,领先的人工智能实验可能需要数天甚至一个月的训练时间,而部署的关键人工智能系统通常需要快速或实时的推理。使用旧版人工智能芯片或尖端CPU将极大地增加这些时间,使人工智能研发所需的迭代速度以及部署的关键人工智能系统的推理速度慢得令人无法接受。
以上分析的一个局限是,最近的一些人工智能突