文|半导体产业纵横
自ChatGPT爆火之后,AI大模型的研发层出不穷,而在这场“百模大战”激战正酣之际,美国芯片公司英伟达却凭借其GPU在大模型计算中的出色发挥赚得盆满钵满。
然而,近日苹果的一项举动,给英伟达的火热稍稍降温。
AI模型训练,苹果选择TPU而非GPU
英伟达一直是 AI 算力基础设施领域的领导者,在 AI 硬件市场,尤其是 AI 训练领域,其市场份额在 80% 以上,英伟达GPU一直是亚马逊、微软、Meta、OpenAI 等众多科技巨头在 AI 和机器学习领域的首选算力解决方案。
因此,英伟达也持续遭遇行业内多元挑战,竞争对手中不乏自主研发GPU的强者,亦有探索创新架构的先驱。谷歌的TPU也凭借其独特优势,成为英伟达不容忽视的强大对手。
7月30日,苹果公司发布了一篇研究论文。在论文中,苹果介绍了给Apple Intelligence提供支持的两个模型——AFM-on-device(AFM是苹果基础模型的缩写)和 AFM-server(一个基于服务器的大语言模型),前者是一个30亿参数的语言模型,后者则是一个基于服务器的语言模型。
苹果在论文中表示,为了训练其AI模型,使用了谷歌的两种张量处理器(TPU),这些单元被组成大型芯片集群。为了构建可在iPhone和其他设备上运行的AI模型AFM-on-device,苹果使用了2048个TPUv5p芯片。对于其服务器AI模型AFM-server,苹果部署了8192个TPUv4处理器。
苹果放弃英伟达 GPU 转向谷歌 TPU 的战略选择,在科技界投下了一枚震撼弹,当日英伟达股价应声下跌超 7%,创下三个月来最大跌幅,市值蒸发 1930 亿美元。
业内人士表示,苹果的决定表明一些大型科技公司在人工智能训练方面可能正在寻找英伟达图形处理单元的替代品。
TPU VS GPU,谁更适合大模型?
在讨论TPU与GPU谁更适合大模型之前,我们需要对这两者有一个初步的了解。
TPU与GPU对比:
TPU全称Tensor Processing Unit,是谷歌专门为加速机器学习工作负载而设计的专用芯片,它主要应用于深度学习模型的训练和推理。值得注意的是,TPU也属于 ASIC芯片的一类,而ASIC是一种为了某种特定的需求而专门定制的芯片。
GPU大家就比较熟悉了,GPU是最初为图形渲染设计的处理器,后来广泛用于并行计算和深度学习。它具有强大的并行处理能力,经过优化后的GPU,也非常适合深度学习和科学计算等并行任务。
可以看到,这两种不同的芯片在初始设计时便有着各自不同的目标。
与传统的 CPU 相比,GPU 的并行计算能力使其特别适合处理大规模数据集和复杂计算任务,于是在 AI 大模型爆发的近几年,GPU 一度成为 AI 训练的算力硬件首选。
然而,随着AI大模型的不断发展,计算任务在指数级地日益庞大与复杂化,这对计算能力与计算资源提出了全新的要求,GPU 用于 AI 计算时的算力利用率较低、能耗较高的能效比瓶颈,以及英伟达 GPU 产品的价格高昂和供货紧张,让本就是为深度学习和机器学习而生的 TPU 架构受到更多的关注。GPU在这一领域的霸主地位开始面临挑战。
据悉,谷歌早在 2013 年就开始在内部研发专用于 AI 机器学习算法的芯片,直到 2016 年这款自研的名叫 TPU 的芯片才被正式公开。在 2016 年 3 月打败李世石和 2017 年 5 月打败柯杰的 AlphaGo,就是使用谷歌的 TPU 系列芯片训练而成。
如果说TPU更适合用作AI大模型训练,不具体说明它的“本领”恐怕难以令众人信服。
TPU如何适合大模型训练?
首先,TPU具有多维度的计算单元提高计算效率。相较于 CPU 中的标量计算单元和 GPU 中的矢量计算单元,TPU 使用二维乃至更高维度的计算单元完成计算任务,将卷积运算循环展开的方式实现最大限度的数据复用,降低数据传输成本,提升加速效率。
其次,TPU具有更省时的数据传输和高效率的控制单元。冯诺依曼架构带来的存储墙问题在深度学习任务当中尤为突出,而 TPU 采用更为激进的策略设计数据传输,且控制单元更小,给片上存储器和运算单元留下了更大的空间。
最后,TPU具有设计面向 AI 的加速,强化 AI/ML 计算能力。定位准确,架构简单,单线程控制,定制指令集,TPU 架构在深度学习运算方面效率极高,且易于扩展,更适合超大规模的 AI 训练计算。
据悉,谷歌 TPUv4 与英伟达 A100 相比的功耗低 1.3-1.9 倍,在 Bert、ResNet等多类工作模型中,效率高于A100 1.2- 1.9 倍;同时其 TPUv5/TPU Trillium产品相比 TPUv4,能够进一步提升 2 倍/接近 10 倍的计算性能。可以看到谷歌TPU产品相比英伟达的产品在成本与功耗上存在更多优势。
在今年5月的I / O 2024 开发者大会上,Alphabet首席执行官桑达尔·皮查伊(Sundar Pichai)宣布了第六代数据中心 AI 芯片 Tensor 处理器单元(TPU)--Trillium,称该产品的速度几乎是上一代产品的五倍,并表示将于今年晚些时候推出交付。
谷歌表示,第六代Trillium芯片的计算性能比TPU v5e芯片提高4.7倍,能效比v5e高出67%。这款芯片旨在为从大模型中生成文本和其他内容的技术提供动力。谷歌还表示,第六代Trillium芯片将在今年年底可供其云客户使用。
谷歌的工程师通过增加高带宽内存容量和整体带宽实现了额外的性能提升。人工智能模型需要大量的高级内存,而这一直是进一步提高性能的瓶颈。
值得注意的是,谷歌并不会以独立产品的形态单独出售自己的TPU 芯片,而是通过谷歌云平台( Google Cloud Platform,简称 GCP)向外部客户提供基于 TPU 的算力服务。
在这一方案上也可窥见谷歌的聪明之处:直接销售硬件涉及高昂的开销和复杂的供应链管理。而通过云服务提供TPU,谷歌可以简化安装、部署和管理过程,减少不确定性和额外开销。这样的模式也简化了销售流程,无需额外建立硬件销售团队。另外,谷歌正在与OpenAI就生成性AI进行激烈的竞争,如果谷歌开始销售TPU,它将同时与两个强大的对手竞争:英伟达和OpenAI,这可能不是目前最明智的策略。
文章说到这里,可能会有人发问:既然TPU具有如此出色的性能优势,是否会在很快的未来取代GPU?
现在谈取代GPU?或许为时尚早
这一问题也并没有这么简单。
只说TPU的优势,不讲GPU的优势,可谓是一叶障目。接下来我们还要了解一下相比TPU,GPU又是如何适用于当前的AI大模型训练。
我们看到TPU的优势在于出众的能效比与单位成本算力指标,然而作为一种ASIC芯片,其试错成本高的劣势也较为明确。
此外,在生态系统的成熟度方面。GPU 经过多年的发展,拥有庞大且成熟的软件和开发工具生态。众多的开发者和研究机构长期基于 GPU 进行开发和优化,积累了丰富的库、框架和算法。而 TPU 的生态相对较新,可用的资源和工具可能不如 GPU 丰富,这对于开发者来说可能增加了适配和优化的难度。
在通用性方面。GPU 最初是为图形渲染设计,但其架构具有较高的灵活性,能够适应多种不同类型的计算任务,不仅仅局限于深度学习。这使得 GPU 在面对多样化的应用场景时具有更强的适应性。相比之下,TPU 是专为机器学习工作负载定制设计的,对于其他非机器学习相关的计算任务,可能无法像 GPU 那样有效地处理。
最后,GPU 市场竞争激烈,各厂商不断推动技术创新和产品更新,新的架构和性能提升较为频繁。而 TPU 的发展主要由谷歌主导,其更新和演进的节奏可能相对较慢。
整体来说,英伟达和谷歌在 AI 芯片上的策略各有侧重:英伟达通过提供强大的算力和广泛的开发者支持,推动 AI 模型的性能极限;而谷歌则通过高效的分布式计算架构,提升大规模 AI 模型训练的效率。这两种不同的路径选择,使得它们在各自的应用领域中都展现出了独特的优势。
苹果选择谷歌TPU的原因可能在于以下几点:首先,TPU在处理大规模分布式训练任务时表现出色,提供高效、低延迟的计算能力;其次,使用Google Cloud平台,苹果可以降低硬件成本,灵活调整计算资源,优化AI开发的总体成本。此外,谷歌的AI开发生态系统还提供了丰富的工具和支持,使得苹果能够更高效地开发和部署其AI模型。
苹果的实例证明了TPU在大模型训练上的能力。但相比于英伟达,TPU目前在大模型领域的应用依旧还是太少,背后更多的大模型公司,包括OpenAI、特斯拉、字节跳动等巨头,主力AI数据中心依然是普遍采用英伟达GPU。
因此,现在就下定义说谷歌的TPU可以打败英伟达的GPU或许为时尚早,不过TPU一定是一个具有极强挑战力的选手。
GPU的挑战者,不只TPU
中国也有押注TPU芯片的企业—中昊芯英。中昊芯英创始人杨龚轶凡曾在谷歌作为芯片研发核心人员,深度参与了谷歌TPU 2/3/4的设计与研发,在他看来,TPU是为AI大模型而生的优势架构。
2023年,中昊芯英“刹那”芯片正式诞生。“刹那”芯片凭借其独特的1024片芯片高速片间互联能力,构建了名为“泰则”的大规模智算集群,其系统集群性能远超传统GPU数十倍,为超千亿参数AIGC大模型的训练与推理提供了前所未有的算力保障。这一成就不仅彰显了中昊芯英在AI算力技术领域的深厚积累,更为国产芯片在国际舞台上赢得了宝贵的一席之地。
然而,在如今人工智能淘金热,但英伟达H100芯片供不应求、价格昂贵的背景下,大大小小的企业都在寻求替代英伟达的AI芯片产品,其中包括走传统GPU路线的公司,也包括探寻新型架构的企业。
GPU面临的挑战者,可远不止TPU。
在GPU路径研发中,英伟达的劲敌莫过于AMD,今年一月有研究人员在Frontier超算集群上,利用其中8%左右的GPU,训练出一个GPT 3.5级别规模的大模型。而Frontier超算集群是完全基于AMD硬件的,由37888个MI250X GPU和9472个Epyc 7A53 CPU组成,这次研究也突破了在AMD硬件上突破了先进分布式训练模型的难点,为AMD平台训练大模型验证了可行性。
同时,CUDA生态也在逐步击破,今年7月英国公司Spectral Compute推出了可以为AMD GPU原生编译CUDA源代码的方案,大幅提高了AMD GPU对CUDA的兼容效率。
英特尔的Gaudi 3 也在发布时直接对标英伟达H100。今年4月,英特尔就推出用于深度学习和大型生成式AI模型的Gaudi 3,英特尔称,对比前代,Gaudi 3可提供四倍的浮点格式BF16 AI计算能力,内存带宽提升1.5倍,服务于大规模系统扩展的网络带宽提升两倍。对比英伟达的芯片H100,如果应用于7B和13B参数的Meta Llama2 模型以及175B参数的OpenAI GPT-3模型中,Gaudi 3预计可以让这些模型的训练时间平均缩短50%。
此外,应用于7B和70B参数的Llama以及180B参数的开源Falcon模型时,Gaudi 3的推理吞吐量预计将比H100平均高50%,推理功效平均高40%。而且,在较长的输入和输出序列上,Gaudi 3有更大的推理性能优势。
应用于7B和70B参数的Llama以及180B参数的Falcon模型时,Gaudi 3的推理速度相比英伟达H200提高30%。
英特尔称,Gaudi 3将在今年第三季度向客户供应,二季度向包括戴尔、HPE、联想和Supermicro在内的 OEM 厂商提供,但并未公布Gaudi 3的售价范围。
去年11月,微软在Ignite技术大会上发布了首款自家研发的AI芯片Azure Maia 100,以及应用于云端软件服务的芯片Azure Cobalt。两款芯片将由台积电代工,采用5nm制程技术。
据悉,英伟达的高端产品一颗有时可卖到3万到4万美元,用于ChatGPT的芯片被认为大概就需要有1万颗,这对AI公司是个庞大成本。有大量AI芯片需求的科技大厂极力寻求可替代的供应来源,微软选择自行研发,便是希望增强ChatGPT等生成式AI产品的性能,同时降低成本。
Cobalt是基于Arm架构的通用型芯片,具有128个核心,Maia 100是一款专为 Azure 云服务和 AI 工作负载设计的 ASIC 芯片,用于云端训练和推理的,晶体管数量达到1050亿个。这两款芯片将导入微软Azure数据中心,支持OpenAI、Copilot等服务。
负责Azure芯片部门的副总裁Rani Borkar表示,微软已开始用Bing和Office AI产品测试Maia 100芯片,微软主要AI合作伙伴、ChatGPT开发商OpenAI,也在进行测试中。有市场评论认为,微软 AI 芯片立项的时机很巧,正好在微软、OpenAI 等公司培养的大型语言模型已经开始腾飞之际。
不过,微软并不认为自己的 AI 芯片可以广泛替代英伟达的产品。有分析认为,微软的这一努力如果成功的话,也有可能帮助它在未来与英伟达的谈判中更具优势。
除了芯片巨头外,也不乏来自初创公司的冲击。比如Groq推出的LPU、Cerebras推出的Wafer Scale Engine 3、Etched推出的Sohu等等。
当下,英伟达大约掌控着 80%的人工智能数据中心芯片市场,而其余 20%的大部分则由不同版本的谷歌 TPU 把控。未来,TPU 所占的市场份额会不会持续上扬?会增长几何?是否会有其他架构的 AI 芯片将现有的市场格局一分为三?这些悬念预计在接下来的数年间将逐步揭晓。