报告出品方:华创证券
以下为报告原文节选
------
一、Google 位居 AI 行业第一梯队,有望进一步加强 AI 领域投资
(一)Google 为大模型领域奠基者,最新发布的 Gemini 彰显深厚底蕴
1、超前提出 AI First 战略,长期深耕大模型和算力设施
Google 深耕 AI 技术多年,为大模型领域奠基者。早在 2017 年,Google 就已经把发展战略从 Mobile First 转变为 AI First。同年 Google 发布 NLP 模型 Transformer,该模型通过引入 Self-Attention 机制,利用注意力机制来提高模型训练速度,使得模型可以并行化训练,这也为后续大语言模型的升级迭代奠定了基础。2018 年,Google 发布大规模预训练模型 BERT,可以进行双向预测,该模型进一步提升了自然语言理解及处理的精度。2022年,Google 推出模型 PaLM,该模型在语言理解、逻辑推理、代码生成等方面均实现了出色表现。2023 年以来,Google 先后推出 PaLM2 及 Gemini,模型能力进一步提升。
最新发布 Gemini 多模态模型,Google 彰显 AI 深厚底蕴。美国时间 2023 年 12 月 6日,Google 正式发布该公司“规模最大、功能最强”的多模态大模型 Gemini,引发市场高度关注。根据 Google 披露,Gemini 是基于 Transformer decoder 构建的原生多模态模型,其性能较原有的单一模型更为全面,支持 32K 的 contex 长度。在大型语言模型(LLM)研发中使用的 32 个广泛使用的学术基准中,Gemini Ultra 性能有 30个都超过了当前最先进的结果,其中 Gemini Ultra 的 MMLU(大规模多任务语言理解)得分为 90.0%,是第一个优于人类专家的模型,多个任务性能表现也都超过 GPT-4。
Google 未来会将 Gemini 融入到自身业务中,例如搜索、广告、Chrome 和 Duet AI等。
为满足内外部业务需求,Google持续加强算力建设。除了在大模型领域引领行业发展外,Google 在算力设施方面也有持续的布局,以满足企业内外部的业务需求。对内,Google将 AI 技术深度赋能公司各项业务,包括搜索、地图、广告等公司传统的优势业务,例如公司推出了 SGE(Search Generative Experience)搜索引擎,利用 AI 改进用户搜索体验;对外,Google 通过 Google Cloud 可以提供从 IaaS 到 PaaS 到 SaaS 的 AI 相关一系列服务,其中 Compute Engine 是 Google Cloud 的计算托管服务,提供可添加到虚拟机实例的 GPU,实现智算算力的对外供应。为了满足以上对内对外的算力需求,Google 一方面通过部署成熟的 GPU 资源提供算力服务,如最新发布的 A3 超级计算机即可提供 Nvdia H100 GPU算力;另一方面采取自研 TPU 的方式,满足自身如大模型训练/推理等相关的算力需求,同时也可对外提供算力支持。
2、自研的 AI 芯片 TPU,支撑 Google AI 技术及业务发展的重要利器
TPU(张量处理器)为 Google 推出的用于机器学习的专用处理器。为提升处理器训练和学习神经网络的计算能力,Google 用 15 个月的时间成功设计第一款张量处理器 TPU,并于 2016 年正式发布。该处理器专用于机器学习,擅长大型矩阵运算,可以更高效地训练模型,芯片内集成的 HBM 也有助于更大规模的模型训练,此外多个 TPU 可以组成 Pod集群,极大地提升了神经网络工作负载的效率。TPU 芯片在不同的版本中会包含一个或多个 TensorCore,每个 TensorCore 都由一个或多个矩阵乘法单元 (MXU)、一个向量处理单元(VPU) 和一个向量存储器(VMEM)。其中 MXU 由收缩阵列中的 128×128 乘法累加器组成,是供应算力的主要引擎,在每个周期能够执行 16K 乘法累加运算。
TPU 采用脉动阵列可加速大矩阵计算,更适合 AI 应用场景。TPU 为专用于神经网络工作负载的矩阵处理器,相较于 CPU 和 GPU,TPU 的功率更低、物理占用空间更小。TPU采用了脉动阵列的方式以规避冯·诺依曼瓶颈。在传统的计算架构下由于需要对存储器进行高频访问,系统的处理能力会极大地受限于其访存能力。而脉动阵列的本质就是在访问存储器之前将更多的工作留存在处理单元内完成。在脉动阵列实现矩阵运算的过程中(Y=WX+b),权重 W/像素 X 分别从上向下/从左至右地流入数组,每次执行乘法时各个单元的乘数结果将被直接传递累加至此前的计算结果中,直至数据不再流入。在脉动计算和数据传递的过程中 TPU 无需再访问内存。TPU 虽然牺牲了通用性,但基于对脉动阵列的应用大幅提升了其计算吞吐量,显著优化了矩阵与卷积运算过程,而大模型的训练和推理过程中,主要涉及的就是矩阵及卷积计算,因此 TPU 作为专用型芯片特别适用于 AI 的应用场景中。
历经多代的持续更迭,最新发布的 TPUv5p 性能尤为强大。2016 年 Google 推出的 TPUv1定位为推理芯片,为 AlphaGo 提供过重要的算力支撑,此后 Google 持续优化并迭代 TPU芯片的整体性能。2017 年发布的 TPUv2 兼顾了推理和训练的功能,相较于 TPUv1,TPUv2不再固定功能单元之间的缓冲区和激活管道,而是采用了向量存储器和向量单元的方式实现功能。TPUv3 的改动较为温和,整体与 TPUv2 采用相同技术,但将 MXU 和 HBM容量增加了两倍。2021 年发布的 TPUv4 则首次引入光交换机(OCS)以解决规模和可靠性的障碍。2023 年 Google 先后推出 TPUv5e 及 TPUv5p 两款芯片。其中 TPU v5e,可在同样成本情况下,为大语言模型和生成式 AI 模型提供相较于 TPUv4 高达 2 倍的训练性能和 2.5 倍的推理性能;TPUv5p 则是 Google 有史以来功能最强大、可扩展性最强、灵活性最高的 AI 芯片,其训练大型 LLM 模型的速度为 TPUv4 的 2.8 倍,较 TPUv5e 有近50%的提升。
TPU 已成为 Google 大模型训练的主力军。从 TPU 的使用情况来看,目前 Google 90%以上的模型训练均在 TPU 上进行。根据 Norman P. Jouppi 等人的《TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings》数据,Google 已经部署了数十台 TPUv4 超级计算机,其中有 8 台会通过 Google Cloud 供外部使用。其中最新发布的多模态大模型 Gemini 主要就是通过 TPUv4 以及 TPUv5e 训练的,而此前发布的 5400 亿参数语言模型 PaLM 则是用两个 TPUv4 pods 训练的。
(二)Google Cloud 支撑公司业绩向好,AI 领域投资有望进一步加强
AI 赋能下 Google 利润率及营收增速迎来拐点。根据 Google 公司公告数据,2022 年公司收入为 2828 亿美元,同比+9.8%,对应 2019-2022 年 CAGR 达 20.4%。2023Q1-3 公司收入为 2211 亿美元,同比+6.9%。2022Q4 以来公司营收加速增长的趋势主要系 AI 赋能下公司服务类业务及云业务快速增长所致。同期公司利润率有所改善则主要因为:1)AI 的应用降低了员工人数的增幅;2)AI 优化了工作流程,加强了运营效率;3)良好的费用管控成效及其他原因。
Google Cloud 业务占比提升迅速,有望成为公司第二成长曲线。从收入结构来看,主要包括广告业务、云业务及其他业务。其中广告业务主要包括搜索、网络及 You Tube 广告业务,云业务则主要包括云平台、工作区及其他企业服务。近年来云业务受益云平台和工作区业务的增长,收入占比呈快速上涨趋势,2022/2023Q1-3 公司云业务收入占比分别为 9.3%/10.8%,同比分别+1.8/1.6pcts。其中云平台实现高增主要系客户人均营收有所增加及基础设施和平台服务有所增长所致。根据公司 IR 公告,目前全球最大的 1000 家公司中超过 60%的企业均为 Google Cloud 的客户。公司认为目前其在 AI 解决方案 Vertex AI、Duet 及 GCP、Workspace 的客户参与度上都具有较高的潜力,未来公司将继续积极地保持对相关业务的投资,云业务有望成为公司的第二成长曲线。
Google 资本开支进入向上通道,有望进一步加强 AI 领域投资。2022 年,微软、Google、亚马逊、苹果、Meta 资本开支同比分别+3%/28%/5%/13%/67%,Google 资本开支增速居于行业前列。具体来看,Google 资本开支主要由服务器及网络设备投资组成,其中包括AI、数据中心及配套建筑等项目的建设。2022/2023Q1-3 Google 资本开支分别为 315/212亿美元,同比分别+27.8%/-11.1%。公司单 Q3 资本开支为 80.6 亿美元,同比/环比分别+10.7%/+16.9%。Q3 资本开支环比显著回暖主要系 AI 计算需求大幅增长下服务器及数据中心投资快速增长所致。根据公司 IR 公告,2023Q4 及 2024 公司资本开支将持续增长,但整体增速将低于公司营收增速。在资本开支投向方面,公告显示 Google 将着力加强在AI 领域的相关投资,未来公司资本开支有望实现高质量增长,预计到 2025 年,Google在 AI 领域的总投入将达到 1000 亿美元。
二、自研基于 OCS 的光连接新方案,进一步提升 TPU 集群性能
需求推动 OCS 技术落地,深度赋能两大应用场景。OCS(Optical circuit switches),即光电路交换机,是在光层动态地配置互连拓扑,类似于传统的交换机在电层交换的作用。
Google 在建设自己的数据中心过程中,由于在部署规模、灵活可用、模块化部署、安全性、功耗和性能等方面有更高要求,传统电交换不满足相关的互联需求,因此引入了 OCS形成新的解决方案。根据 Google 论文的数据,在搭建 TPUv4 的集群时,与传统 Infiniband交换机方案相比,OCS 方案成本更低,功耗更低,部署更快,其中 OCS 和其他光学组件的成本在系统总成本的占比低于 5%,功耗占比低于 3%。目前 OCS 在 Google 基础设施中主要有 Jupiter 数据中心和 TPU 数据中心两大应用场景,其中后者为专注于 AI 算力的数据中心。
(一)OCS 的应用场景 1:Jupiter 数据中心
Jupiter:Google 自研的第五代网络架构。早期 Google 的数据中心里使用的是一种非常简易的网络集群架构,由 4 个商用路由器串联成环构成,512 台 ToR 交换机与每个商用路由器都连接,每台 ToR 交换机与 40 台服务器相连,从而形成了一个 512×40,约 2 万台服务器的集群。这种架构缺点很明显,可扩展性差,同时也不适用于大带宽应用场景。
由于其业务对带宽需求和数据中心分布式计算基础设施的规模要求较高,从 2005 年开始,Google 即推出第一代自研网络架构 Firehose,通过定制数据中心网络硬件和软件去实现所需规模大小的集群构建。随后历经了五代架构的演进后,逐步形成目前的 Jupiter架构。
初代 Jupiter 一鸣惊人,最大可支持超过 3 万台服务器组网。在 2015 年论文《Jupiter Rising: A Decade of Clos Topologies and Centralized Control in Google’s Datacenter Network》中,可以看到 Jupiter 主要应用 CLOS 架构,由 ToR、Spine 块和 Aggregation 块三大部分组成,其中最基础的交换单元都是商用交换芯片,单芯片可提供 16x40G 或者 64x10G 的端口连接。4 个交换芯片是通过一台 Centauri 交换机来提供。
· Spine 块:内部由 6 台 Centauri 交换机组成。逻辑上会再分成两层,上层由 4 台Centauri 交换机的一半交换芯片组成,向下可提供 32x40G 端口;下层由 2 台完整的 Centauri 交换机以及 4 台 Centauri 交换机剩下一半的交换芯片所组成,可向上行的上层 Spine 交换机和下行的 Aggregation 交换机分别提供 128x40G 端口;
· Aggregation 块:内部由 8 个中间(Middle)块组成,每个中间块由 4 台 Centauri交换机组成,每个中间块可向上行的上层 Spine 交换机提供 64x40G 端口和下行的 ToR 交换机分别提供 256x10G 端口;
· ToR 交换机:即 Centauri 交换机,由两组共 4 个交换芯片所组成,单个交换芯片被配置为 48x10G 的下行与服务器连接和 8x2x10G 的上行与 8 个中间块交换机连接。
在最大的配置环境中,Jupiter 可为服务器提供总共 1.3 Pbps 的网络带宽,即可支持超过3 万台端口速率为 40Gbps 的服务器接入。
Jupiter 网络架构持续升级,引入 OCS 实现能力的跃升。在初代 Jupiter 的基础上,Google对网络架构进行持续升级,通过引入 OCS(Optical Circuit Switches,光交换机)取代 Spine层传统电交换机,将网络逻辑拓扑由 CLOS 架构演进到 Aggregation 块的直接光互联。由于 OCS 采用光交换,对传输的速率无感,通过进一步引入 WDM(波分复用)和环形器等技术可以实现在单根光纤上传输通道数的增加以及 Tx/RX 双路信号,提升单光纤的数据传输速率,实现整个 Jupiter 网络互联带宽的数倍增长。基于以上的技术革新,Jupiter已实现超过 6 Pbps 带宽容量,即相对于初代实现约 5 倍带宽提升的同时,电力消耗减少了 41%,成本降低 30%。
(二)OCS 的应用场景 2:TPUv4 计算中心
Google 自研的低成本高性能 TPUv4 超级计算机集群。TPUv4 的超级计算机自 2020 年开始在 Google 得到大规模应用,系统由 4096 个 TPUv4 芯片组成,共享 256 TiB 的 HBM内存,总算力超过 1 ExaFLOP。网络架构中引入了 OCS 等 Jupiter 的核心技术。目前 Google已经部署了数十台 TPU v4 超级计算机,供内部使用和外部通过 Google Cloud 使用。在TPUv4 超级计算机中,最基础的物理算力单元是 TPU 芯片,系统的设备组成路径如下:
· TPUv4 Package:即单芯片,主要由 1 个 ASIC+4 个 HBM 堆栈封装
· TPUv4 Tray:即单板卡,由 4 个 TPUv4 芯片组成,每个 TPUv4 芯片会出 6 条链路,其中两条用于板内连接,四条用于板间连接。TPUv4 芯片在板卡内以 mesh方式连接,在板卡间则以 3D Torus 连接。板块前面板分布有 4 个 PCIE 连接器和16 个用于在板卡间核间互联(ICI,Inter-Core Interconnect)连接的 OSFP 接口,即每个 TPUv4 芯片对应 1 个 PCIE 3x16 接口和 4 个支持 400G 双工的 OSFP 接口。板卡采用液冷散热方式。
· TPUv4 Rack:即单机柜,由 16 个 TPUv4 Tray 组成,共计 64 颗 TPUv4 芯片,因此也称为 4×4×4 Cube。机柜内的两个 TPUv4 Tray 之间通过无源电缆(铜缆)进行连接,形成 4×4×4 的 3D mesh 结构。每个 Rack 都需要和每个 OCS 交换机连接,光模块用于 Rack 与 OCS 之间的连接,主要为单模光模块。
· TPUv4 Supercomputer:也称为 Pod,由 64 个 TPUv4 Rack 组成,共计 64×64=4096颗 TPUv4 芯片。每个 Rack 都需要和每个 OCS 交换机一一连接。
系统使用的光模块数量为 TPU 数量的 1.5 倍。一个 Rack 即为一个 4×4×4 的 Cube 立方体,由 64 个 TPUv4 芯片组成。立方体内部的连接较为简单,节点主要通过铜缆进行连接,组成 3D mesh 拓扑。立方体外部连接较复杂,共有三个维度 6 个面,每个面 16 个节点,每个节点都需与 OCS 交换机连接,即每个面都会与一组 16 台 OCS 交换机连接。同一个维度相对的两面(上下、左右、前后)都需要连接到同一组的 OCS 交换机连接,形成 3D Torus 拓扑。光路系统的成本控制得很低,在整个 TPU v4 超级计算机成本中占 5%以下。可以算出每台 TPUv4 超级计算机中,相关器件的用量:· TPU 芯片数量:4096 个;
· OCS 交换机数量:XYZ 三个维度,每个维度 16 台,共 48 台;
· 光通路数量:每个 cube 需要 6(面)×16(节点)=96 个对外的光通路连接,因此 64 个 cube 对应 64×96=6144 个光通路;
· 光模块数量:每个光通路需要 1 个光模块实现 Cube 侧的电光/光电转换,因此整个系统需要 6144 个光模块。即光模块数量为 TPU 数量的 1.5 倍。
· 内部铜缆连接数量:Rack 内部的板卡间是通过铜缆连接,因此每个 Rack 内部 16块 TPUv4 板卡之间需要 80 条铜缆连接,64 个 Cube 对应 64×80=5120 条铜缆。
三、深度剖析 Google OCS 解决方案:器件高度定制化
(一)基于 MEMS 器件的 OCS 成为新的光交换方案OCS 是简单高效的光交换解决方案。业界对于光交换的技术研究比较早,此前包括压电光开关、机械式光开关和 MEMS 系统等都有过一定的商业应用。Google 认为相对于电交换,基于 MEMS 的光交换方案在对数据速率及波长不敏感、低功耗、低延迟等方面都具备优势,因此选择了自研 OCS、光模块和光环形器三大主要器件,以构成一个低成本高效益的大规模光交换系统。OCS 的结构较为简单,大体上可以分成两套子系统:
· 子系统 1:主要用于检测控制。由 2 个 850nm 激光发射模组、3 个 850nm 激光可穿透的二向色镜、2 个 MEMS 反射镜阵列、2 个摄像模组所组成,主要的功能是通过检测 850nm 激光在光交互通道中的传输状态,调整 MEMS 反射镜的相关参数,从而实现路径上光信号损耗最小;
· 子系统 2:光交换的实际链路。由 2 个 136 通道的光纤准直器阵列、3 个二向色镜、2 个 MEMS 反射镜阵列所组成,通过 MEMS 反射镜的调整控制,实现经过两个光纤准直器所接入的光通路之间的互联互通。
MEMS 反射镜是 OCS 的核心组成器件。每个 MEMS 反射镜模组采用陶瓷封装,内部在一块 MEMS 芯片上制作了 176 个微镜,每个镜子都可以单独可控,镜子表面镀金以最大程度减少光路上的损耗,在最终完全校准后的系统中将有 136 个微镜用于实际光开关中。
每个微镜可通过四个梳状驱动进行调整,在 X 轴和 Y 轴两个自由度上旋转从而实现所需的角度形成光通路。在这个 MEMS 的光交换核心之外,还有配置 272 个 LC/APC 连接器的前面板、12 块高压驱动板、CPU 控制板、电源及风扇等,共同组成了一个完整的具备136×136 双工端口的 OCS。据论文《Mission Apollo: Landing Optical Circuit Switching at Datacenter Scale》数据,已有数万个 OCS 已经制造并被部署。
--- 报告摘录结束 更多内容请阅读报告原文 ---
报告合集专题一览 X 由【报告派】定期整理更新
(特别说明:本文来源于公开资料,摘录内容仅供参考,不构成任何投资建议,如需使用请参阅报告原文。)