性价比超H100，英特尔发布中国版Gaudi2 AI加速卡

作者：机器之心Pro发布时间：2023-07-12

生成式AI 深度学习大语言模型

机器之心发布

编辑：泽南

英特尔会是国内生成式 AI 算力的更优解吗？

在大语言模型（LLM）领域，越强大的模型就越需要算力。最近有消息称，当前业界标杆 GPT-4 在训练中使用了约 2.5 万块 A100，训练时长超过 90 天。

如此高门槛的生成式 AI 赛道上，各家科技公司的竞争却异常激烈，国内市场甚至出现了 AI 加速卡供不应求的状态。对于 AI 训练的算力，人们一直以来都在依赖 GPU，最近，英特尔面向国内提出了一个新的解决方案。

7 月 11 日在北京举行的发布会上，英特尔正式于中国市场推出第二代 Gaudi 深度学习加速器 ——Habana Gaudi2。

昨天的活动中，英特尔介绍了 Gaudi2 芯片的性能，并讨论了面向中国市场的英特尔 AI 战略、最新 AI 相关产品技术进展和解决方案的应用。

「Gaudi 深度学习加速器的大语言模型训练能力进一步丰富了我们的人工智能产品阵列，」英特尔公司执行副总裁、数据中心与人工智能事业部总经理 Sandra Rivera 表示。「对于在中国运行深度学习训练和推理工作负载的客户来说，与市场上其他面向大规模生成式 AI 和大语言模型的产品相比，Gaudi2 是更理想的选择。除了在性能表现上超过 A100 之外，Gaudi2 在各种最先进的模型上相对于 A100 提供了约两倍的性价比。」

上周，英特尔 Habana Gaudi2 深度学习加速器和第四代英特尔至强可扩展处理器在 MLPerf Training 3.0 基准测试的最新榜单上展示了令人印象深刻的结果。该基准由 MLCommons 发布，是业内广泛认可的 AI 性能行业标准。

Gaudi2 加速器在计算机视觉模型 ResNet-50（8 卡）、Unet3D（8 卡），以及自然语言处理模型 BERT（8/64 卡）上均取得了优异的训练结果，在每个模型上性能都优于 A100，部分任务上接近 H100。

此外，在大语言模型 GPT-3 的评测上，Gaudi2 也展现了实力。它是仅有的两个提交了 GPT-3 LLM 训练性能结果的解决方案之一（另一个是英伟达 H100）。在 GPT-3 的训练上，英特尔使用 384 块 Gaudi 2 加速器使用 311 分钟训练完成，在 GPT-3 模型上从 256 个加速器到 384 个加速器实现了近线性 95% 的扩展。

「相比之下，英伟达在 512 块 H100 GPU 上的训练时间则为 64 分钟。这意味着，基于 GPT-3 模型，每个 H100 的性能领先于 Gaudi2 3.6 倍，」Habana Labs 首席运营官 Eitan Medina 表示。「性价比是影响 H100 和 Gaudi2 相对价值的重要考量因素。Gaudi2 服务器的成本要比 H100 低得多。即使还没有配备 FP8，Gaudi2 在性价比上也胜过了 H100。」

英特尔表示，Gaudi2 在 MLPerf 上提交的结果没有经过模型或框架的特殊调校，这意味着用户也可以在本地或云端部署 Gaudi2 时获得类似的性能结果。

Gaudi2 在服务器和系统成本方面还具有显著的成本优势，这使得它可以成为英伟达 H100 的有力竞争对手。

去年，英特尔旗下的 Habana Labs 推出了第二代 AI 训练加推理芯片 Gaudi2。与头一代产品相比，Habana Gaudi 2 使用的制程工艺从 16 纳米跃升至 7 纳米，在矩阵乘法（MME）和 Tensor 处理器核心计算引擎中引入了 FP8 在内的新数据类型，Tensor 处理器核心数量增至 24 个，同时集成了多媒体处理引擎，内存升级至 96GB HBM2E。

在当前生成式 AI 看重的扩展性能方面，国内版本的 Gaudi2 每张芯片集成了 21 个专用于内部互联的 100Gbps（RoCEv2 RDMA）以太网接口（相比海外版本略有减少），从而实现了低延迟的服务器内扩展。

为支持客户轻松构建模型，或将当前基于 GPU 的应用迁移到 Gaudi2 服务器上，英特尔提供的 SynapseAI 软件套件针对 Gaudi 平台深度学习业务进行了优化。SynapseAI 集成了对 TensorFlow 和 PyTorch 框架的支持，并提供众多流行的计算机视觉和自然语言参考模型，能够满足深度学习开发者的多样化需求。

而在 Hugging Face 平台上，已有超过 5 万个模型使用 Optimum Habana 软件库进行了优化。Sandra Rivera 表示，英特尔通过与 Hugging Face 的合作，平台上的现有的模型只需要花费几十秒时间就可以调通运行在 Gaudi 加速器上。

目前，已有 OEM 厂商推出了基于英特尔 AI 加速卡的产品。在发布活动中，英特尔宣布 Gaudi2 首先将通过浪潮信息向国内客户提供，其服务器集成了 8 块 Gaudi2 加速卡 HL-225B，还包含两颗第四代英特尔至强可扩展处理器。

在昨天的活动中，英特尔也透露了其在 AI 加速领域的未来发展方向。下一代 Gaudi 3 芯片预计在明年推出，将采用台积电 5 纳米制程，也会同期推出国内版。而在 2025 年左右，英特尔计划将 Gaudi 与其现有 GPU 产品线进行整合。