当前位置:首页|资讯

郭明錤称英伟达停止开发双柜版本 GB200(NVL36*2)AI 机柜

作者:IT之家发布时间:2024-10-02

郭明錤称英伟达停止开发双柜版本 GB200(NVL36*2)AI 机柜

全文1262字,阅读约需4分钟,帮我划重点

划重点

01郭明錤表示,英伟达将不再提供双柜版GB200(2个NVL36),仅提供单柜版本GB200 NVL72。

02单柜版NVL36仍维持原开发和出货计划。

03由于资源有限,Nvidia在供应链执行力、竞争优势与客户需求间寻求平衡。

04NVL72在推理效率上较佳,且主要客户偏好此版本。

05然而,NVL72的开发面临技术挑战,量产时程能见度仍低。

以上内容由腾讯混元大模型生成,仅供参考

IT之家 10 月 2 日消息,郭明錤昨日(10 月 1 日)发布市场投资简报,报道称在没有客户定制要求的情况下,英伟达不再提供双柜版 GB200(2 个 NVL36),仅提供单柜版本 GB200 NVL72,而单柜版 NVL36 仍维持原开发和出货计划。

IT之家附上郭明錤简报信息如下:

结论:

  • 此事不会影响 AI 与 Nvidia 的长期正向趋势,但短期可能引发部分市场参与者对 Nvidia 与供应链执行力的质疑。

  • Nvidia 近期频繁修改 AI 服务器产品蓝图,我认为这是 Nvidia 在资源有限下,想在供应链执行力、竞争优势与客户需求间取得更好的平衡点(停止 NVL36*2 开发仅是一个例子) 。这是好事,代表 Nvidia 更务实面对产品规划,但在改变过程可能会让部分市场参与者对供应链乱象感到困惑。

  • 因当前 Blackwell 伺服器的 2025 年产品出货组合能见度低 (数月前市场普遍认为只会有 NVL36、NVL72 与 NVL36*2),部分供应商如组装、散热等 2025 年展望将受到较大影响。

两个 72GPU 版本的比较:选择 NVL72 并取消 NVL36*2 的原因

  • 开发资源有限。原本的规划是,GB200 有三个案子(NVL36、NVL72、NVL36*2)同时开发中。预计自 11 月中旬开始的开发版本 (Development drop:DevDrop) 就会收敛至 NVL72 与 NVL36*2 (因 NVL36「理论上」准备进入量产阶段),并在 2025 年 3 月中旬前完成两者最后的品质验证 (Quality assurance:QA)。但在 NVL36 开发仍有不确定性下,更遑论同时开发两个 72 GPU 版本 (NVL72 与 NVL36*2)。

  • NVL72 节省资料中心空间。NVL72 若能妥善解决 Sidecar 的散热设计挑战,会比 NVL36*2 少一个机柜,提升资料中心空间效率。

  • NVL72 的推理效率较佳。受益于软件可平行化设计 (Parallelizable design),NVL72 与 NVL36*2 在 AI LLM 训练结果差异不大。但在非或不易平行化设计的推理过程中 (如自回归模型),NVL72 的表现较容易优于 NVL36*2。

  • 主要客户偏好。如微软就较偏好 NVL72,而非 NVL36*2。

  • 兑现公开的承诺。 Nvidia 在公开场合宣传重点始终都是单柜版 NVL72,为兑现公开承诺,资源有限下,NVL72 开发顺位较 NVL36*2 高。

NVL72 开发面对前所未有的技术挑战,目前量产时程能见度仍低

  • NVL72 开发最大挑战主要来自 TDP (Thermal design point) 要求为 132kW,这是有史以来功耗最高的伺服器,Nvidia 与供应链需要更多时间解决前所未有的技术问题。

  • 需注意 TDP 是指持续运行的平均功耗,而若设计不当导致瞬间最大功耗 (Nvidia 称为 EDP (Electrical design point)) 高于 TDP,则可能要两部以上的 Sidecar,若是如此,则不仅提高散热设计复杂度与量产难度,亦失去 NVL72 节省资料中心空间的优势。

  • Sidecar 另一设计挑战为需把 Approaching temp 稳定得控制在 5–10°C 内,若放宽标准则可能会影响系统稳定度。

  • 需注意的是,上述提到的高功耗挑战,牵涉到的不仅是 Sidecar,而是所有的零组件与系统设计

  • 我最新供应链调查指出,NVL72 量产时程可能须至 2H25 后 (vs. Nvidia 的乐观目标为 1H25)。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1