老黄再扔AI“炸弹”，最强AI芯片GPUB200面世，30倍性能飙升

作者：EDA365电子论坛发布时间：2024-03-20

3月19日凌晨4点至6点，2024年英伟达GTC大会在美国加利福尼亚州的圣何塞会议中心正式拉开序幕。

作为全球市值第三大公司英伟达 2024 的开年大戏，身着标志性皮夹克的万亿富豪黄教主站在舞台中央，发表GTC 2024主题演讲《见证AI的变革时刻》，涵盖了高性能计算、生成式AI、AR/VR/MR、机器人及边缘计算等多个前沿领域。

黄仁勋在此次会议上表示：“这次GTC大会不仅是英伟达的产品宣发会，更是汇集了多家前沿科技企业与机构的开发者大会。”

他说道：“今天我们所要展示的每一样东西都是模拟生成的，而不是动画。其之所以如真实般动人，完全是因为它遵循了物理规律。世界本就充满美感。之所以让人惊叹，是因为它通过机器人技术被赋予了生命，通过人工智能被激活。您今天即将看到的所有内容都是完全生成的，完全模拟的，全在Omniverse中实现。您即将享受的，是世界上首场一切皆自制的音乐会。”

当演讲结束时，黄仁勋坦言，“如果你问我，心目中的GPU是什么样子，今天的发布就是我的答案。”英伟达已经让 AI 迎来了新的“摩尔定律”时代。

然而，市场的反应却稍显谨慎，演讲过后英伟达股价盘后一度跌超2%。但以Vivek Arya为首的美国银行分析师率先将英伟达的目标价格从925美元上调至1100美元；TD Cowen分析师给予英伟达跑赢大盘的评级和 900美元的目标价；汇丰银行也将英伟达的目标价从880美元上调至1050美元，重申了对该股的“买入”评级。

此前3月18日AI概念股全线飙涨。其中算力、CPO概念股领涨，新易盛、天孚通信、中际旭创股价均刷新历史最高纪录，寒武纪涨超13%，工业富联涨逾8%。

全新一代 Blackwell 架构芯片，重磅炸场

在大会上，英伟达正式推出Blackwell 平台。黄仁勋提到，Blackwell 不是芯片名，而是整个平台的名字。具体来讲，采用 Blackwell 架构的 GPU 分为B200 和 GB200 产品系列，后者集成了 1 个 Grace CPU 和 2 个 B200 GPU。

据介绍，Blackwell GPU以数学家David Harold Blackwell的名字命名，同样沿用了英伟达此前推出的Hopper架构。

B200 拥有 2080 亿个晶体管（而 H100/H200 上有 800 亿个晶体管），采用台积电 4NP 工艺制程，可以支持多达 10 万亿个参数的 AI 模型，还带有 192GB 速度为 8Gbps 的 HBM3E 内存，AI 算力能达到 20 petaflops（FP4 精度），相比之下上代 H100仅为4 petaflops。

黄仁勋举例称，过去如果要训练一个1.8万亿参数量的GPT模型，需要8000张Hopper GPU，消耗15兆瓦的电力，连续跑上90天，但如果使用Blackwell GPU，只需要2000张，跑90天只要消耗四分之一的电力。

同时值得注意的是，Blackwell B200 并不是传统意义上的单一GPU，它是将2个Blackwell GPU和1个Grace CPU结合在一起，能够为LLM推理工作负载提供30倍性能，同时还可大幅度提高效率。

它是世界上第一次有如此高效整合在一起的多 die 芯片，或许也是在制程升级速度减慢之后，升级算力的唯一方法。

除了芯片本身之外，此架构还采用第五代NVLink高速互联、第二代Transformer引擎，多方位全面升级。据黄仁勋介绍，这一全新的芯片将在2024年晚些时间上市。

活动现场，黄仁勋还对比了 Blackwell（右手）与 Hopper GH100 GPU（左手）的尺寸大小。

黄仁勋表示，Blackwell带来了“令人难以置信的兴奋”：“我们将会把Blackwell推广给全球的AI公司，现在有很多这样的公司都在不同领域做着令人惊奇的工作……全球各地都在签约启动Blackwell，这款Blackwell将成为我们历史上最成功的产品发布。”

目前，英伟达在公告通稿中称，微软Azure、AWS、谷歌云等一众科技巨头都已成为Blackwell架构的首批用户。

此外，英伟达还推出了基于GB200的DGX Super Pod一站式AI超算解决方案，采用高效液冷机架，搭载8套DGX GB200系统，即288颗Grace CPU和576颗B200 GPU，内存达到240TB，FP4精度计算性能达到11.5ELOPs（每秒11.5百亿亿次），相比上一代产品的推理性能提升30倍，训练性能提升4倍。

黄仁勋说，如果你想获得更多的性能，也不是不可以—发挥钞能力—在DGX Super Pod中整合更多的机架，搭载更多的DGX GB200加速卡。

Blackwell还配备了RAS引擎。为了确保可靠性、可用性和可维护性，Blackwell GPU集成了专用引擎和基于AI的预防性维护功能，以最大限度地延长系统正常运行时间并最大限度地降低运营成本。老黄表示，过去8年，计算规模扩展已经增加了1000倍。

全面升级软件服务，NVIDIA NIM

GTC 大会伴随着生成式 AI 技术爆发，算力市场逐步升温，硬件和软件方面的竞争都在加剧。

此次发布会，英伟达也在软件上火力全开。英伟达推出模型定制服务，Nvidia Inference Manager，简称 NIM。未来实现有英伟达硬件的地方，就可以进行简单的调试使用大模型。

在模型支持方面，NIM展现出强大的兼容性，不仅支持Nvidia自家的模型合作库，还与AI21 Labs、Cohere等合作伙伴及Meta、Hugging Face、Stability AI和Google等业界巨头的开源模型深度整合。此外通过Nvidia AI Enterprise平台及Microsoft Azure AI、Google Cloud Vertex AI等云服务，客户能够轻松访问NIM微服务，并与LangChain、LlamaIndex等主流AI框架无缝集成，实现对市面上主流模型的全面覆盖。

在Nim搭建过程中，Nvidia NeMo Retriever技术发挥了关键作用。利用这一技术，公司专有数据可集成到Nim微服务中，为用户提供个性化的NVIDIA NeMo体验。NeMo不仅作为一个高效检索工具，更是一个智能对话机器人，协助用户快速检索公司内部PPT等文件，提供精准的技术支持，成为每个企业不可或缺的Copilot。

此外，黄仁勋展示了基于英伟达数据和芯片行业信息的Nvidia ChipNeMo，它依托开源Llama2模型，利用英伟达专有数据可回答只有英伟达内部CTL实验细节问题。这一NeMo微服务不仅限于内部使用，还能跨公司共享，成为工业大模型的GPT Store，企业可添加自身数据，轻松获得专有大模型。为此英伟达推出ai.nvidia.com平台承载这些NeMO，助力传统企业快速实现AI转型，无论是构建专有模型还是连接企业私有数据，都将变得简单高效。

黄仁勋表示 “成熟的企业平台坐拥数据金矿，他们掌握了大量可以转化为副驾驶的数据，当你准备好运行这些人工智能聊天机器人时，你将需要一个人工智能铸造厂”。NIM正是这样一个铸造厂。它帮助构建企业AI转型的Copilot级产品，可以被视为公司AI化所需的基石。

目前，NeMo微服务的整体架构这一产品，将首先在即将发布的NVIDIA AI企业版第五版中搭载。英伟达全公司已经都用上了Nim，包括Box、Cloudera、Cohesity、Datastax、Dropbox等合作伙伴也都已经参与Nim的使用和优化过程。

Project GR00T，机器人领域通用大模型发布

据了解，英伟达目前正在构建包括NVIDIA IAI、Omniverse、ISAAC三大平台，三大平台均与机器人产业高度关联。其中NVIDIA IAI搭载DGX系列产品，用于模拟物理世界，Omnivese搭载RTX和OVX系列产品，用于驱动数字孪生的计算系统，ISAAC搭载AGX系列，用于驱动人工智能机器人。

此次大会，黄仁勋宣布了Project GR00T项目-一个人形机器人的模型平台，基于 Jetson Thor（英伟达的一款 GPU）来开发生产机器人。由GR00T驱动的机器人可以更好地理解自然语言，并通过观察人类动作来模拟运动。

Jetson Thor是英伟达推出的全新计算平台，具备模块化架构，优化性能、功耗和尺寸，可安全、自然地与人和机器交互。该平台集成下一代GPU和Transformer Engine，采用Blackwell架构，提供每秒 800 万亿次8位浮点运算 AI 性能，以运行 GR00T 等多模态生成式 AI 模型，从而集成功能安全处理器、高性能 CPU 集群和 100GB 以太网带宽，轻松应对复杂任务。

“开发通用人形机器人基础模型是当今 AI 领域中最令人兴奋的课题之一。世界各地的机器人技术领导者正在汇集各种赋能技术，致力于在人工通用机器人领域实现突破。”黄仁勋表示。