3月19日凌晨4点至6点,2024年英伟达GTC大会在美国加利福尼亚州的圣何塞会议中心正式拉开序幕。
作为全球市值第三大公司英伟达 2024 的开年大戏,身着标志性皮夹克的万亿富豪黄教主站在舞台中央,发表GTC 2024主题演讲《见证AI的变革时刻》,涵盖了高性能计算、生成式AI、AR/VR/MR、机器人及边缘计算等多个前沿领域。
黄仁勋在此次会议上表示:“这次GTC大会不仅是英伟达的产品宣发会,更是汇集了多家前沿科技企业与机构的开发者大会。”
他说道:“今天我们所要展示的每一样东西都是模拟生成的,而不是动画。其之所以如真实般动人,完全是因为它遵循了物理规律。世界本就充满美感。之所以让人惊叹,是因为它通过机器人技术被赋予了生命,通过人工智能被激活。您今天即将看到的所有内容都是完全生成的,完全模拟的,全在Omniverse中实现。您即将享受的,是世界上首场一切皆自制的音乐会。”
当演讲结束时,黄仁勋坦言,“如果你问我,心目中的GPU是什么样子,今天的发布就是我的答案。”英伟达已经让 AI 迎来了新的“摩尔定律”时代。
然而,市场的反应却稍显谨慎,演讲过后英伟达股价盘后一度跌超2%。但以Vivek Arya为首的美国银行分析师率先将英伟达的目标价格从925美元上调至1100美元;TD Cowen分析师给予英伟达跑赢大盘的评级和 900美元的目标价;汇丰银行也将英伟达的目标价从880美元上调至1050美元,重申了对该股的“买入”评级。
此前3月18日AI概念股全线飙涨。其中算力、CPO概念股领涨,新易盛、天孚通信、中际旭创股价均刷新历史最高纪录,寒武纪涨超13%,工业富联涨逾8%。
全新一代 Blackwell 架构芯片,重磅炸场
在大会上,英伟达正式推出Blackwell 平台。黄仁勋提到,Blackwell 不是芯片名,而是整个平台的名字。具体来讲,采用 Blackwell 架构的 GPU 分为B200 和 GB200 产品系列,后者集成了 1 个 Grace CPU 和 2 个 B200 GPU。
据介绍,Blackwell GPU以数学家David Harold Blackwell的名字命名,同样沿用了英伟达此前推出的Hopper架构。
B200 拥有 2080 亿个晶体管(而 H100/H200 上有 800 亿个晶体管),采用台积电 4NP 工艺制程,可以支持多达 10 万亿个参数的 AI 模型,还带有 192GB 速度为 8Gbps 的 HBM3E 内存,AI 算力能达到 20 petaflops(FP4 精度),相比之下上代 H100仅为4 petaflops。
黄仁勋举例称,过去如果要训练一个1.8万亿参数量的GPT模型,需要8000张Hopper GPU,消耗15兆瓦的电力,连续跑上90天,但如果使用Blackwell GPU,只需要2000张,跑90天只要消耗四分之一的电力。
同时值得注意的是,Blackwell B200 并不是传统意义上的单一GPU,它是将2个Blackwell GPU和1个Grace CPU结合在一起,能够为LLM推理工作负载提供30倍性能,同时还可大幅度提高效率。
它是世界上第一次有如此高效整合在一起的多 die 芯片,或许也是在制程升级速度减慢之后,升级算力的唯一方法。
除了芯片本身之外,此架构还采用第五代NVLink高速互联、第二代Transformer引擎,多方位全面升级。据黄仁勋介绍,这一全新的芯片将在2024年晚些时间上市。
活动现场,黄仁勋还对比了 Blackwell(右手)与 Hopper GH100 GPU(左手)的尺寸大小。
黄仁勋表示,Blackwell带来了“令人难以置信的兴奋”:“我们将会把Blackwell推广给全球的AI公司,现在有很多这样的公司都在不同领域做着令人惊奇的工作……全球各地都在签约启动Blackwell,这款Blackwell将成为我们历史上最成功的产品发布。”
目前,英伟达在公告通稿中称,微软Azure、AWS、谷歌云等一众科技巨头都已成为Blackwell架构的首批用户。
此外,英伟达还推出了基于GB200的DGX Super Pod一站式AI超算解决方案,采用高效液冷机架,搭载8套DGX GB200系统,即288颗Grace CPU和576颗B200 GPU,内存达到240TB,FP4精度计算性能达到11.5ELOPs(每秒11.5百亿亿次),相比上一代产品的推理性能提升30倍,训练性能提升4倍。
黄仁勋说,如果你想获得更多的性能,也不是不可以—发挥钞能力—在DGX Super Pod中整合更多的机架,搭载更多的DGX GB200加速卡。
Blackwell还配备了RAS引擎。为了确保可靠性、可用性和可维护性,Blackwell GPU集成了专用引擎和基于AI的预防性维护功能,以最大限度地延长系统正常运行时间并最大限度地降低运营成本。老黄表示,过去8年,计算规模扩展已经增加了1000倍。
全面升级软件服务,NVIDIA NIM
GTC 大会伴随着生成式 AI 技术爆发,算力市场逐步升温,硬件和软件方面的竞争都在加剧。
此次发布会,英伟达也在软件上火力全开。英伟达推出模型定制服务,Nvidia Inference Manager,简称 NIM。未来实现有英伟达硬件的地方,就可以进行简单的调试使用大模型。
在模型支持方面,NIM展现出强大的兼容性,不仅支持Nvidia自家的模型合作库,还与AI21 Labs、Cohere等合作伙伴及Meta、Hugging Face、Stability AI和Google等业界巨头的开源模型深度整合。此外通过Nvidia AI Enterprise平台及Microsoft Azure AI、Google Cloud Vertex AI等云服务,客户能够轻松访问NIM微服务,并与LangChain、LlamaIndex等主流AI框架无缝集成,实现对市面上主流模型的全面覆盖。
在Nim搭建过程中,Nvidia NeMo Retriever技术发挥了关键作用。利用这一技术,公司专有数据可集成到Nim微服务中,为用户提供个性化的NVIDIA NeMo体验。NeMo不仅作为一个高效检索工具,更是一个智能对话机器人,协助用户快速检索公司内部PPT等文件,提供精准的技术支持,成为每个企业不可或缺的Copilot。
此外,黄仁勋展示了基于英伟达数据和芯片行业信息的Nvidia ChipNeMo,它依托开源Llama2模型,利用英伟达专有数据可回答只有英伟达内部CTL实验细节问题。这一NeMo微服务不仅限于内部使用,还能跨公司共享,成为工业大模型的GPT Store,企业可添加自身数据,轻松获得专有大模型。为此英伟达推出ai.nvidia.com平台承载这些NeMO,助力传统企业快速实现AI转型,无论是构建专有模型还是连接企业私有数据,都将变得简单高效。
黄仁勋表示 “成熟的企业平台坐拥数据金矿, 他们掌握了大量可以转化为副驾驶的数据,当你准备好运行这些人工智能聊天机器人时,你将需要一个人工智能铸造厂”。NIM正是这样一个铸造厂。它帮助构建企业AI转型的Copilot级产品,可以被视为公司AI化所需的基石。
目前,NeMo微服务的整体架构这一产品,将首先在即将发布的NVIDIA AI企业版第五版中搭载。英伟达全公司已经都用上了Nim,包括Box、Cloudera、Cohesity、Datastax、Dropbox等合作伙伴也都已经参与Nim的使用和优化过程。
Project GR00T,机器人领域通用大模型发布
据了解,英伟达目前正在构建包括NVIDIA IAI、Omniverse、ISAAC三大平台,三大平台均与机器人产业高度关联。其中NVIDIA IAI搭载DGX系列产品,用于模拟物理世界,Omnivese搭载RTX和OVX系列产品,用于驱动数字孪生的计算系统,ISAAC搭载AGX系列,用于驱动人工智能机器人。
此次大会,黄仁勋宣布了Project GR00T项目-一个人形机器人的模型平台,基于 Jetson Thor(英伟达的一款 GPU)来开发生产机器人。由GR00T驱动的机器人可以更好地理解自然语言,并通过观察人类动作来模拟运动。
Jetson Thor是英伟达推出的全新计算平台,具备模块化架构,优化性能、功耗和尺寸,可安全、自然地与人和机器交互。该平台集成下一代GPU和Transformer Engine,采用Blackwell架构,提供每秒 800 万亿次8位浮点运算 AI 性能,以运行 GR00T 等多模态生成式 AI 模型,从而集成功能安全处理器、高性能 CPU 集群和 100GB 以太网带宽,轻松应对复杂任务。
“开发通用人形机器人基础模型是当今 AI 领域中最令人兴奋的课题之一。世界各地的机器人技术领导者正在汇集各种赋能技术,致力于在人工通用机器人领域实现突破。”黄仁勋表示。
演讲最后,黄仁勋并没有进行一个高昂的总结展望,以一排人形机器人影像与两个小机器人做了收尾。
黄仁勋说:“在人类世界里,类人机器人无疑会发挥巨大的作用,当下我们所设置的这些工作站、制造和物流的方式,从长远角度来看,或许并非为人类而设计,却是为类人机器人所设计的。”
目前英伟达表示,正在为领先的人形机器人公司开发一个综合的 AI 平台,如 1X Technologies、Agility Robotics、Apptronik、波士顿动力公司、Figure AI、傅利叶智能、Sanctuary AI、宇树科技和小鹏鹏行等。
黄仁勋对开发者影响
黄仁勋曾指出,加速计算和生成式AI已迎来转折点。过去30年,英伟达深耕加速计算领域,解决通用计算不擅长的问题。他认为,AI是被加速计算所推动的伟大发明,很可能是21世纪最重要的技术。
生成式AI将改变信息处理方式,从检索转向生成。未来计算形态将发生变化,持续训练成为常态,学习、训练、部署和应用过程将融为一体,形成持续循环,当计算成本降低到接近零时,AI计算机将具备自我改进能力,合成数据并进行强化学习。
据专家预测,五年后文本、图像、视频和语音等将实时输入大语言模型(LLM),计算机将直通所有信息源,通过多模态交互不断自我改进。
黄仁勋表示,未来将是持续学习的时代,人们可以选择是否部署学习成果,与计算机的交互也将更加自然,无需依赖复杂编程语言,AI正在弥合人类与技术之间的鸿沟,让更多人能够享受技术带来的便利。
“我们要如何让计算机按自己的想法做事?我们要如何在计算机上实现指令微调?这些问题的答案就是提示词工程,而且更多是种艺术、而非单纯的技术。”也就是说人类将可以专注于领域专业知识,而生成式 AI 将补齐编程技能这块短板。黄仁勋认为这将彻底颠覆软件的开发格局。
目前,英伟达正围绕大模型提供专业知识,为企业客户提供高效支持,助力人们更好地利用AI技术实现创新。在黄仁勋看来,英伟达所做的每一件事,都是在创造技术,同时创造市场。