当前位置:首页|资讯|融资|AI芯片|AIGC|汽车|人工智能

招商策略:从GTC 2024大会看AI产业投资方向

作者:金融界发布时间:2024-03-23

原标题:招商策略:从GTC 2024大会看AI产业投资方向

张夏 李昊阳 郭佳宜

GTC 2024大会于3月18日至3月21日在加州圣何塞会议中心举行,围绕着“人工智能”主题,该会议组织了900场演讲、培训、研讨会和小组讨论。在大会上,NVIDIA创始人兼首席执行官黄仁勋在圣何塞SAP中心登台,发表GTC 2024的主题演讲《见证AI的变革时刻》,涉及AI芯片、AIGC、人形机器人以及智能汽车等热门方向。

核心观点

在过去的一年多时间里,由ChatGPT引领的AI热潮影响着各行各业,全球见证了AI产业的寒武纪式爆发。在AI基础设施方面,科技巨头不断升级服务器算力,力求以更快的速度和更低的成本训练和推理模型;在AI技术应用方面,ChatGPT、Sora等生成式AI带来了全新的产业机遇,人形机器人正成为多方竞逐的新赛道,而智能驾驶和智能家居等领域则趋向成熟化。

在人工智能产业飞速升级和迭代的场景下,以GTC 2024大会为基础,我们重点关注以下AI热门产业投资方向:

【AI芯片】NVIDIA发布Blackwell新架构,将两个Blackwell NVIDIA B200 Tensor Core GPU连接到NVIDIA Grace CPU。同时,NVIDIA还发布了其多节点、液冷、机架级系统NVIDIA GB200 NVL72,在单个机架中可实现720 petaflops的AI训练性能和1.4 exaflops的AI推理性能。此外,NVIDIA还推出了更强大的新一代AI超级计算机,由GB200 Grace Blackwell超级芯片提供支持的DGX SuperPOD,可用于处理万亿参数模型,实现超大规模生成式AI训练和推理工作负载。

【AIGC】NVIDIA发布生成式AI部署助手微服务NIM,NVIDIA NIM是一组经过优化的云原生微服务,旨在缩短上市时间并简化在云端、数据中心和GPU加速工作站上部署生成式AI模型。NIM支持社区模型等多种AI模型,可支持大语言模型等多个领域的AI用例,已被Cadence等领先的应用平台提供商所采用,AI微服务被认为是每个行业的企业成为AI公司的基石。

【人形机器人】NVIDIA正式发布世界首款人形机器人模型Project GR00T。为大规模训练GR00T,NVIDIA还开发了用于大规模强化学习的NVIDIA Isaac Lab,并建立了用于计算编排服务的NVIDIA OSMO。此外,NVIDIA发布了一款基于NVIDIA Thor系统级芯片SoC的新型人形机器人计算机Jetson Thor,该计算平台能够执行复杂任务并安全自然地实现人机交互。

【智能汽车】NVIDIA发布为生成式AI应用而设计的车载计算平台DRIVE Thor,该系统可以在集中式平台上提供功能丰富的驾驶舱功能,以及安全可靠的高度自动化和自动驾驶服务。多家领先的电动汽车制造商展示了由DRIVE Thor驱动的下一代AI车型;长途货运卡车、无人驾驶出租车、货物配送车等研发公司,也将利用NVIDIADrive Thor满足L4等高级别自动驾驶需求。

回顾整个GTC 2024大会,我们发现人工智能正在各行各业飞速发展,AI产业迎来爆发式增长。正如NVIDIA创始人黄仁勋的演讲主题所说,我们正在“见证AI的变革时刻”。

风险提示:宏观经济波动,主观预判存在偏差,产业发展不及预期。

目 录

01

GTC 2024 大会热点聚焦

GTC 2024大会于3月18日至3月21日在美国加州圣何塞会议中心举行,该会议组织了900场演讲、培训、研讨会和小组讨论,吸引了300家参展商以及来自195个国家/地区的31.9万线上参会者。北京时间2024年3月19日4时-6时,NVIDIA创始人兼首席执行官黄仁勋在美国加州圣何塞SAP中心登台,发表GTC 2024的主题演讲《见证AI的变革时刻》,涉及AI芯片、AIGC、人形机器人以及智能汽车等热门赛道。

在《见证AI的变革时刻》演讲中,黄仁勋提及以下热点:

▶ AI芯片

在GTC 2024大会上,NVIDIA发布了其Blackwell新架构。NVIDIA GB200 Grace Blackwell超级芯片通过900GB/s超低功耗的NVLink芯片间互连,将两个Blackwell NVIDIA B200 Tensor Core GPU连接到NVIDIA Grace CPU。同时,为了扩大Blackwell的规模,NVIDIA构建了NVLink Switch新芯片。NVLink Switch和GB200共同构成了NVIDIA GB200 NVL72的关键组件,NVIDIA GB200 NVL72是一种多节点、液冷、机架级系统,利用Blackwell为万亿参数模型提供强力计算,在单个机架中可实现720 petaflops的AI训练性能和1.4 exaflops的AI推理性能。此外,NVIDIA还推出了更强大的新一代AI超级计算机,由GB200 Grace Blackwell超级芯片提供支持的DGX SuperPOD,可用于处理万亿参数模型,并具有持续的正常运行时间,以实现超大规模生成式AI训练和推理工作负载。基于Grace Blackwell架构的DGX SuperPOD由8个或以上DGX GB200系统构建而成,这些系统通过NVIDIA Quantum InfiniBand网络连接,可在FP4精度下提供11.5 exaflops的AI超级计算能力和240 TB的快速内存,并可通过额外的机架来扩展性能。

▶ AIGC

在GTC 2024大会上,NVIDIA发布生成式AI部署助手微服务NIM,容器化服务助力AI+模型。NVIDIA NIM是一组经过优化的云原生微服务,旨在缩短上市时间并简化在云端、数据中心和GPU加速工作站上部署生成式AI模型。NIM微服务通过打包算法、系统和运行优化,并添加行业标准的API,简化了AI模型部署过程,这使得开发人员可以将NIM集成到现有的应用程序和基础设施中,而无需进行大量定制或专业知识。通过使用行业标准的API,将AI模型开发和打包的复杂性抽象化,从而扩大AI模型开发人员的范围。NIM支持多种AI模型,如社区模型、NVIDIA AI基金会模型和合作伙伴提供的定制AI模型;可支持多个领域的AI用例,包括大语言模型、视觉语言模型(VLMs)以及语音、图像、视频、3D、医学成像等模型。目前,NIM已被Cadence等领先的应用平台提供商所采用,AI微服务被认为是每个行业的企业成为AI公司的基石。

▶ 人形机器人

在GTC 2024大会上,NVIDIA正式发布世界首款人形机器人模型Project GR00T(Generalist Robot 00 Technology)。GR00T 是一个通用的基础模型,承诺在仿真和现实世界中改善人形机器人运行的学习系统,旨在推动公司在机器人技术和具身智能方面的突破。黄仁勋通过视频介绍了多个由GR00T驱动的人形机器人(包括来自Agility Robotics、Apptronik、Fourier Intelligence和Unitree Robotics的产品)如何完成各种任务,展示包括医疗和物流搬运、分拣用的机械臂,以及能够做家务、打架子鼓甚至模仿人类舞蹈动作的人形家用机器人。这些机器人基于大语言模型,能够理解人类的口头指令并做出回应,展现了其在多模态交互方面的潜力。此外,NVIDIA还发布了一款基于NVIDIA Thor系统级芯片(SoC)的新型人形机器人计算机Jetson Thor。Jetson Thor是一个全新的计算平台,能够执行复杂的任务并安全、自然地与人和机器交互,具有针对性能、功耗和尺寸优化的模块化架构。同时,该SoC包括基于 Blackwell 架构的下一代 GPU,其变压器引擎可提供800 teraflops 的8位浮点AI性能,以运行GR00T等多模式生成AI模型。

▶ 智能汽车

在GTC 2024大会上,NVIDIA揭示了DRIVE Thor的最新动态。DRIVE Thor是一个车载计算平台,专为生成式人工智能应用程序而设计,可以提供功能丰富的驾驶舱功能,以及安全可靠的高度自动化和自动驾驶。该技术结合了先进的驾驶辅助技术和车载信息娱乐系统,并且采用了新宣布的NVIDIA Blackwell GPU架构(拥有1,000 万亿次浮点运算性能以确保安全可靠的自动化机器),用于变压器和生成式人工智能工作负载。同时,多家领先的电动汽车制造商展示了由DRIVE Thor驱动的下一代AI车型,其中包括全球最大电动汽车制造商比亚迪,以及广汽埃安、小鹏、理想和极氪等众多中国车企。此外,长途货运卡车、无人驾驶出租车、货物配送车等研发公司,也将利用NVIDIADrive Thor满足L4等高级别自动驾驶需求,合作厂商包括:Nuro、Plus、Waabi、WeRide。

02

GTC 2024 大会热点延伸

1、AI芯片:NVIDIA发布Blackwell新架构,GB200超级芯片应用广泛

NVIDIA发布Blackwell新架构,GB200超级芯片降低训练成本。随着人工智能的不断发展和迭代,大模型参数量正在呈指数级增长,目前OpenAI最大的模型已经有1.8万亿个参数,需要吞吐数十亿token。即使是一块PetaFLOP级别的GPU,训练这样大的模型也需要1000年才能完成。因此,在GTC 2024大会上,NVIDIA创始人黄仁勋称,“通用计算已经失去动力,现在我们需要更大的模型,我们需要更大的 GPU,更需要将 GPU 堆叠在一起。这不是为了降低成本,而是为了扩大规模。Blackwell就是为了应对这一挑战而构建的。”

Blackwell架构以一位加州大学伯克利分校的数学家David Harold Blackwell命名,他专门研究博弈论和统计学,也是第一位入选美国国家科学院的黑人学者,NVIDIA GB200 Grace Blackwell超级芯片通过900GB/s超低功耗的NVLink芯片间互连,将两个Blackwell NVIDIA B200 Tensor Core GPU连接到NVIDIA Grace CPU。

性能与训练成本方面:

▶Blackwell超级芯片拥有2080亿个晶体管,所有这些晶体管几乎同时访问与芯片连接的内存,在单芯片训练方面的FP8性能是其上一代架构的 2.5 倍,在推理方面的FP4性能是其上一代架构的 5 倍。

▶相较于Hopper GPU,Blackwell GPU的训练成本显著降低,如果要训练一个1.8万亿参数量的GPT模型,需要8000张Hopper GPU,消耗15兆瓦的电力,连续跑上90天;但如果使用Blackwell GPU,则只需要2000张,并且同样跑90天只需要消耗四分之一的电力。

GB200超级芯片应用广泛,显著提升AI训练性能和推理性能。为了扩大Blackwell的规模,NVIDIA构建了NVLink Switch新芯片,该芯片可以以每秒1.8TB的速度联接4个NVLink,并通过减少网络内流量来消除流量拥塞,NVLink Switch和GB200是构成NVIDIA GB200 NVL72的关键组件。NVIDIA GB200 NVL72是一种多节点、液冷、机架级系统,含60万个零件、重3000磅,利用Blackwell为万亿参数模型提供强力计算,在单个机架中可实现720 petaflops的AI训练性能和1.4 exaflops的AI推理性能。

此外,NVIDIA还推出了更强大的新一代AI超级计算机,由NVIDIA GB200 Grace Blackwell超级芯片提供支持的NVIDIA DGX SuperPOD,可用于处理万亿参数模型,并具有持续的正常运行时间,以实现超大规模生成式AI训练和推理工作负载。基于Grace Blackwell架构的DGX SuperPOD由8个或以上DGX GB200系统构建而成,这些系统通过NVIDIA Quantum InfiniBand网络连接,可在FP4精度下提供11.5 exaflops的AI超级计算能力和240 TB的快速内存,并可通过额外的机架来扩展性能。其中,每个DGX GB200系统搭载36个NVIDIA GB200超级芯片,包含36颗NVIDIA Grace CPU和72颗NVIDIA Blackwell GPU,这些超级芯片通过第五代NVIDIA NVLink连接成一台超级计算机。

NVIDIA深耕人工智能算力提升,不断更新迭代GPU架构:

▶Volta架构是2017年发布的NVIDIA GPU的第六代架构,Volta架构专注于深度学习和人工智能应用,并引入了Tensor Core;

▶Turing架构是2018年发布的NVIDIA GPU的第七代架构,Turing架构引入了实时光线追踪(RTX)和深度学习超采样(DLSS)等重要功能。

▶Ampere架构是2020年发布的NVIDIA GPU的第八代架构,在计算能力、能效和深度学习性能方面都有重大提升。Ampere架构的GPU采用了多个流多处理器(SM)和更大的总线宽度,提供了更多的CUDA Core和更高的频率,同时,Ampere架构引入了第三代Tensor Core,提供更强大的深度学习计算性能。此外,Ampere架构的GPU还具有更高的内存容量和带宽,适用于大规模的数据处理和机器学习任务。

▶Hopper架构是2022年发布的NVIDIA GPU的第九代架构,相较于Ampere,Hopper架构支持第四代Tensor Core,并且采用能力更强的新型流式处理器,在计算能力、深度学习加速和图形功能方面带来新的创新和改进。

基于不同架构基础,NVIDIA GPU性能持续升级:

A100是2020年发布的首次采用Ampere架构的GPU。它的性能提升得益于改进的Tensor核心、更多的CUDA核心数量、更强的内存和最快的2 Tbps内存带宽。A100支持多实例GPU功能,允许单个A100 GPU分割成多个独立的小GPU,这大大提升了云和数据中心的资源分配效率。同时,A100还支持第二代NVLink技术,实现快速的GPU与GPU通信,提升大型模型的训练速度。此外,A100还增加了功能强大的新第三代Tensor Core,同时增加了对DL和HPC数据类型的全面支持,以及新的稀疏功能,可将吞吐量进一步翻倍。A100在AI推理任务方面表现突出,在语音识别、图像分类、推荐系统、数据分析和大数据处理、科学计算场景都有优势,在基因测序和药物发现等高性能计算场景也都属于优势领域。

H100采用Hopper架构,使用专为NVIDIA定制的TSMC 4N工艺制造,拥有800亿个晶体管,能处理最具挑战性的AI工作负载和大规模数据处理任务。与A100相比,H100的FP8计算速度提升六倍,达到4 petaflops;内存增加50%,使用HBM3高带宽内存,带宽可达3 Tbps,外部连接速度几乎达到5 Tbps。此外,新的Transformer引擎使模型转换器训练速度提升高达六倍。也就是说,H100在处理大型AI模型和更复杂的科学模拟方面表现更佳,是高级对话式AI和实时翻译等实时响应型AI应用的更优选择。总的来说,相较于A100,基于Hopper架构的H100在AI训练和推理速度、内存容量和带宽以及处理大型和复杂的AI模型方面有显著的性能提升,适用于对性能有更高要求的AI和科学模拟任务。

半定制化FPGA和定制化ASIC提高AI芯片灵活性。按照技术架构,AI芯片可分为GPU、FPGA和ASIC;按照网络位置,AI芯片可分为云端芯片和边缘芯片;按照应用目标,AI芯片可分为训练芯片和推理芯片。

▶ GPU芯片可以提供更高的计算能力和效率,同时保持较低的功耗,特别适用于执行并行的计算任务。目前,GPU已被广泛应用于人工智能、机器学习等许多领域。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1