无论生成式AI谁是弄潮儿,英伟达都是最大赢家。
作者|范文婧 赵健
上个月,英伟达创始人兼CEO黄仁勋在演讲中兴奋地谈论ChatGPT带来的变化,感叹这是“人工智能的iPhone时刻”。
而在昨晚英伟达的年度活动GTC(GPU Technology Conoference)演讲中,黄仁勋又把“AI的iPhone时刻”这句话重复了三遍。
英伟达与AI的关系不可谓不密切。2012年,Alex koshevsky、Elias suskaver和Jeff Hinton的研究团队,在英伟达Geforce GTX 580上使用1400万张图片训练了AlexNet计算机视觉模型,可处理262千万亿次浮点运算。经过训练的模型以压倒性优势赢得了ImageNET挑战赛,并触发了深度学习的大爆炸。
十年之后,相同的戏码再次上演。OpenAI凭借10000片英伟达GPU芯片来训练GPT-3大语言模型,需要进行323 x 10^21次浮点运算,比AlexNet多出一百万倍,然后创造出了震惊世界,也震惊了黄仁勋自己的ChatGPT。
在ChatGPT以及生成式AI的热潮下,英伟达的股价节节攀升,今年以来涨幅超过80%,市值接近6500亿美元,一举超过特斯拉。
英伟达也把AI当做一次二次腾飞的机遇。2023年初各大科技公司财报发布,英伟达提及AI 75次,超过谷歌、微软、Meta。本周为期四天的GTC活动包含了650多场会议,由众多研究者、开发者和行业领袖参与,其中仅生成式AI的主题会议就超过70场。
黄仁勋曾热切地表示:“AI 正迎来有史以来最辉煌的时刻。新的 AI 技术和迅速蔓延的应用正在改变科学和各行各业,并为成千上万的新公司开辟新的疆域。这将是我们迄今为止最重要的一次 GTC。”
英伟达确实没有让观众失望,在不到80分钟的演讲中, 黄仁勋发布了四款AI推理芯片,包括针对生成式AI图像处理、大模型处理的芯片;发布了三个大模型云服务,分别适用于文本、图像和生物研究;发布了超级计算机,以及针对场景优化的应用100个、更新功能的工业元宇宙Omniverse。
作为一家以GPU为核心的公司,英伟达不满足于只提供算力,早已布局AI的各个领域。十年之前的深度学习浪潮让英伟达赢了第一次,十年之后的生成式AI浪潮,英伟达还会继续赢第二次吗?
生成式AI时代更加需要英伟达GPU的算力。黄仁勋首先展示了英伟达加速计算能力的更新。
除了底层的芯片,英伟达早在2006年就推出了CUDA生态,以帮助用户通过简单编程来使用GPU。针对不同的应用、场景,英伟达会做相应的适配和优化,也即“加速库”。
现有的300个加速库和400个AI模型覆盖了量子计算、数据处理、机器学习等广泛的领域,已经有数千款应用被优化。
而这次的GTC上,英伟达又更新了100个场景。
这些场景包括,在CAE软件中完成流体力学(CFD)的计算、助力量子计算研究平台(cuQuantm)、优化数据库中的搜索(Spark-Rapids)、优化捡取与配送难题PDP(配送多个地点最短路程计算)等,并且已经在客户实际体验中获得了验证。
除此之外,英伟达原有多个推理SDK也有更新,包括在推理时针对指定GPU进行优化的TensorRT、用于数据中心深度学习框架加速的Triton,以及用于机器视觉的CV-CUDA、用于视频处理的VPF等。
英伟达的100个加速库场景(部分)
值得一提的是,一直不掺和芯片制造的英伟达,这次通过一个特别的方式“参与”了一下。
芯片制造对精度的要求极高,一些产品的精度甚至是细菌的千分之一,与人类DNA链的尺寸相似。“光刻”是芯片制造最重要的环节之一,它指的是通过光学技术在晶圆上成像,以达到设计及性能预期。目前,它的精度已经可以达到3纳米,也即“3纳米制程”。
这样的光刻技术也需要大量的计算,而且是芯片设计和生产中消耗计算量最大的部分,每年需要百亿的CPU工作小时,芯片制造商每年的投资预计2000亿美元。
英伟达本次与台积电、ASML、Synopsys合作,推出计算光刻库——cuLitho。这个由芯片制造、光刻机、EDA和算力四个领域Top1企业合作的产品,已经筹备了整整四年,将光刻计算加速了40倍,从原来处理完一个掩膜版的2周缩短到了8小时。
台积电将在6月开始验证cuLitho。
英伟达的加速计算始于其AI超级计算机DGX,这是大语言模型背后的动力引擎。
2016年,全球首款DGX由黄仁勋亲手交付给OpenAI,此后《财富》100强企业中有一半都安装了DGX,DGX成为AI研究的必备工具。
DGX配有8个H100 GPU模组。 H100设计了一个专用的模块来支持transformer架构——ChatGPT的底层架构。这在GPU领域是开创性的。
H100在去年GTC发布,是目前地表最强GPU。8个H100协同工作,通过NVLINK Switch彼此相连,组成了一个巨型GPU,实现全面无阻塞通信;计算结构是AI超级计算机最重要的系统之一,400Gbps超低延迟的英伟达Quantum-2 InfiniBand具有网络内的计算功能,可将成百上千个DGX节点连接为一台AI超级计算机。
黄仁勋激动地表示:“NVIDIA DGX H100是全球客户构建AI基础设施的蓝图,已经全面投入生产。”
微软宣布Azure将向其H100 AI超级计算机开放私人预览版,AWS、Google Cloud、Oracle等云厂商,戴尔、联想等服务器厂商也将很快开放服务。
DGX最初用作AI研究,但现在正在扩展到更多的应用场景,黄仁勋将其称为“现代AI工厂”。
为了让客户更轻松、更快地享受英伟达AI服务,英伟达通过与微软Azure、谷歌GCP、甲骨文OCI合作,推出英伟达的AI云服务(NVIDIA DGX Cloud),为客户提供端到端的AI服务。
甲骨文将成为英伟达AI云的首个云合作伙伴。英伟达宣布有50家早期企业客户,覆盖消费互联网和软件、医疗保健、媒体和娱乐、金融服务。
黄仁勋表示,ChatGPT、Stable Diffusion、DALL-E和Midjourney唤醒了世界对生成式AI的认知,并两次提到这是“AI的iPhone时刻”,ChatGPT也是世界上增长最快的应用程序。
如今,每个人都是程序员,而生成式AI就是新的计算平台。就像过去的PC、互联网、移动设备和云一样,生成AI将重塑几乎所有行业。
黄仁勋表示,这个行业需要一个像台积电一样的“AI代工厂”来自定义大模型,而英伟达要扮演这个角色。
今天,英伟达宣布成立“NVIDIA AI Foundations(英伟达AI基础大模型)”,这是一项云服务,面向需要构建、改进和操作自定义大型语言模型和生成AI的客户,这些模型和生成AI使用其专有数据和特定领域的任务进行训练。
英伟达AI大模型包含“语言、视觉和生物学”三大模型。
Nvidia Nemo是“本文-本文”的语言生成模型,模型参数有80亿、430亿、与5300亿三种类型。从创建专有模型到运营,英伟达的AI专家将给予全程的指导合作。利用Nemo,企业可以快速生成大模型,用来总结财务文件、创建特定品牌或根据写作风格撰写电子邮件。
Picasso是一个视觉语言模型,用于构建和部署点生成AI驱动的图像、视频和3D应用程序。借助在Nvidia dgx云上运行的Nvidia Picasso服务,企业可以简化构建自定义生成AI应用程序所需的培训、优化和推理。黄仁勋宣布,gettyimages、Shutterstock将采用英伟达Picasso服务,Adobe将与英伟达共同打造新一代的生成式AI模型。
第三个大模型Bionemo的领域是生物学。药物研发是一个2万亿美元的产业,其中有2500亿美元投入了研发,而Bionemo包含可用于蛋白质结构预测、蛋白质生成、蛋白质性质预测、分子生成、分子对接等各个流程的模型,帮助研究人员使用其专有数据创建、微调和服务自定义模型,来节省药物研发宝贵的时间与资金。
在数百家新的AI制药初创公司之中,英伟达已经积累了至少7家公司,作为Bionemo大模型的早期用户。
黄仁勋总结道,英伟达大模型是一个“云服务和代工厂”,用于构建自定义语言模型与生成式AI。
自十年前Alexnet以来,深度学习开辟了巨大的新市场——自动驾驶、机器人技术、智能音箱等,并重塑了人们购物、消费新闻和享受音乐的方式。而这只是冰山一角。
随着生成式AI掀起新的机遇浪潮,AI正处于转折点,使得推理工作负载呈指数级增长。AI现在可以生成各种数据,包括语音、文本、图像、视频和3D图形、蛋白质到化学物质。
设计一个云数据中心来处理生成式AI是一个巨大的挑战。一方面,理想情况下最好使用一种加速器,因为这使得数据中心具有弹性,能够处理不可预测的流量高峰和低谷;但另一方面,没有一个加速器能以最优的方式处理算法、模型、数据类型和大小的多样性。
而今天,英伟达发布了新的“兼具加速功能和弹性”的推理平台——四种配置、一个体系架构、一个软件栈。
英伟达一口气推出了四款新的芯片,第一款为AI视频芯片 L4。L4是一款针对视频的云推理芯片,功能主要集中于视频解码和转码、频内容审核、视频通话等,例如在视频通话过程中的背景替换、重新打光、增加眼神交流、语音转录和实时语言翻译等。
性能方面,在AI视频领域,一台配备 8个L4的服务器可以取代 100 多台双插槽 CPU 服务器。目前,谷歌云平台已成为首批使用英伟达 AI 云技术的企业之一。
同样是图像领域,推理芯片L40主要用于Omniverse、图形渲染和生成式AI,包括文本到图像和文本到视频等。L40的主要应用场景对标的是在2018年推出、至今仍是推理芯片主流的T4。根据英伟达的介绍,L40 的性能是 T4 的 10 倍,这让L40在处理上述任务时都更加高效。
通过L40,AI编辑软件Runway让用户可以轻松地通过几个笔触就从视频中删除一个对象,或者改变视频的背景或前景。相信目前流行的AI图片生成平台Midjourney、Stable Diffusion、DALL-E等都可以通过L40创造更多的可能性。
可以看到,虽然同为针对图像的AI推理芯片,L4关于云端的视频场景,而L40则更通用,可以实现所有与图像相关的场景优化。
针对如ChatGPT等大模型, 英伟达推出了针对大模型的芯片——H100 NVL。
大模型对内存和计算方面的需求较高,也需要很高容量的横向扩展能力。目前,能够处理拥有1750 亿参数的 GPT-3 等大型语言模型的只有A100,而GPT-4等参数量更大的模型则需要更多A100的堆叠。 性能方面,一台8卡的H100 NVL的速度是目前标配8卡A100服务器的10倍。这不仅意味着速度的提升,也将降低大模型公司在算力方面的成本。
最后,AI计算离不开大数据,针对海量数据的存储、查询与推理,英伟达推出了存算一体超级芯片Grace-Hopper。它由Grace CPU和Hopper GPU连接而成,拥有一个900GB/秒的高速接口。
目前,CPU会存储和查询巨型数据库,然后把结果传输到GPU里进行推理,这需要花费一定的时间。相较于CPU和GPU之间传统的通过PCIE连接,在Grace中查询嵌入并传输到Hopper的速度快了七倍。Grace Hopper 可以用来处理大型数据集,比如适用于推荐系统和大型语言模型的 AI 数据库。
本届GTC的最后一个环节,是英伟达的“工业元宇宙”Omniverse。
Omniverse是一个工业数字化平台,最早在2019年推出,旨在搭建数字化和物理世界之间的桥梁,它让各个行业在投入实际生产之前先以数字化方式设计、建造、运营和优化物理产品和工厂。
Omniverse的用途之一是建立虚拟工厂,在那里所有的机器都是数字化的。
黄仁勋介绍道,半导体行业正在投资5000亿美元建造84个新晶圆厂,2030年汽车制造商将建造300家工厂来生产2亿辆电动汽车,电池制造商正在建造100多家特大型工厂,物流行业在全球数十亿平方英尺的仓库之间辗转运输货物。
虚拟工厂可以为全球工厂节省数十亿美元,亚马逊机器人是英伟达omniverse的代表客户之一。本次GTC,omniverse在几十个领域迎来了更新。
目前,已经有近30万创作者和设计师下载了omniverse。它不是一个工具,而是一个USD网络和共享数据库,也是一种与各行各业使用的设计工具相连的基础结构,可以连接、合成和模拟使用行业领先工具创建的3D资产。
Omniverse的发展壮大依赖于开放的生态系统。Omniverse目前已经连接到Bentley Systems LumentRT、西门子、NX、罗克韦尔、Unity等,汽车行业中沃尔沃、通用、梅德赛斯-奔驰、捷豹路虎、宝马、路特斯、丰田、Lucid等汽车制造商也在使用Omniverse开展工作。其中,宝马汽车基于Omniverse在匈牙利建造了第一座数字孪生工厂,将在2025年开业。
今天, 英伟达还宣布了专门为运行Omniverse而设计的系统。第一款是由英伟达Ada RTX GPU和英特尔最新CPU驱动的新一代工作站,将从三月份开始在Boxx、戴尔、惠普和联想上市;第二个是针对Omniverse优化的新型Nvidia ovx服务器,将由戴尔、惠普、Quantn、技嘉、联想和SuperMicro提供。
最后,英伟达还推出Omniverse Cloud的云服务,支持即时、安全地访问托管的Omniverse Cloud API。英伟达正在与微软合作,将Omniverse云服务引入全球各个行业。同时,英伟达正在将Omniverse云连接到Microsoft 365生产力套件,包括Teams、OneDrive、SharePoint和Azure IoT数字孪生服务。
今年的GTC时长只有80分钟,比去年的140分钟短了近一半,但重要程度却完全不逊色。
从三款大模型到四款AI推理芯片,以及优化的100个应用场景、更新功能的工业元宇宙Omniverse,这些产品里,哪个让你最激动?