当前位置:首页|资讯|AIGC|ChatGPT

AIGC狂欢!发布ChatGPT专用GPU,性能提升10倍,英伟达“赢麻了”

作者:头部科技发布时间:2023-03-22

原标题:AIGC狂欢!发布ChatGPT专用GPU,性能提升10倍,英伟达“赢麻了”

文 | Congerry、苏铁

不得不说,在众多硬件厂商中,英伟达确实有种被时代选中并给予青睐的意味。

昨日深夜,英伟达2023GTC大会召开,老黄带着新一代GPU来了,还是ChatGPT专用——速度快10倍,成本降一个数量级。

“切勿错过AI的决定性时刻!”

这是英伟达2023年GTC大会的广告语。

这句话可以在指现在的整体发展情况,想必你已经被AI最新新闻接二连三地“轰炸”了很多天:从OpenAI发布GPT-4,到百度发布文心一言,再到微软发布Office的AI助手Microsoft 365 Copilot……

这确实是人工智能迎来大爆发的历史性阶段,而这句话也可以理解成老黄将本次GTC形容成AI的决定性时刻。

在大会的主题演讲中,黄仁勋围绕AI、量子计算、芯片等前沿科技,发布了一系列前沿技术和产品。

每一个都像踩在了时代脉搏上。

天选AI厂,ChatGPT专用GPU来了

过去三十年间,英伟达制造的芯片几乎主导了整个游戏和计算机图像产业,而AI业务的增长为它带来了新的盈利方向。

去年一段时间,英伟达受虚拟货币震荡影响,一度有过艰难时刻

而今,被ChatGPT选中的英伟达成功摆脱“矿圈”影响,并且极有可能在未来成为AI领域的核“芯"。

英伟达很明显也意识到了这点,迅速做出行动,在演讲中,黄仁勋多次重复道,AI的iPhone时刻已经到来,并表示“生成式AI将重塑几乎所有行业”。

在此背景下,英伟达一次展示了四种针对 AI 任务的推理平台,它们都使用了统一的架构——Hopper架构。

ChatGPT是基于大型语言模型(LLM)推出的,这一技术引发各界关注,随后微软、谷歌等科技公司在AI领域展开角逐。

LLM算力需求巨大,针对此英伟达推出新款GPU——NVIDIA H100 NVL

H100基于英伟达的Hopper架构,采用Transformer引擎。其具有94GB内存,并配备了双GPU NVLINK的PCIE H100 GPU,能处理含1750亿参数的GPT-3。

与用于处理ChatGPT的HGX A100相比,搭载四对H100和双NVLINK的标准服务器的处理速度最高可达10倍。黄仁勋称,它能将大语言模型的处理成本降低一个数量级。

此外,针对AI视频英伟达还推出了芯片L4,在视频解码和转码、视频内容审核、视频通话等功能上进行优化。英伟达称,相比传统的CPU,L4能够提供高出120倍的AI视频性能,同时能效提高99%。算力更强的 NVIDIA L40 则专门用于 2D/3D 图像生成。

Grace Hopper架构超级芯片亮相

在去年的GTC大会上,英伟达发布了首款用于数据中心的CPU架构“Grace”,以及已经上市的高性能计算GPU架构“Hopper”。

基于这两种架构,英伟达打造了超级芯片,第一个是Grace CPU二合一,第二个是Grace CPU+Hopper GPU二合一。

在今年的GTC 大会上,黄仁勋展示了Grace CPU+Hopper GPU的二合一超级芯片,并且透露CPU、GPU之间的通信带宽是传统PCIe总线的10倍之多。

左侧是GPU,右侧是CPU

该芯片适用于推荐系统和大型语言模型的AI数据库,是图推荐模型、向量数据库和图神经网络的理想选择。

例如在量子计算上,英伟达与以色列量子计算初创公司Quantum Machines合作推出全球首个GPU加速量子计算系统NVIDIA DGX Quantum,将强大的加速计算平台(由NVIDIA Grace Hopper超级芯片和CUDA量子开源编程模型支持)与全球最先进的量子控制平台OPX结合在一起,使研究人员能够构建强大的应用,将量子计算与最先进的经典计算结合起来,实现校准、控制、量子纠错和混合算法。

NVIDIA DGX Quantum的核心是NVIDIA Grace Hopper系统,通过PCIe连接到通用量子控制系统Quantum Machines OPX+,实现QPU和量子之间的亚微秒延迟处理单元(QPU)。

黄仁勋同时也展示超级CPU二合一,基板加芯片占据了PCB的大部分面积。封装好的计算模组也一同亮相,长宽尺寸为8x5英寸,两个一组可以放入1U风冷服务器机架。

黄仁勋称,Grace相比传统x86 CPU,性能可领先30%,能效可领先70%,数据中心吞吐能力可领先1倍。Grace CPU目前已经出样,合作伙伴正在设计系统方案。

但两款超级芯片的上市时间都没有明确信息。

要革CPU命的计算光刻库

除了在GPU上投下“核弹”,英伟达还在芯片制造上投下了炸弹,发布了NVIDIA cuLitho计算光刻库

众所周知,光刻是芯片制造过程中最复杂、最昂贵、最关键的环节。数据显示,光刻环节所需的成本占据整个硅片加工成本的约1/3甚至更多。

而计算光刻则是模拟了光通过光学元件并与光刻胶相互作用时的行为,应用逆物理算法来预测掩膜板上的图案,以便在晶圆上生成最终图案。

且,计算光刻是提高光刻分辨率、推动芯片制造达到2nm及更先进节点的关键手段。

“计算光刻是芯片设计和制造领域中最大的计算工作负载,每年消耗数百亿CPU小时。大型数据中心24x7全天候运行,以便创建用于光刻系统的掩膜板。这些数据中心是芯片制造商每年投资近2000亿美元的资本支出的一部分。”

黄仁勋表示,cuLitho能够将计算光刻的速度提高到原来的40倍。举例来说,英伟达H100 GPU的制造需要89块掩膜板,在CPU上运行时,处理单个掩膜板需要两周时间,而在GPU上运行cuLitho只需8小时

全球最大晶圆厂台积电、全球最大光刻机制造商阿斯麦(ASML)、全球最大EDA公司新思科技(Synopsys)都为这项新技术站台。

例如,台积电可通过在500个DGX H100系统上使用cuLitho加速,将功率从35MW降至5MW,替代此前用于计算光刻的40000台CPU服务器。 使用cuLitho的晶圆厂,每天可以生产3-5倍多的光掩膜,仅使用当前配置电力的1/9。

今年6月,台积电将把这套AI系统导入2纳米试产,用于提升2纳米制程良率,并缩短量产时程。

超级计算、元宇宙、云服务,英伟达全面开花

英伟达此次还推出了一项名为DGX Cloud的AI超级计算服务,每个DGX Cloud实例具有八个H100或A100 80GB Tensor Core GPU,每个节点共有640GB GPU内存。

未来企业可以按月租、通过浏览器使用DGX Cloud集群,快速轻松地扩展大型多节点AI训练。DGX Cloud起价为每个实例每月36999美元。

另外,英伟达将与云服务提供商合作托管DGX云基础设施。

目前英伟达已经与甲骨文达成合作,甲骨文的OCI RDMA Supercluster已经提供了一个可扩展到超过32000个GPU的超级集群。微软云服务Azure预计下个季度开始托管DGX Cloud,很快谷歌云也将加入托管的行列。

基于DGX Cloud,英伟达还推出了全新云服务及代工厂NVIDIA AI Foundations,这个云服务包括语言、视觉和生物学模型制作服务。

NeMo:文本生成模型构建服务,提供从80亿到5300亿个参数的模型,会定期更新额外的训练数据,帮助企业为客服、企业搜索、聊天机器人、市场情报等生成式AI应用进行模型定制。

Picasso:视觉语言模型构建服务,具有先进的文生图、文本转视频、文本转3D功能,可为产品设计、数字孪生、角色创建等使用自然文本提示的应用快速创建和定制视觉内容。

BioNeMo:生命科学服务,提供AI模型训练和推理,加速药物研发中最耗时和成本最高的阶段,可加速新蛋白质和治疗方法的创建以及基因组学、化学、生物学和分子动力学研究。

其中,NeMo、BioNeMo云服务已开放早期访问,Picasso云服务正在私人预览中,用户可以通过浏览器上或API访问这些运行在NVIDIA DGX Cloud上的云服务。

此外,英伟达还在DPU(数据处理单元)上带来了新产品,英伟达BlueField-3 DPU已投入生产,并被百度、CoreWeave、京东、微软Azure、Oracle OCI、腾讯游戏等领先的云服务提供商所采用,以加速其云计算平台。

英伟达还与三菱联合发布了将用于加速药物研发的日本第一台生成式AI超级计算机Tokyo-1。通过在Tokyo-1上使用NVIDIA BioNeMo软件,研究人员能运行高达数十亿参数的先进AI模型,包括蛋白质结构预测、小分子生成、姿态估计等。

在元宇宙上,英伟达推出了第三代OVX计算系统和新一代工作站,可以为基于NVIDIA Omniverse Enterprise的大规模数字孪生提供动力。微软和英伟达正在将工业元宇宙引入Microsoft 365应用程序(如Teams)和Azure云。

在ChatGPT以及生成式AI的热潮下,除了最大赢家微软和OpenAI,英伟达也乘着这股东风直冲天际。今年以来英伟达的股价节节攀升,涨幅超过80%,市值接近6500亿美元,一举超过特斯拉。

从这次发布会可以看出,英伟达正在向 AI 超算云与基础设施的定位全力进发。

欢迎屏幕前你们在评论区留言讨论!我们将为点赞、评论、关注的靓女、靓仔们送上红包🧧不限量哟~


Copyright © 2025 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1