当前位置:首页|资讯|生成式AI|英伟达

英伟达推出用于大型语言模型和生成式AI工作负载的推理平台

作者:雷递发布时间:2023-03-22

原标题:英伟达推出用于大型语言模型和生成式AI工作负载的推理平台

雷递网 乐天 3月22日

英伟达(NVIDIA)日前推出四款推理平台。这些平台针对各种快速兴起的生成式AI应用进行优化,能够帮助开发人员快速构建用于提供新服务和洞察的 AI 驱动的专业应用。

这些平台将NVIDIA全栈推理软件与最新的 NVIDIA Ada、Hopper 和 Grace Hopper 处理器相结合,包括今天推出的 NVIDIA L4 Tensor Core GPU 和 NVIDIA H100 NVL GPU。各平台针对AI视频、图像生成、大型语言模型部署、推荐系统推理等需求激增的工作负载进行优化。

NVIDIA创始人兼首席执行官黄仁勋表示:“生成式AI的兴起需要更加强大的推理计算平台。生成式 AI应用的数量是无限的,它唯一的限制就是人类的想象力。为开发人员提供最强大、灵活的推理计算平台将加快新服务的创造速度,这些新服务将以前所未有的方式改善我们的生活。”

每个平台都包含一个为特定生成式 AI 推理工作负载而优化的 NVIDIA GPU 和专用的软件:

适用于 AI 视频的 NVIDIA L4 可提供比 CPU 高出 120 倍的 AI 视频性能,同时能效提高了99%。这款适用于几乎所有工作负载的通用 GPU 提供更加强大的视频解码和转码能力、视频流式传输、增强现实、生成式 AI 视频等。

适用于图像生成的 NVIDIA L40 针对图形以及 AI 支持的 2D、视频和 3D 图像生成进行了优化。L40 平台是 NVIDIA Omniverse™(一个用于在数据中心构建和运行元宇宙应用的平台)的引擎,与上一代产品相比,其 Stable Diffusion 推理性能提高了 7 倍,Omniverse 性能提高了 12 倍。

适用于大型语言模型部署的 NVIDIA H100 NVL 是规模化部署像 ChatGPT 这样的大型语言模型(LLMs)的理想平台。这款新的 H100 NVL 拥有 94GB 内存和 Transformer 引擎加速,在数据中心规模,与上一代 A100 相比,GPT-3 上的推理性能提高了多达 12 倍。

适用于推荐模型的 NVIDIA Grace Hopper 是图形推荐模型、矢量数据库和图神经网络的理想平台。通过 NVLink-C2C 以 900 GB/s 的速度连接 CPU 和 GPU,Grace Hopper 的数据传输和查询速度比 PCIe 5.0 快了 7 倍。

这些平台的软件层采用NVIDIA AI Enterprise软件套件,包括用于高性能深度学习推理的软件开发套件NVIDIA TensorRT™,以及帮助实现模型部署标准化的开源推理服务软件NVIDIA Triton Inference Server™。

谷歌云是 NVIDIA 推理平台的重要云合作伙伴和早期客户。谷歌云正在将 L4 平台整合到其机器学习平台 Vertex AI 中,并且是第一家提供 L4 实例的云服务提供商,其 G2 虚拟机的私人预览版已于今天推出。

NVIDIA 和谷歌今天分别宣布了首批在谷歌云上使用 L4 的两家机构——Descript 和 WOMBO,前者使用生成式 AI 帮助创作者制作视频和播客,后者提供”Dream”这一 AI 驱动的文本 – 数字艺术转换应用程序。

———————————————

雷递由媒体人雷建平创办,若转载请写明来源。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1