一行代码加速28倍大模型推理速度

作者：ReadPaper论文阅读发布时间：2023-12-07

Hugging Face 的 Optimum-NVIDIA 为大型语言模型（LLM）提供了一个简单而高效的优化方案。通过仅修改一行代码：

原代码：from transformers.pipelines import pipeline

修改后的代码：from optimum.nvidia.pipelines import pipeline

它能显著加速 NVIDIA 平台上的 LLM 推理过程，达到最高28倍的速度提升，以及每秒处理1200个令牌。这一优化主要得益于对 NVIDIA Ada Lovelace 和 Hopper 架构支持的新float8格式和NVIDIA TensorRT-LLM软件的高级编译能力。Optimum-NVIDIA 还提供了简单的API，使得在一个GPU上运行更大的模型成为可能，同时保持高速度和准确性。此外，它还优化了首令牌延迟（First Token Latency）和吞吐量（Throughput），显著提高了模型的响应速度和批处理能力。目前，Optimum-NVIDIA 支持 LLaMAForCausalLM 架构和相关任务，并计划扩展到其他文本生成模型和任务。

blog：https://huggingface.co/blog/optimum-nvidia

使用方法：

性能指标：首令牌延迟和吞吐量

性能评估方面，Optimum-NVIDIA 关注首令牌延迟（First Token Latency）和吞吐量（Throughput）。首令牌延迟是衡量从输入提示到开始接收输出的时间，而吞吐量则是衡量模型生成令牌的速度，特别适用于批量生成。Optimum-NVIDIA 在这两个指标上都显示出显著的提升。

支持和未来计划

目前，Optimum-NVIDIA 支持 LLaMAForCausalLM 架构和任务，计划将支持扩展到其他文本生成模型和任务。Hugging Face 还计划引入诸如飞行批处理（In-Flight Batching）等前沿优化技术，以进一步提高吞吐量，以及 INT4 量化以在单个 GPU 上运行更大的模型。

观点

学术上，其实底层技术的革新还有很多机会，特别是运算加速这些。不过不能落入纯工程的地步了，导致没有创新点。

商业上，当然是省钱福音了。不过这也意味着基于英伟达的显卡的优化越来越多，导致显卡品牌的不可替代性越来越强。

特邀作者：日本早稻田大学计算机系博士生王军杰

一行代码加速28倍大模型推理速度

观点

推荐体验

相关资讯

用 chatGPT 绘制一个 G 值(加速度)动画「不改一行代码」

硬件预算最高直降46倍!低成本AIGC和千亿大模型,一行代码自动并行

一行代码训练成本再降30%，AI大模型混合精度训练再升级

一行代码训练成本再降30%，AI大模型混合精度训练再升级｜开源

如何用一行代码实现监测 OpenAI，大幅提升使用体验

近期资讯

格力电器获得发明专利授权：“控制方法、装置、电子设备、磁悬浮压缩机及存储介质”

盟固利获得发明专利授权：“一种固态锂离子电池用复合隔膜及其制备方法和固态锂离子电池”

星湖科技获得发明专利授权：“一种L-组氨酸提纯及结晶的方法”

天汽模获得发明专利授权：“一种模具上、下模气路连通装置”

电脑联网详解：有线与无线连接方式及常见问题处理指南

充分利用微信：提升生活质量的多功能指南与社交技巧分享

磁力在日常生活中的多种实用应用与便利性探索

古井贡酒获得实用新型专利授权：“一种方形玻璃瓶罐抓瓶机构”

温度的科学与生活：如何理解、运用及珍惜变化带来的感动

轻松掌握Photoshop笔刷安装与使用技巧，提升设计效果！

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响