当前位置:首页|资讯|编程|Hugging Face|大语言模型

一行代码加速28倍大模型推理速度

作者:ReadPaper论文阅读发布时间:2023-12-07

Hugging Face 的 Optimum-NVIDIA 为大型语言模型(LLM)提供了一个简单而高效的优化方案。通过仅修改一行代码:

原代码:from transformers.pipelines import pipeline

修改后的代码:from optimum.nvidia.pipelines import pipeline


它能显著加速 NVIDIA 平台上的 LLM 推理过程,达到最高28倍的速度提升,以及每秒处理1200个令牌。这一优化主要得益于对 NVIDIA Ada Lovelace 和 Hopper 架构支持的新float8格式和NVIDIA TensorRT-LLM软件的高级编译能力。Optimum-NVIDIA 还提供了简单的API,使得在一个GPU上运行更大的模型成为可能,同时保持高速度和准确性。此外,它还优化了首令牌延迟(First Token Latency)和吞吐量(Throughput),显著提高了模型的响应速度和批处理能力。目前,Optimum-NVIDIA 支持 LLaMAForCausalLM 架构和相关任务,并计划扩展到其他文本生成模型和任务。


blog:https://huggingface.co/blog/optimum-nvidia


使用方法:

性能指标:首令牌延迟和吞吐量

性能评估方面,Optimum-NVIDIA 关注首令牌延迟(First Token Latency)和吞吐量(Throughput)。首令牌延迟是衡量从输入提示到开始接收输出的时间,而吞吐量则是衡量模型生成令牌的速度,特别适用于批量生成。Optimum-NVIDIA 在这两个指标上都显示出显著的提升。


支持和未来计划

目前,Optimum-NVIDIA 支持 LLaMAForCausalLM 架构和任务,计划将支持扩展到其他文本生成模型和任务。Hugging Face 还计划引入诸如飞行批处理(In-Flight Batching)等前沿优化技术,以进一步提高吞吐量,以及 INT4 量化以在单个 GPU 上运行更大的模型。


观点

学术上,其实底层技术的革新还有很多机会,特别是运算加速这些。不过不能落入纯工程的地步了,导致没有创新点。

商业上,当然是省钱福音了。不过这也意味着基于英伟达的显卡的优化越来越多,导致显卡品牌的不可替代性越来越强。


特邀作者:日本早稻田大学计算机系博士生  王军杰


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1