Hugging Face 的 Optimum-NVIDIA 为大型语言模型(LLM)提供了一个简单而高效的优化方案。通过仅修改一行代码:
原代码:from transformers.pipelines import pipeline
修改后的代码:from optimum.nvidia.pipelines import pipeline
它能显著加速 NVIDIA 平台上的 LLM 推理过程,达到最高28倍的速度提升,以及每秒处理1200个令牌。这一优化主要得益于对 NVIDIA Ada Lovelace 和 Hopper 架构支持的新float8格式和NVIDIA TensorRT-LLM软件的高级编译能力。Optimum-NVIDIA 还提供了简单的API,使得在一个GPU上运行更大的模型成为可能,同时保持高速度和准确性。此外,它还优化了首令牌延迟(First Token Latency)和吞吐量(Throughput),显著提高了模型的响应速度和批处理能力。目前,Optimum-NVIDIA 支持 LLaMAForCausalLM 架构和相关任务,并计划扩展到其他文本生成模型和任务。
blog:https://huggingface.co/blog/optimum-nvidia
使用方法:
性能指标:首令牌延迟和吞吐量
性能评估方面,Optimum-NVIDIA 关注首令牌延迟(First Token Latency)和吞吐量(Throughput)。首令牌延迟是衡量从输入提示到开始接收输出的时间,而吞吐量则是衡量模型生成令牌的速度,特别适用于批量生成。Optimum-NVIDIA 在这两个指标上都显示出显著的提升。
支持和未来计划
目前,Optimum-NVIDIA 支持 LLaMAForCausalLM 架构和任务,计划将支持扩展到其他文本生成模型和任务。Hugging Face 还计划引入诸如飞行批处理(In-Flight Batching)等前沿优化技术,以进一步提高吞吐量,以及 INT4 量化以在单个 GPU 上运行更大的模型。
学术上,其实底层技术的革新还有很多机会,特别是运算加速这些。不过不能落入纯工程的地步了,导致没有创新点。
商业上,当然是省钱福音了。不过这也意味着基于英伟达的显卡的优化越来越多,导致显卡品牌的不可替代性越来越强。
特邀作者:日本早稻田大学计算机系博士生 王军杰