在这篇博客文章中,我们将探讨 动态推测解码 ——这是由英特尔实验室和 Hugging Face 开发的一种新方法,可以加速文本生成高达 2.7 倍,具体取决于任务。从Transformers发布的版本4.45.0开始,这种方法是辅助生成的默认模式Transformers:https://github.com/huggingface/transformers4.45.0 版本发布信息:https://github.com/huggingface/transformers/releases/tag/v4.45...【查看原文】