大模型压缩KV缓存新突破，中科大提出自适应预算分配，工业界已落地vLLM框架

作者：量子位发布时间：2024-11-02

中科大博士冯源投稿

量子位 | 公众号 QbitAI

改进KV缓存压缩， 大模型推理显存瓶颈迎来新突破——

中科大研究团队提出 Ada-KV，通过自适应预算分配算法来优化KV缓存的驱逐过程，以提高推理效率。

打破KV Cache压缩将所有注意力头分配相同压缩预算的常规做法， 针对不同的注意力头进行适配性压缩预算分配

展开来说，由于大模型在自回归生成过程中，每生成一个新token都需要将对应的KV矩阵存储下来，这导致缓存随着生成序列长度的增加而急剧膨胀，引发内存和I/O延迟问题，尤其在长序列推理中尤为突出。

因此，KV缓存压缩成为了一项必要的优化。

不过令人头秃的是，现有压缩方法往往在各个注意力头之间平均分配预算，未能考虑其特性差异。

而中科大团队在注意到—— 不同注意力头关注度存在差异后，对其进行适配性压缩预算分配，通过精细化运作带来更高的压缩质量。

相关研究不仅在学术界引起讨论，更实现了工业界开源落地。

例如，Cloudflare workers AI团队进一步将其改进落地于工业部署常用的vLLM框架中，并发布技术报告，开源全部代码。

KV缓存压缩从均匀性预算分配→适配性预算分配

一开始，Ada-KV团队首先思考：

注意力头间的适配性压缩预算分配是必要的吗？

通过从经验性和理论性两个角度进行分析后，团队的回答是：yes!

经验性分析

Ada-KV团队发现，在大模型中注意力头之间存在着显著不同的 关注集中度差异：

大部分注意力头关注度集中在少量KV cache上，只需很少的KV cache（例如，1%）就可以几乎收集接近0.9的注意力权重；

而少数注意力头则倾向于分散注意力，往往需要接近50%的KV Cache才能够将注意力权重聚集到0.9。

考虑到如此巨大的关注度集中度的差异，注意力头间的适配性压缩预算分配对于压缩质量的提升有着巨大潜力。

理论性分析

Ada-KV研究团队进一步从 压缩输出损失的角度出发，形式化了在不同分配策略下KV Cache压缩对注意力输出的损失影响：

他们基于这一理论提出了一种以注意力权重为基础的 自适应分配方案，并发现这种跨注意力头的预算分配策略始终能够降低损失上界。

此外，这一理论上的更低损失上界在实际实验中也展现出更低的注意力输出损失：

理论与实际结果一致验证了这一结论： 注意力头间的适配性预算分配能够显著提升KV缓存压缩的效果。

通过适配性头间预算分配增强KV Cache压缩质量

作者将Ada-KV这一适配性预算分配策略结合到现有的两个领先的Cache压缩方案：SnapKV和PyramidKV中，分别得到两种适配性压缩方案： Ada-SnapKV和Ada-Pyramid。

他们进一步在广泛使用的长序列开源大模型 Mistral-7B-Instruct-32K和 LWM-Text-Chat-1M和 长文本任务评估基准LongBench上的16个数据集上进行了充分的评估。

实验结果显示，所有适配性预算分配增强的压缩方法（Ada-SnapKV和Ada-Pyramid） 全部优于原有的均匀预算分配压缩方法（SnapKV和Pyramid）。

Ada-KV团队在算法实现的同时，也考虑到了执行效率的优化。

他们开发了一种展平的KV Cache管理布局，并定制了CUDA kernel，以实现高效的Cache更新管理。

结合Flash Attention技术，该方案在适应性预算分配的情况下，实现了高效推理，并在相同预算下保持了与先前Cache压缩方案一致的计算效率。

目前，代码已在GitHub上 完全开源，助力推动注意力头间适应性压缩预算分配的研究。

Cloudflare推动Ada-KV于工业界部署落地

Cloudflare公司旗下的Workers AI团队针对实际并发服务场景中存在的内存碎片问题，基于Paged Attention 重新实现了Ada-KV算法，并将其落地于实际部署使用的推理框架vLLM中。

他们发布了技术报告，对该方案进行了详细评估，同时开源了相关代码，助力Ada-KV在工业界的快速应用和落地。

如果你对后续进展感兴趣，欢迎持续关注~

Ada-KV Paper：

https://arxiv.org/abs/2407.11550

Ada-KV Code：

https://github.com/FFY0/AdaKV

Cloudflare Technical Report：

https://arxiv.org/abs/2410.00161

Cloudflare Code：

https://github.com/IsaacRe/vllm-kvcompress

— 完—

投稿请发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容 ‍

附上论文/项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

点这里 👇关注我，记得标星哦～

科技前沿进展日日相见 ~

相关资讯

自适应神经网络算法：AI学习的突破！

在人工智能领域，自适应神经网络算法是最为关注的技术之一。这种算法通过改进神经网络结构和算法，实现了更加高效的人工智能学习和推断。最近，一种名为真实世界的学习（RWL）的全新学习方法进一步提升了算法的性能。这项令人振奋的技术突破得益于许多科技公司和研究机构的探索和努力。其中不乏一些知名企业，如IBM、微软、谷歌等。因为人工智能技术的发展，这些企业纷纷推出了自己的人工智能产品，如Watson、Cortana、Google Brain等，旨在为人类社会提供更为智能化和便利的服务。这次技术创新是众多研究

人工智能微软谷歌

bili_64669114296 2023-03-31

德国工业界加强人工智能开发

据外媒报道，当地时间3月18日，德国专利商标局（DPMA）公布的一项分析报告显示，德国的工业界和学术界正在加强人工智能的研发。该分析报告显示，2023年，美国的人工智能相关专利申请数量位列第一，几乎占人工智能专利申请总数的三分之一。DPMA局长伊娃·谢维尔表示，强劲而广泛的创新势头表明，人工智能将在未来生活的许多领域发挥重要作用。

人工智能

光明网 2024-03-20

银泰商业技术总监对话中科大学生 AI大模型应用大有可为

事实上，作为一家全面架构在云上的数字经济云商场，银泰百货用了五年时间，以数字化重构零售业人、货、场底层逻辑，实现了全链路数字化战略转型后并进行商业化输出，旗下科技板块“深象智能”已经在零售、教育、政府多个垂直…

AI大模型教育

环球Tech 2023-10-13

银泰商业算法负责人对话中科大学生：AI大模型商用前景广阔

AI大模型教育

搜狐城市-合肥 2023-10-13

用 KV 缓存量化解锁长文本生成

很高兴和大家分享 Hugging Face 的一项新功能: KV 缓存量化，它能够把你的语言模型的速度提升到一个新水平。太长不看版: KV 缓存量化可在最小化对生成质量的影响的条件下，减少 LLM 在长文本生成场景下的内存使用量，从而在内存效率和生成速度之间提供可定制的权衡。你是否曾尝试过用语言模型生成很长的文本，却因为内存不足而望洋兴叹？随着语言模型的尺寸和能力不断增长，支持生成更长的文本意味着内存蚕食的真正开始。于是，磨难也随之而来了，尤其是当你的系统资源有限时。而这也正是 KV 缓存量化的用武之地

Hugging Face

HuggingFace 2024-06-12

大模型压缩KV缓存新突破，中科大提出自适应预算分配，工业界已落地vLLM框架

推荐体验

相关资讯

自适应神经网络算法：AI学习的突破！

德国工业界加强人工智能开发

银泰商业技术总监对话中科大学生 AI大模型应用大有可为

银泰商业算法负责人对话中科大学生：AI大模型商用前景广阔

用 KV 缓存量化解锁长文本生成

近期资讯

DAY1_青训营笔记_数字分组求偶数和| 豆包MarsCode AI刷题

Go 语言学习(一) | 豆包MarsCode AI刷题

如何高效学习算法 | 豆包MarsCode AI刷题

day1刷题打卡 | 豆包MarsCode AI刷题

Golang基础：闭包｜豆包MarsCode AI 刷题

20分钟入门与精通Go 语言 | 豆包MarsCode AI刷题

"视频推荐的算法"Java题解｜豆包MarsCode AI 刷题

01 - 前端语言串讲 | 豆包MarsCode AI刷题

DAY 1 青训营笔记：数字分组求偶数

Go语言入门指南：基础语法和常用特性解析 | 豆包MarsCode AI刷题

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响