当前位置:首页|资讯

DuoAttention:高效处理长上下文推理的 AI 框架,让 LLMs 如虎添翼!

作者:蚝油菜花发布时间:2024-10-25

DuoAttention 是一种新型框架,旨在提高大型语言模型(LLMs)处理长上下文时的推理效率。通过区分“检索头”和“流式头”两种注意力头,优化模型的内存使用和计算速度。...【查看原文】


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1