1 传统 Attention 存在哪些问题? 1. 传统 Attention 存在 上下文长度 约束问题; 2. 传统 Attention 速度慢,内存占用大; 2 Attention 优化方向 1. 提升上下文长度 2. 加速、减少内存占用 3 Attention 变体有哪些? • 稀疏 attention。将稀疏偏差引入 attention 机制可以降低了复杂性; • 线性化 attention。解开 attention 矩阵与内核特征图,然后以相反的顺序计算 attention 以实现线性复杂度;...【查看原文】