当前位置:首页|资讯

大模型加速-核心网络算子-Flash Attention V2

作者:不会弹吉他的布鲁克发布时间:2024-09-25

Flash Attention V2过外循环修改为 Q,可以很好的,避免 warp 之间的通信,利用高速缓存,进一步降低 HBM 的访问次数,同时有效的调整归一化补偿算法,节省 1D 算力,提升整体性...【查看原文】


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1