当前位置:首页|资讯

大模型加速-核心网络算子-Flash Attention V3

作者:不会弹吉他的布鲁克发布时间:2024-09-27

FlashAttention-3 基于 H100 利用硬件新特性的优化方案,在 H100 GPU 上通过 FP16 实现 1.5-2.0 倍的加速,达到 740 TFLOPs/s(利用率 75%),...【查看原文】


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1