简单概述现在,在 Hugging Face 中,使用打包的指令调整示例 (无需填充) 进行训练已与 Flash Attention 2 兼容,这要归功于一个最近的 PR以及新的DataCollatorWithFlattening。最近的 PR:https://github.com/huggingface/transformers/pull/31629DataCollatorWithFlattening:https://hf.co/docs/transformers/main/en/main_classes...【查看原文】