Flux真正的Lora训练方法来了

作者：laolong_eth发布时间：2024-09-24

Flux模型出现到现在也有两个月的时间了，期间内我尝试过各种方式的微调训练Lora，但结果都不甚理想，甚至是很糟糕，我的评价是都不如SDXL，看到很多博主或者说“玩AI”的同学，都训练不少的Flux lora，我甚至怀疑我自己的实力了。。。。

说正事：

https://medium.com/@zhiwangshi28/why-flux-lora-so-hard-to-train-and-how-to-overcome-it-a0c70bc59eaf 这篇报告比较详细的讲解了一下为什么Flux上直接训练Lora会很糟糕的问题，刚开始出Flux的时候我也尝试过各种方式微调训练，但确实没有较好的结果，导致我放弃，因为这并不适用于所有用户，或者说不适用于开发做项目。我认为任何AI的技术出现都要为产品的开发做引导思路，但Flux给我的想象力不够足。

为了防止部分同学梯子不稳定的情况我下面简要概括一下原作者John Shi 报告的内容，中文翻译未必准确哈：

了解Flux-dev distillation（蒸馏）
我们首先猜测一下 Flux-dev 是如何工作的。与 SD 和许多其他 T2I 模型不同，Flux-dev 不使用 CFG（无分类器指导）的负面提示，因为该指导已经被提炼到模型中。训练目标可能如下（个人猜测，但很有可能）：

首先Flux-dev由Flux-pro初始化，在每次训练迭代期间，随机选择引导，并使用该引导尺度，Flux-dev预测去噪结果。同时，Flux-pro在没有指导嵌入的情况下预测去噪结果，而是以无分类器指导的方式进行预测，即立即预测正负，并将它们与guiding_scale结合起来。除了流量匹配损失之外，Flux-dev 可能还接受了蒸馏监督的训练。经过这个蒸馏过程，Flux-dev 模型生成图像的计算成本仅为无分类器引导方法的一半，同时保持相似的质量。
此外，可能还有其他我们还不知道的细节。例如，Flux-dev和Flux schnell的输出多样性得分明显低于Flux-pro。这可能表明某些其他功能已被“切断”或减少。例如，可能存在另一种输入条件，例如美学输入嵌入，在蒸馏过程中 Flux-pro 教师模型中可能会限制在较窄的范围内（可能是出于人类偏好），并且在 Flux-dev 中不存在。还有另一种可能性是开发模型只是过度拟合了训练集的一个小得多的子集。所有这些猜测都有可能，但目前真相仍不得而知。
训练失败的原因
了解了Flux的蒸馏过程后，我们可以找出Flux-dev训练失败的关键原因在于cfg指导尺度。在没有从 Flux-pro 中蒸馏出来的情况下，在训练过程中应该如何设置？
如果指导尺度（CFG）设置为 3.5 或在大于 1 的合理范围内（如推理阶段建议的那样），这可能看起来是个好方法，因为它反映了原始训练阶段中使用的值。然而，如果没有 Flux-pro cfg 结果提供的约束，训练动态会发生显着变化。然后，它将破坏指导嵌入，因为指导蒸馏不再存在，并且如果训练过程足够长，通常会导致模型崩溃。
如何训练好Flux
这里作者解释了一下为什么用Flux-dev2pro来做训练，实际上这个模型是不能用作推理的，去用做推理反而会比原始的Flux-dev更差，但是用于训练就比较适合：虽然它远非完美，而且实际上比 Flux-dev 产生的结果更差，但我确实注意到了一些可能有益的改进。让我们看一下引导输入设置为 1.0 时生成的一些图像：

使用指导输入 1.0 不是典型的推理设置，通常会导致原始模型的结果较差。然而，它表明微调模型在这种特定的训练设置下表现更好，而原始模型则失败了。尽管它实际上在正常推理设置下表现较差——因为我们缺乏更大指导范围的蒸馏训练——但这并不是一个主要问题。我们不将其用于推理；我们仅将其用于训练（如上一节所述），并且可以使用此设置继续训练 LoRA 以取得更好的结果。

作者训练了艺术家Wlop的模型对比，在下文：

目前有这个所谓的新的Flux-Dev2Pro模型出现，来自Flux生态的Lora也会迅速“更新”崛起了。希望越来越好， @青龙圣者也微调打包了一下模型，感兴趣的可以去尝试了，

https://huggingface.co/bdsqlsz/flux1-dev2pro-single

以下是作者训练的Wlop的模型，用原始的Flux-dev和新版的Flux-dev2pro对比结果，还是很明显的。