该论文《Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization》主要探讨了如何通过DPO-diffusion来改进基于扩散模型的文本到音频生成系统。
随着生成式AI的普及,文本到音频的生成在音乐和电影行业变得尤为重要。现有的基于扩散模型的文本到音频模型通常在大量数据集上训练,但它们并不显式关注输出音频中与输入提示相关的概念、事件及其时间顺序。该论文中,聚焦音频生成中如何在数据有限的情况下提升音频生成性能。
使用现有的文本到音频模型Tango,合成创建一个偏好数据集,其中每个提示都有一个好的音频输出和一些不合适音频输出。理论上,不合适输出中有一些来自提示的概念缺失或顺序错误。
所以使用DPO-diffusion(直接偏好优化)损失对公开的Tango文本到音频模型进行微调,在这个的偏好数据集上训练后,模型能够在自动和手动评估指标上比Tango和AudioLDM2改善音频输出。
扫码添加
免费获取论文 pdf 完整版本
(后续会持续更新AI领域最新论文,偏好什么方向可以评论哦~)
【Tango模型】
Tango是一个公开可用的文本到音频模型,它结合了一个潜在扩散模型(Latent Diffusion Model, LDM)和一个经过指令调整的大型语言模型(FLAN-T5)。该模型通过反向扩散过程从文本表示构建音频的潜在表示。
【Audio-alpaca数据集】
作者创建了一个名为Audio-alpaca的偏好数据集,其中包含多样的音频描述(提示)及其对应的优选(获胜者)和不受欢迎(失败者)的音频。优选音频应完美反映其文本描述,而不受欢迎的音频可能存在概念缺失、时间顺序错误或噪声水平高等问题。
【直接偏好优化(DPO)】
为了改善文本到音频的语义对齐,作者采用了DPO-diffusion 损失对Tango模型进行了微调。DPO是一种比强化学习更经济、更稳健的替代方案,用于根据人类反馈调整LLM的响应。
通过在修剪后的Audio-alpaca数据集上微调Tango,得到的Tango 2在客观和人类评估指标上均显著优于Tango和AudioLDM2。
扫码添加
免费获取论文 pdf 完整版本
(后续会持续更新AI领域最新论文,偏好什么方向可以评论哦~)