斯坦福联合英伟达提出扩散语言模型，将困惑度提升自回归模型水平

作者：DeepTech深科技发布时间：2024-11-04

自回归模型是一种典型的序列生成模型，其生成过程必须按照严格顺序进行，根据先前生成的内容不断来预测下一个词。这种方式虽然在许多任务中表现良好，但由于每一步生成都依赖前面的结果，因此容易累积误差，且生成过程必须是严格的顺序，限制了生成的灵活性。

与此相对，离散扩散模型则采用了一种与自回归不同的生成范式，从一个完全随机的噪声开始，逐步去噪以生成目标文本 [1]。其优势在于能够并行生成，并且在理论上具有更快的采样速度。

但现有的离散扩散模型在生成质量上仍然无法与自回归模型媲美，因为其通常将去噪的联合分布参数化为独立的逐个标记分布，这忽视了序列级别的关联性，从而导致了严重的解码错误累积，并阻止用户使用少量去噪时间进行快速采样。

图丨离散去噪扩散模型的正向与反向过程（来源：arXiv）

因此，如何改善误差积累问题，进一步提高模型性能，对于离散扩散模型的进一步发展具有重要意义。

针对这一问题，斯坦福大学与英伟达的联合团队于近期提出了提出了一种名为基于能量的扩散语言模型（Energy-based Diffusion Language Model, EDLM）的新方法。

相关论文以《基于能量的文本生成扩散语言模型》（Energy-Based Diffusion Language Models for Text Generation）为题发表在预印本网站 arXiv 上 [2]。

斯坦福大学计算机科学系徐民凯博士是第一作者兼通讯作者。

图丨相关论文（来源：arXiv）

如前所述，在现有的离散扩散模型中，生成过程是通过从完全被掩码的序列开始，然后逐步去噪来生成完整的文本。然而，这种去噪的联合分布通常被简化为各个标记的独立分布，这种方式忽视了整个序列中标记之间的复杂依赖关系，使得在去噪过程中容易产生累积误差，从而降低生成的质量和模型的准确性。

研究团队给出的解决方案是——在扩散过程引入基于能量的模型（Energy-Based Model，EBM）建模整个序列的去噪分布，更好地捕捉序列中的标记之间的关联性。

而这主要归功于能量模型的灵活性和有效性。这种来源于统计物理学的模型可以通过定义一个能量函数，将低能量与高概率对应（反之亦然），根据能量的相对值便可有效地捕捉序列内的复杂关联性，而无需依赖标准化的概率分布。

在训练过程中，能量模型的目标是最小化损失函数，使得与数据相符的能量值低，而与数据不符的能量值高。这种方式使得模型能够专注于优化能量函数，自然地反映出标记之间的依赖关系，而不必在概率框架内进行复杂建模。

但是，训练基于能量的模型时，对于配分函数的处理一直以来都是一个难题，通常使用的办法是通过马尔可夫链蒙特卡洛（MCMC）的采样方法来近似参与函数，但在处理高维数据时，这种方法计算起来非常困难。

（来源：Predicting structured data）

课题组主要采用了两种主要方法来获取能量函数的参数。

其一是利用预训练的自回归模型，即将预训练的自回归语言模型作为能量函数来评估每个去噪步骤中序列的可能性，这种方式无需重新训练，能够有效利用已有的语言模型知识。

其二是通过双向 Transformer 进行噪声对比估计微调，通过引入一个额外的能量函数，并利用噪声对比估计方法对其进行微调，以更好地捕捉序列中的标记间依赖关系。这种设计允许 EDLM 在保持生成灵活性的同时，减少解码错误。

此外，研究人员还通过引入一种高效的并行采样算法来加速生成过程。

在传统的扩散模型中，由于去噪步骤的独立性，通常需要大量的采样步骤来确保生成的文本质量，这使得生成过程非常耗时。

而 EDLM 使用一种称为自正则化的重要性采样的方法来解决这一问题。在每一个去噪步骤中，EDLM 会并行采样多个可能的候选序列状态，并使用能量函数计算这些候选序列的“能量值”，然后基于这些能量值选择最优的候选。

这种方法不仅能够减少生成所需的采样步骤，还能够提高采样效率，从而让整个生成过程比传统的扩散模型更快。

为了验证 EDLM 的有效性，团队在 Text8、OpenWebText 等多个语言建模基准数据集上进行了实验。

结果显示，在生成困惑度（Perplexity）这一衡量生成质量的指标上，EDLM 不仅优于现有的扩散模型，并接近甚至达到自回归模型的水平。

此外，在保持生成性能的情况下，EDLM 的采样速度比传统扩散模型提升了约 1.3 倍，这进一步验证了其有效性。

图丨 EDLM 的分析和消融研究（来源：arXiv）

总结来说，这种模型成功地将能量模型与扩散模型结合，通过有效的去噪和并行采样技术，实现了更好的生成质量和采样效率。未来，这种将能量模型引入扩散生成的新方法有望进一步推动并行生成技术的发展。

参考资料：

1. https://arxiv.org/abs/2107.03006

2. https://arxiv.org/abs/2410.21357

3.https://www.researchgate.net/profile/Marcaurelio-Ranzato/publication/216792742_A_Tutorial_on_Energy-Based_Learning/links/0912f50c6862425435000000/A-Tutorial-on-Energy-Based-Learning.pdf

运营/排版：何晨龙

机器之心Pro 2024-04-24

Transformer挑战者出现！斯坦福CMU联合团队，模型代码都开源

现在ChatGPT等大模型一大痛点：处理长文本算力消耗巨大，背后原因是Transformer架构中注意力机制的二次复杂度。 FlashAttention作者Tri Dao参与提出的新架构，成为有力挑

斯坦福编程 ChatGPT

量子位 2023-12-06

斯坦福开源FlashAttention，大模型速度翻倍

一年时间，斯坦福大学提出的新型 Attention 算法 ——FlashAttention 完成了进化。这次在算法、并行化和工作分区等方面都有了显著改进，对大模型的适用性也更强了。近来，几种长上下文语言模型陆续问世，包括 GPT-4（上下文长度为 32k）、MosaicML 的 MPT（上下文长度为 65k）Anthropic 的 Claude（上下文长度为 100k）。长文档查询和故事写作等新兴用例已经表明扩展语言模型上下文窗口是非常必要的。然而，扩大 Transformer 的上下文长度是一

斯坦福 GPT-4 Claude

AI研习所 2023-07-25

斯坦福NLP课程来了

生成式AI，尤其是以ChatGPT为首的大语言模型正在改变人们的生活方式，我想一定有小伙伴想加入NLP这个行列。微软重磅发布4个适合初学者的机器学习资料我在前一篇文章中分享了微软人工智能初学者课程，其中的【生成式AI】非常适合初学者，今天我将分享NLP的进阶课程。https://web.stanford.edu/class/cs224n/关注微信公众号：人工智能大讲堂，后台回复snlp获取全部资料。资料分为三种：课堂讲义，课后笔记，相关论文。第一周课程：第一讲：词嵌入计算机只能处理数字，在将文本输入到模型

斯坦福生成式AI 人工智能 ChatGPT 大语言模型

人工智能大讲堂 2023-11-22

斯坦福联合英伟达提出扩散语言模型，将困惑度提升自回归模型水平

推荐体验

相关资讯

视频生成模型变身智能体：斯坦福Percy Liang等提出VideoAgent

这就是OpenAI神秘的Q*？斯坦福：语言模型就是Q函数

Transformer挑战者出现！斯坦福CMU联合团队，模型代码都开源

斯坦福开源FlashAttention，大模型速度翻倍

斯坦福NLP课程来了

近期资讯

2024年中国创新药十大谜团

国产076两栖攻击舰震撼登场，创三项世界第一

突然换帅，新领导能“振兴”王老吉吗？

尤瓦尔·赫拉利：感受很重要，但请不要成为情绪的奴隶

苹果的2024：产品乏善可陈，AI命途多舛，生态墙正加速瓦解

厦门杀出超级IPO：年入3.68亿，中国第一，打破垄断

28个品牌88次高管调动，美妆人事大地震

国产「替代 iPhone」暗战：四大果味手机，谁让苹果焦虑？

从赚超40%到亏损10%，百亿私募希瓦资产业绩为何“翻车”？

这届年轻人爱上“老年模式”：数字生活极简化的一条蹊径？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响