AI导航测试：纽约街道闭路实验揭示生成式模型的薄弱点

作者：DeepTech深科技发布时间：2024-11-16

大语言模型生成式AI

来源：MIT News ，图片由 iStock 提供

尽管大型语言模型（LLMs）可以完成令人印象深刻的任务，比如写诗或生成可行的计算机程序，这些模型的训练目标却只是预测文本中下一步可能出现的单词。

这种令人惊讶的能力让人感觉这些模型可能隐约学到了一些关于世界的通用真理。

但一项新的研究表明，事实并非如此。研究人员发现，一种常见的生成式 AI 模型可以在纽约市提供接近完美准确性的逐步驾驶路线，但实际上并没有形成准确的城市地图。

尽管该模型在导航方面表现得极为出色，当研究人员关闭了一些街道并添加了绕行路线后，其表现迅速下降。

深入分析后，研究人员发现，该模型隐含生成的纽约地图包含许多不存在的街道，这些街道以弯曲的形态连接了远离网格的交叉路口。

这一现象对生成式 AI 模型在现实世界中的应用可能产生严重影响，因为一个在特定环境中表现良好的模型，在任务或环境稍有改变时可能会崩溃。

“我们曾希望，既然 LLMs 可以在语言任务中完成这些惊人的事情，也许我们可以将这些工具应用于科学的其他领域。但如果想用这些技术进行新发现，弄清楚 LLMs 是否正在学习连贯的世界模型是非常重要的问题。”研究资深作者、MIT 经济学助理教授以及 MIT 信息与决策系统实验室（LIDS）的主要研究人员 AsheshRambachan 说道。

这篇论文的第一作者是哈佛大学博士后 KeyonVafa，其他合作者包括MIT电气工程与计算机科学（EECS）研究生 JustinY.Chen，康奈尔大学计算机科学与信息科学教授 JonKleinberg，以及 MIT EECS 与经济学教授 SendhilMullainathan（LIDS 成员）。研究成果将在神经信息处理系统会议 NeurIPS 上发表。

新评估指标

研究人员将重点放在一种被称为 Transformer 的生成式 AI 模型上，它是 GPT-4 等大型语言模型的核心技术。Transformers 通过训练大量语言数据来预测序列中的下一个标记（如句子中的下一个单词）。

但研究人员指出，如果科学家希望判断 LLMs 是否形成了一个准确的世界模型，仅测量其预测的准确性还远远不够。

例如，研究发现，Transformer 几乎每次都能预测出四子棋（Connect 4）的有效棋步，但实际上并不了解游戏规则。

因此，研究团队开发了两个新指标，以测试 Transformer 的世界模型。研究重点围绕一个被称为确定性有限自动机（DFA）的问题类别展开。

DFA 是一类具有状态序列的问题，例如到达目的地时必须经过的交叉路口，以及沿途需要遵循的明确规则。

研究团队选择了两个 DFA 问题：纽约市街道导航和奥赛罗（Othello）棋盘游戏。

“我们需要一个测试环境，其中我们明确知道世界模型是什么。这样我们才能严格地思考恢复这些世界模型的含义。”Vafa 解释道。

第一个新指标“序列区分度”测试模型是否能够辨别两种不同的状态（如两个不同的奥赛罗棋盘）及其差异。Transformer 使用有序的数据点列表（序列）来生成输出。

第二个新指标“序列压缩度”测试一个具有连贯世界模型的 Transformer 是否能识别两个相同状态（如两个相同的奥赛罗棋盘）具有相同的下一步可能性序列。

研究人员使用这些指标测试了两类常见 Transformer 模型：一种在随机生成的序列数据上训练，另一种则在通过策略生成的数据上训练。

不连贯的世界模型