谷歌DeepMind：GPT-4高阶心智理论彻底击败人类，第6阶推理讽刺暗示全懂了

作者：新智元发布时间：2024-06-02

封面图

新智元报道

编辑：Aeneas 好困

刚刚，谷歌DeepMind、JHU、牛津等发布研究，证实GPT-4的心智理论已经完全达到成年人类水平，在更复杂的第6阶推理上，更是大幅超越人类！此前已经证实，GPT-4比人类更能理解语言中的讽刺和暗示。在心智理论上，人类是彻底被LLM甩在后面了。

GPT-4的高阶心智理论（ToM），已经正式超越人类！

就在刚刚，谷歌DeepMind、约翰斯·霍普金斯大学和牛津大学等机构的学者发布的研究证实，GPT-4在心智理论任务上的表现，已经完全达到了成年人类的水平。

而且，它在第6阶推理上的表现，更是大幅超过了人类！

论文地址：https://arxiv.org/pdf/2405.18870

无独有偶，此前Nature子刊《自然·人类行为》的一项研究也证实了，GPT-4在心智理论上的表现已经位于人类水平之上，能够比人类更好地察觉出言语中的讽刺和暗示。如果你不这么觉得，那它大概率只是在隐藏实力而已。

总之，这前后脚的两项研究清晰地表明，如今表现最好的大语言模型，已经发展出广义的心智理论能力，而GPT-4，已经是其中的佼佼者。

文章配图

所以，距离各位LLM用心智和权术把我们人类玩弄于股掌之间的那一天，还有多远？

相关配图

高阶心智理论

这次的研究，探讨了LLM究竟能在多大程度上发展高阶心智理论（higher-order ToM）。

所谓高阶心智理论，就是人类以递归方式，推理他人的多种心理和情感状态的能力。

比如，「我认为你相信她知道」这句话中，就包含了非常复杂的多层推理，属于一个三阶陈述。

在以前，大部分相关研究，都集中在二阶ToM上。

用什么样的方法，能衡量出LLM对如此复杂问题的把握能力？

团队特意引入了一套手写测试套件——多阶心智理论问答测试。

而参与PK的选手，有5个LLM和一大群成年人。

相关配图

第6阶：GPT-4准确率93%，人类准确率82%

多阶心智理论问答：MoToMQA

这套全新的基准测试——多阶心智理论问答（Multi-Order Theory of Mind Question & Answer, MoToMQA），基于一种经过充分验证的心理测试——记忆任务（Imposing Memory Task, IMT）。

MoToMQA中，包括7个短篇故事，每个故事大概有200字左右，描述了3到5个角色之间的社交互动。

来源：网络资料

注意，有意思的来了——

这些故事中，还包含了20个真假陈述。

其中10个陈述，针对2-6阶心智理论，另外10个陈述，则涉及故事中的事实，它们以2-6个原子陈述的长度，对应心智理论陈述的阶数。

其中，团队以「阶」（orders）来描述心智理论陈述，以「级」（levels）来描述事实陈述。

相关配图

另外，团队特意没有公开放出MoToMQA基准测试，以防止它包含在未来LLM的预训练语料库中，从而使测试失去意义。

对于每个陈述，团队都经过了非常严格的检查，保证陈述不能有不清晰或模棱两可的措辞、语法错误、缺失的心理状态或命题条款。

在陈述中，仅仅包含涉及社交事实的事实陈述（即与故事中个体相关的事实），而不包括工具性事实（比如「天空是蓝色的」），并且会平衡每个故事中真假陈述的数量、陈述类型以及心智理论阶数或事实级别。

这样，就保证了每个故事的陈述集如下，[ToM2t, ToM2f, ToM3t, ToM3f, ToM4t, ToM4f, ToM5t, ToM5f, ToM6t, ToM6f, F2t, F2f, F3t, F3f, F4t, F4f, F5t, F5f, F6t, F6f]。

其中，数字表示心智理论阶数或事实级别，「ToM」表示心智理论，「F」表示事实，「t」表示真陈述，「f」表示假陈述。

对于事实陈述来说，仅需要回忆；而心智理论陈述，则需要回忆加推理。

相关配图

使用独立样本比例，测试评估LLM和人类在ToM与事实任务上的表现

人类和LLM对故事理解到了什么程度？会怎样回忆？这些都是用事实陈述来控制的。

而鉴于心智理论和事实陈述之间的固有差异，团队又增加了一个进一步的控制条件——

他们设计了两个「故事条件」。

在「无故事」条件中，被试阅读故事后，会进入第二个屏幕回答问题，无法再看见之前的故事了。

而在「有故事」条件中，被试回答问题时，故事仍然会留在屏幕顶部，这样，就消除了心智理论失败实际上是记忆失败的可能性。

相关配图

并且，提示设计也会对LLM的表现有显著影响。

因此，团队测试了两种提示条件：「人类提示」会使用来自人类研究的准确文本，而「简化提示」就删除了故事和问题前的文本，提供了「问题：」和「答案：」标签。

显然，简化提示能够使得问答任务的性质，以及所需的真假响应，对模型来说变得更清晰。

而且，团队还评估了LLM和人类，是否会受问题中「真」和「假」阶段的「锚定效应」的影响。

锚定效应是一种广为人知的心理现象：人们在做决策时，会过于依赖最先提供的信息（锚）。

相关配图

为此，团队设计了两个问题条件：一个问题是「你认为以下陈述是真还是假？」，另一个问题是「你认为以下陈述是假还是真？」。

相关配图

结果

ToM任务

结果显示，在ToM任务上表现最好的模型是GPT-4和Flan-PaLM。

人类这边则与GPT-4差异不大，但显著优于Flan-PaLM。

有趣的是，LaMDA对每个陈述都回答「真」，并最终正确回答了50%的陈述。

具体来看，在第2、3、4和6阶的ToM陈述上，Flan-PaLM、GPT-4和人类的差异不大。但在第5阶时，人类要显著优于这两个模型。

GPT-4在第3阶的正确回答比例显著高于第4阶，在第4、5阶之间的表现没有显著差异，但在第6阶的正确回答比例显著高于第4阶。

Flan-PaLM在第3阶的正确回答比例高于第4阶，而在第4、5阶之间，或第4、6阶之间，表现没有显著差异。

人类在第3、4阶，以及第4、6阶之间的表现没有显著差异，但从第4阶到第5阶的表现有明显改善。

相关配图

事实任务

在事实任务上，依然是GPT-4和Flan-PaLM的表现最好。

同样，人类与GPT-4差异不大，但表现显著优于Flan-PaLM。

锚定效应

此外，团队还研究了响应选项的顺序（先真后假 vs. 先假后真）影响。

结果显示，在「先真后假」条件下，PaLM提供「真」回答的比例显著高于「先假后真」条件。GPT-3.5在「先真后假」条件下提供「真」回答的比例也显著高于「先假后真」条件。

相关配图

不过，响应选项的顺序对Flan-PaLM，GPT-4或人类的回答没有显著影响。

与之前的测试类似，LaMDA无论条件如何都对所有陈述回答「真」。

人类AI大PK！

人类

在此项研究中，被选中的人类被试，全都是母语是英语的人。

这项人类被试会被随机分配到7个故事中的一个，而且会阅读两次。

然后，他们会被随机分配到与该故事对应的20个陈述之一，然后回答：这个陈述是真还是假？

为了防止被试在试验中学习，每个被试只会看到一个陈述。

LLM也是类似，因为测试会在每次实验中独立进行，因此LLM无法在试验之间，或者在上下文中学习。

相关配图

LLM

五位LLM选手，则是来自OpenAI的GPT-3.5 Turbo Instruct，GPT-4，以及来自谷歌的LaMDA、PaLM和Flan-PaLM。

在试验中，团队会向LLM API提供了单个token候选词作为输入，然后评估分配给它们的对数概率。

但问题在于，基于最可能的下一个token来评估LLM的任务表现时，可能会得到在多个语义上等效的正确响应。

比如，当回答「天空是什么颜色？」这个问题时，如果LLM回答「蓝色」，或者「天空是蓝色的」，其实都是正确的。

然而，只有第一个答案，会以最大的概率分配给「蓝色」这个token。

相关配图

为了解决这个问题，提高结果的鲁棒性，团队为模型提供了不同大小写形式的「true」和「false」，这些形式由不同的token表示。

并且，团队还在第二组中，发送了「是」和「否」作为候选响应，但没有将它们包括在分析中，因为它们都不是对真假问题的有效响应。

对于所有模型，团队在两组4个候选词中进行了测试：[‘True’, ‘False’, ‘TRUE’, ‘FALSE’] 和 [‘true’, ‘false’, ‘Yes’, ‘No’]。

最终，团队处理了7个故事，每个故事有20个陈述，涵盖上述4种条件，收集了560组12个候选对数概率，总计为每个研究的三种语言模型收集了5600个独立的数据点。

相关配图

GPT-4如何超越人类？

规模+微调

在这些模型之中，只有GPT-4和Flan-PaLM的表现曾超过人类。

而GPT-4和Flan-PaLM，也是它们之中最大的两个，分别具有约1.7万亿参数和5400亿参数。

值得注意的是，PaLM、GPT-3.5和LaMDA形成了一个独立的模型组，它们的表现随级别变化较小且表现较差。

对于LaMDA和GPT-3.5来说，我们可以将其较差的表现归因于它们较小的规模，分别为350亿和1750亿参数。

但PaLM拥有与Flan-PaLM相同数量的参数和预训练，唯一的区别是Flan-PaLM的微调。

这意味着ToM的潜力会在GPT-3.5的1750亿参数以上和PaLM及Flan-PaLM的5400亿参数以下的某个范围内出现，并需要通过微调来实现。

此外，GPT-4在第5和第6阶上优于Flan-PaLM，也意味着规模、RLHF微调或多模态预训练，对于完成高阶ToM十分有利。

来源：网络资料

语言+多模态

与此同时，GPT-4和Flan-PaLM展示出的卓越的语言能力，也是ToM背后的关键。

人类的语言充满了对内部状态的语言指称（认知语言），对话则提供了「行动中的心智」的证据，因为人们在对话中所说的话隐含地传达了他们的想法、意图和感受。

虽然LLM可能仅通过语言就具备一定程度的理解，但这种理解将通过多模态得到增强。

而这可能也解释了为什测试中唯一的多模态模型GPT-4，表现会如此出色。

团队认为，多模态能力或许可以帮助GPT-4利用故事中包含的视觉行为信号（例如「扬眉」）。

相关配图

高阶表现

先前的IMT研究发现，随着「阶」的增加，模型的表现会下降。

的确，GPT-4和Flan-PaLM在第2阶表现优异，但在第4阶有所下降。

随后，Flan-PaLM的表现继续下降，但GPT-4则开始上升，并且在第6阶任务上显著优于第4阶任务。

类似的，人类在第5阶任务上的表现也显著优于第4阶任务。

对人类而言，这可能是因为一种新的认知过程在第5阶时「上线」，使得在高阶任务上的表现相对于使用低阶认知过程的任务有了提升。

如果这一解释成立，那么很可能GPT-4从其预训练数据中学习到了这一人类表现模式。

值得注意的是，GPT-4在第6阶任务上的准确率达到了93%，而人类的准确率为82%。

其原因可能是，第6阶陈述的递归句法可能给人类带来了认知负荷，但这并不影响GPT-4。

具体而言，ToM能力支持人类掌握递归句法直到第5阶，但在之后则依赖于递归句法。因此，个体在语言能力上的差异可能解释了在第6阶观察到的表现下降。

不过，与LLM不同的是，人类够通过非语言刺激（例如在真实的社会互动中）做出正确的推理。

相关配图

回忆任务

不管是人类还是LLM，都在事实回忆任务上有着更好的表现。

对于人类来说，ToM任务需要比事实任务动用更多的神经元。

而对于LLM来说，很可能是因为回答事实问题所需的信息在文本中是现成的，并且在生成下一个词元时会受到相对程度的「注意力」；而ToM推理则需要从预训练和微调数据中概括关于社会和行为规范的知识。

GPT-3.5和PaLM在事实任务上表现良好，但在ToM任务上表现不佳，并且是唯一表现出「真」和「假」顺序锚定效应的模型。这表明它们没有回答ToM问题的泛化能力，并且对提示扰动不具有鲁棒性。

更懂人类，能做仲裁

这些结果表明，能够推断对话者心理状态的LLM，可以更好地能理解对方的目标，并根据情绪状态或理解水平调整解释。

此外，擅长高阶ToM的LLM可能还可以在相互冲突的想法和价值观之间进行仲裁，并对涉及多方冲突的道德问题进行判断，考虑相关的意图、信念和情感状态，就像人类一样。

相关配图

数据集

在此次研究中，LLM数据集是由6个候选词的对数概率组成的，并作为了模型生成的完整概率分布的一个子集。

团队通过将语义等效的正向token和负向token的概率分别相加，并将每一个除以总概率质量，提取出了「真」或「假」响应的总体概率。

相关配图

人类数据集则包含对同一陈述的多个响应，而LLM数据集对每个陈述仅包含一个响应。

为了使两者的数据分析单位一致，团队将人类数据转换为单一的二元「True」或「False」响应，基于每个陈述的「True」响应平均数是否高于或低于50%。

五项心智理论，GPT-4四项超越人类

而此前，Nature子刊《自然·人类行为》证明GPT-4的心智理论优于人类的研究，进行的是以下5项测试——错误信念、反讽、失言、暗示、奇怪故事。

结果显示，GPT-4在5项测试中有3项的表现明显优于人类（反讽、暗示、奇怪故事），1项（错误信念）与人类持平，仅在失言测试中落于下风。

更可怕的是，GPT-4其实并非不擅于识别失言，而是因为它非常保守，不会轻易给出确定性的意见。

相关配图

错误信念

错误信念评估的是，受测者推断他人所拥有的知识与自己（真实的）对世界的认识不同的能力。

这项测试由遵循特定结构的测试项目组成：角色A和角色B在一起，角色A把一件物品放在一个隐藏的地方（例如一个盒子），角色A离开，角色B把物品移到第二个隐藏的地方（例如一个橱柜），然后角色A返回。

在测试中，51名人类参与者中，有49人答对了。而所有的LLM，都回答正确！

相关配图

反讽

要理解反讽，就需要推断语句的真实含义，还得能听出嘲讽的弦外之音。

在这个项目中，人类彻底被GPT-4击败！

相关配图

失言

失言测试提供了这样一个情境：一个角色无意中说了一句冒犯听者的话，因为说话者不知道或不记得某些关键信息。

相关配图

在此测试中，GPT-4的得分似乎明显低于人类水平。

经过深入调查后，研究者发现了可怕的真相——

GPT模型既能够计算有关人物心理状态的推论，又知道最有可能的解释是什么，但它不会承诺单一的解释，这也就是超保守主义假设。

相关配图

暗示

暗示任务通过依次呈现10个描述日常社交互动的小故事来评估对间接言语请求的理解。每个小故事都以一句可被解释为暗示的话语结束。

一个正确的回答既能指出这句话的本意，也能指出这句话试图引起的行动。

在这项测试中，GPT-4的表现明显优于人类。

相关配图

奇怪故事

奇怪故事提供了一种测试更高级心智能力的方法，如推理误导、操纵、撒谎和误解，以及二阶或高阶心理状态（例如，甲知道乙相信丙......）。

在这个测验中，受测者会看到一个简短的小故事，并被要求解释为什么故事中的人物会说或做一些字面上不真实的事情。

同样，GPT-4的表现明显优于人类。

相关配图

作者介绍

论文一作Winnie Street，目前是Google AI的高级研究员。

在此之前，她在牛津大学获得了考古学与人类学的学士学位。

相关配图

参考资料：

https://arxiv.org/abs/2405.18870

本文来自微信公众号“新智元”（ID：AI_era），作者：新智元，36氪经授权发布。