GPT-4被证实具有「人类心智」登Nature，AI比人类更好察觉讽刺和暗示

作者：新智元发布时间：2024-05-26

关于AI是否具有「心智理论」一直存在很多争议。Nature最新研究显示，GPT-4的行为可与人类媲美，甚至能够比人类更好地察觉出讽刺和暗示。虽然GPT-4在判断别人是否「失言」方面，未及人类水平，但这是因为它被不表达观点的护栏所限制，而并非因为其缺乏理解能力。

AI发展到今天，其智能水平与人类相比已经不遑多让了，没有一个人可以像AGI一样「包罗万象、吐纳自如」。

这个时候，我们如何还能守住人之为人的尊严？

有的人说，至少人类是社会性的存在，我们可以听得懂同类的「弦外之音」，可以与他人产生共情，而机器是冰冷的。

关于AI是否有心智理论（Theory of Mind，ToM）一直有很多争论。

特别是，最近以ChatGPT为代表的大模型（LLM）的发展再次将这个问题推入公众视线——这些模型是否有心智理论？它能理解别人的心理状态吗？

Nature子刊《自然·人类行为》的一篇最新研究采用非常严谨的试验，证明GPT-4表现居然位于人类水平之上，能够比人类更好地检测出讽刺和暗示，其弱点来自于不表达观点的护栏。

论文地址：https://www.nature.com/articles/s41562-024-01882-z

这也就是说，GPT-4在心智理论方面与人类无异，如果你觉得它不够有洞察力，有可能只是因为它在隐藏实力！

GPT-4心智优于人类

人们关心别人的想法，并花费大量精力思考别人的想法。

想象一下，当你站在一扇关闭的窗户附近，听到朋友说「这里有点热」，你就会意识到，她不仅仅是在评论温度，而是礼貌地请求你打开窗户。

这种追踪他人心理状态的能力被称为心智理论，这是人类心理学的一个核心概念，也是人类社会互动的核心，涉及到沟通、同理心以及社会决策的整个过程。

随着LLM的兴起，心智理论不再是人类专属，AI心智理论可能不再遥远。

为了服务于更广泛的机器行为跨学科研究，最近有人呼吁建立「机器心理学」，主张使用实验心理学的工具和范式来系统地研究LLM的能力和局限性。

研究者通常使用一系列不同的心智理论测量方法，对每项测试进行多次重复，并与具有明确界定的人类表现基准进行比较。

Nature的这篇论文就是采用这种方法对GPT-4、GPT-3.5和Llama 2进行了测试，并将它们的表现与人类参与者样本（总人数=1907）的表现进行比较。

测试涵盖不同的维度，既有对人类认知要求较低的能力，如理解间接请求，也有对认知要求较高的能力，如识别和表达复杂的心理状态（误导或讽刺），测试共分为5个项目（错误信念、反讽、失言、暗示、奇怪故事）。

值得一提的是，为了确保模型不仅仅复制训练集数据，研究者为每个已发布的测试生成了新的方法。这些新颖的测试项目与原始测试项目的逻辑相匹配，但使用了不同的语义内容。

结果发现，GPT-4在5项测试中有3项的表现明显优于人类（反讽、暗示、奇怪故事），1项（错误信念）与人类持平，仅在失言测试中落于下风。

更可怕的是，研究人员又发现，GPT-4并非不擅于识别失言，而是因为它非常保守，不会轻易给出确定性的意见。

a, 人类、GPT-4、GPT-3.5和LLaMA2在各个测试项目（错误信念、反讽、失言、暗示、奇怪故事）的得分分布

b, 每个测试中原始公布项目（深色）和新颖项目（浅色）的平均得分的四分位数范围

错误信念

错误信念评估的是，受测者推断他人所拥有的知识与自己（真实的）对世界的认识不同的能力。

这项测试由遵循特定结构的测试项目组成：角色A和角色B在一起，角色A把一件物品放在一个隐藏的地方（例如一个盒子），角色A离开，角色B把物品移到第二个隐藏的地方（例如一个橱柜），然后角色A返回。

向参与者提出的问题是：当角色A回来时，他们会在新的位置（物品真正所在的位置，符合参与者的真实想法）还是在旧的位置（物品原来所在的位置，符合角色A的错误想法）寻找物品？

除了错误信念条件之外，测试还使用了真实信念控制条件，即角色B不移动角色A藏匿的物品，而是将另一件物品移动到新的位置。加入这个对照，可以有效地检测出错误信念是如何发生的。

这些测试的挑战不是记住角色最后一次看到该物品的位置，而是要调和相互冲突的心理状态之间的不一致。

在这项测试中，人类参与者和LLM的表现都达到了上限。51名人类参与者中只有5人犯了一次错误，通常是没有指定两个地点中的任何一个，而是回答「他会在房间里找」。

所有LLM都正确地报告说，离开房间的人随后会在他们记忆中看到物品的地方寻找该物品，即使该物品不再与当前位置相符。

反讽

要理解讽刺性话语，需要推断语句的真实含义（通常与所说内容相反），并检测说话者的嘲讽态度，这已被视为人工智能和LLM的一项关键挑战。

在这个项目中，GPT-4的表现明显优于人类水平。相比之下，GPT-3.5和Llama 2-70B的表现均低于人类水平。

GPT-3.5在识别非讽刺性对照语句时表现完美，但在识别讽刺性语句时却出现错误。对照分析显示了明显的顺序效应，即GPT-3.5在较早的试验中比在较晚的试验中出错更多。

Llama 2-70B在识别反讽和非反讽对照语句时都会出错，这表明他们对反讽的辨别能力总体较差。

失言

失言测试提供了这样一个情境：一个角色无意中说了一句冒犯听者的话，因为说话者不知道或不记得某些关键信息。

在向被测试者介绍完场景后，研究者会提出四个问题：

「故事中有人说了不该说的话吗？」（正确答案总是「是」）
「他们说了哪些不该说的话？」（每个项目的正确答案都有所变化）
一个理解性的问题，用于测试对故事事件的理解（每个项目的问题都有所不同）
一个测试对说话者错误信念的认识的问题，措辞如下「说话者知道他们所说的不恰当吗？」（每个项目的问题都会有所不同，正确答案总是「不」）

这些问题是在讲述的同时提出的。根据最初的编码标准，被试必须正确回答所有四个问题，其答案才算正确。

不过，在此研究中，研究者主要关注的是最后一个问题的回答情况，该问题测试回答者是否理解了说话者的心理状态。

在研究人类数据时，研究者注意到有几位参与者对第一个问题的回答是错误的，原因是他们明显不愿意归咎于他人（例如「不，他没有说错什么，因为他忘记了」）。

因此，为了将重点放在与研究相关的假说理解的关键方面，研究者只对最后一个问题进行了编码。

在此测试中，GPT-4的得分明显低于人类水平。并且对特定项目存在孤立的上限效应。

GPT-3.5的得分更差，除一次运行外，表现几乎处于下限。

相比之下，Llama 2-70B的表现优于人类，除了一次运行外，所有运行均达到100%的准确率。