AI 的“心智理论”难题：Meta ExploreToM 探索突破之路

作者：IT之家发布时间：2024-12-20

IT之家 12 月 20 日消息，Meta 公司携手华盛顿大学和卡内基梅隆大学，组建科研团队，合作开发了 ExploreToM 框架，旨在更有效地评估和训练大语言模型（LLM）的心智理论（Theory of Mind，ToM）能力。

心智理论

心智理论（Theory of Mind，ToM）是人类社会智能的基础之一，能让我们能够理解他人的想法、意图和信念。这种认知能力对于有效的沟通和协作至关重要，是复杂社交互动的支柱。

让 AI 也具备 ToM 能力，对于创建能与人类无缝互动的智能体至关重要，只是当前大型语言模型（LLM）在 ToM 方面仍面临巨大挑战。

现有的基准通常缺乏复杂性和多样性，导致高估模型能力。例如，许多基准测试基于简单的预定义场景，无法复制人类用来推断心理状态的复杂推理。

ExploreToM 框架

ExploreToM 通过生成多样化、可扩展的对抗性数据集，为提升 AI 的 ToM 能力奠定了坚实基础。该研究强调了当前模型的局限性，以及高质量训练数据对于弥合这些差距的潜力。

在数据集方面，ExploreToM 利用 A* 搜索算法和特定领域语言生成多样化、高难度的测试数据集，模拟复杂的社会情景，挑战 LLM 的认知极限。

ExploreToM 与现有基准测试不同，通过创建对抗性故事场景，旨在揭示 LLM 在 ToM 推理中的盲点。

此外该框架还引入了非对称信念更新机制，可以模拟不同角色对同一情况持有不同观点的复杂社交互动。

主流模型测试效果

GPT-4o 和 Llama-3.1-70B 模型在 ExploreToM 数据集上的准确率分别只有 9% 和 0%，凸显了现有 LLM 在处理复杂 ToM 推理方面的不足。

在 ExploreToM 数据上进行微调后，模型在经典 ToMi 基准测试中的准确率提高了 27 个百分点，证明了该框架的有效性。

IT之家附上参考地址

相关资讯

chatgpt是否具备心智理论

在2022年11月30日，OpenAI的聊天机器人模型ChatGPT在全球范围内引发了广泛关注。只用了短短的五天，ChatGPT就吸引了超过百万的用户。而且在诗歌创作方面，它表现得非常优秀，展示了极深的知识面和流畅的应答能力。这让研究者开始思考，ChatGPT是否具备了理解他人思想与情感的能力，也就是我们所说的“读心能力”。2023年4月，斯坦福大学的计算心理学家米哈尔·科辛斯基在ArXiv平台上发布了一篇预印本论文《心智理论可能自发地出现在大型语言模型中》。科辛斯基的研究表明，随着语言模型的不断升级和复

ChatGPT OpenAI 斯坦福大语言模型

chatgpt执笔方寸AI 2023-07-17

基于认知理论的 AI 架构探索

本文基于笔者于 2024年 6月在 AI 架构理论方面实验，大部分文字汉化自 8月中旬给 Llama 团队做的 Talk。恰好 OpenAI 最近发布的 o1 指向了相似的方向，于是将内容科普化之后和大家讨论。

LLaMA OpenAI

OneMoreAI 2024-10-10

近期资讯

轻松掌握Word文档页码设置与修改技巧，提升专业性与整洁度

无论是写论文、制作报告，还是编写书籍，页码的正确性和美观性都显得尤为重要。今天，我们就来聊聊如何在Word中修改页码，确保你的文档看起来专业又整洁。

新报观察 2024-12-29

轻松搞定投影：从选择设备到设置技巧的全方位指南

投影，听起来似乎是个高大上的词，其实它在我们的生活中无处不在。无论是在学校、公司会议，还是家里的家庭影院，投影都扮演着重要的角色。这背后的技术其实并不复杂，主要是通过光源、镜头和光学系统来实现的。市面上的投影仪种类繁多，有LCD、DLP等不同类型，但无论是哪种，它们的核心原理都是一样的。

新报观察 2024-12-29

华为 Mate 70 系列手机获鸿蒙 HarmonyOS 4.3.0.135 升级

主题随动心情、心情空间主题支持全新裸眼3D视觉效果，为您带来趣味空间互动体验。相机优化部分场景的拍照效果系统。

IT之家 2024-12-29

B站“神秘”官宣，雷军或亮相？跨年晚会已有超140万人预约！

有眼尖的网友发现，“神秘嘉宾”海报上的“OK”手势正是小米CEO雷军今年推出的“AreYouOK”气门芯帽。评论区，网友们纷纷表示：“这一定是雷军的‘AreYouOK’！”2018年，雷军做客综艺《奇葩说》，张嘴就是“LadiesandGentlemen……”，还主动玩起了OK梗：“没在B站听过我的歌吗？”

证券时报 2024-12-29

首次驶入中心城区，文远小巴广州天河段 BRT 自动驾驶便民线开通

IT之家12月29日消息，自动驾驶科技公司文远知行12月26日宣布，与广州巴士集团正式推出广州BRT天河段自动驾驶小巴便民线路运营服务。这是广州首条进入中心城区BRT系统的自动驾驶小巴线路，也是全国首条在一线城市中心城区夜间运营的BRT自动驾驶公交线路。

IT之家 2024-12-29

华为手机锁屏功能详解：设置、技巧与安全性分析

在日常使用手机的过程中，锁屏功能是一个非常重要的环节。它不仅能保护我们的隐私，还能防止误触。华为手机作为市场上非常受欢迎的品牌之一，其锁屏功能也有着独特的设计和使用方式。今天，我们就来聊聊华为手机的锁屏设置和一些实用的小技巧。首先，打开你的华为手机，找到“设置”这个应用。进入设置后，往下滑动，找到“安全与隐私”选项。

新报观察 2024-12-29

荣耀 Magic V / Vs 折叠屏手机获 MagicOS 9.0.0.132 升级

YOYO助理新增智能语音图片处理功能，支持通过语音命令一语消除路人、美颜照片、生成证件照、提取卡证信息到笔记（支持身份证、银行卡、户口本、驾驶证、护照、营业执照、名片）。YOYO助理新增智能点咖啡/奶茶、开/关应用通知权限等功能。新增同声传译功能，为您在会议、讲座等场景下提供同声传译服务。对话翻译功能新增持续收音模式，实现实时互译。

IT之家 2024-12-29

真我 13 系列手机获 realme UI 6.0 15.0.0.304 升级

更新内容极致动效新增光晕指纹解锁动效，按压解锁光圈向四周散开，解锁操作更生动。提升桌面图标动效细节丰富度，在安装、添加、拖拽图标时，附近图标如水波荡漾般灵动。全新充电动效，充电时候光圈流动，效果更有科技感。优化通知和控制中心动效，模拟现实弹簧拖动效果，新增控制中心音量条极限反馈动效、通知链式滑动动效，元素层层递进，细腻Q弹符合自然观感。

IT之家 2024-12-29

C语言学习指南：从基础构成到调试技巧的详细介绍

C语言是一种通用的编程语言，广泛应用于系统软件、应用软件、嵌入式系统等多个领域。今天，我们就来聊聊C语言该怎么用。首先，了解C语言的基本构成是很重要的。

新报观察 2024-12-29

轻松掌握华为手机换电池的技巧与步骤

换电池这事儿，可能不少人都觉得麻烦，尤其是面对华为手机这种品牌，很多人不知道该从何下手。其实，换电池并没有想象中那么复杂，只要掌握了一些技巧和步骤，自己动手也能轻松搞定。

新报观察 2024-12-29

AI 的“心智理论”难题：Meta ExploreToM 探索突破之路

推荐体验

相关资讯

chatgpt是否具备心智理论

基于认知理论的 AI 架构探索

AI绘画：探索未来的艺术之路

探索AI大模型：理论、技术与应用

无惧写作难题！这款AI工具让你的创作之路更顺畅

近期资讯

轻松掌握Word文档页码设置与修改技巧，提升专业性与整洁度

轻松搞定投影：从选择设备到设置技巧的全方位指南

华为 Mate 70 系列手机获鸿蒙 HarmonyOS 4.3.0.135 升级

B站“神秘”官宣，雷军或亮相？跨年晚会已有超140万人预约！

首次驶入中心城区，文远小巴广州天河段 BRT 自动驾驶便民线开通

华为手机锁屏功能详解：设置、技巧与安全性分析

荣耀 Magic V / Vs 折叠屏手机获 MagicOS 9.0.0.132 升级

真我 13 系列手机获 realme UI 6.0 15.0.0.304 升级

C语言学习指南：从基础构成到调试技巧的详细介绍

轻松掌握华为手机换电池的技巧与步骤

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响