GPT-4遭遇“反转诅咒”！知道“A是B”推不出“B是A”

作者：量子位发布时间：2023-09-23

GPT-4

GPT-4遭遇“反转诅咒”！知道“A是B”推不出“B是A”

鱼羊发自凹非寺

量子位 | 公众号 QbitAI

大模型明知道“你妈是你妈”，却答不出“你是你妈的儿子”？？

这么一项新研究，刚一发表就引燃了全场讨论。

来自范德堡大学、萨塞克斯大学、牛津大学等研究机构的研究人员惊讶地发现：

一个大语言模型在训练时被喂进了“A是B”这种形式的数据，它并不会自动反推出“B是A”。大模型存在“反转诅咒”现象。

甚至强如GPT-4，在反向问题实验中，正确率也只有33%。

OpenAI创始成员Andrej Karpathy第一时间转发了这篇论文，并评论说：

LLM知识比人们想象中“零散”得多，我对此仍然没有很好的直觉。

这具体是怎么一回事？

大模型的“反转诅咒”

研究人员主要进行了两项实验。

在第一项实验中，研究人员在GPT-4的帮助下构建了以下形式的数据，来微调大模型。

is .（或者反过来）

所有这些名字都是虚构的，以避免大模型在训练过程中见过他们。

在GPT-3-175B上的实验结果显示，当提示与数据集给出的描述顺序匹配时，模型给出的答案很不错。

但当顺序反转过来，模型的准确率甚至直接降到了0。

举个例子，就是大模型吃到过“达芙妮是《时光之旅》的导演”这么一条数据，你问它“达芙妮是谁”时，它也答得好好的。但当你反过来问“谁是《时光之旅》的导演”时，模型就懵了。

在GPT-3-350M和Llama-7B上，研究人员也得到了相同的实验结果。

再来看实验2。在这项实验中，研究人员在不进行任何微调的情况下，测试了大语言模型对真实名人信息的反向处理能力。

他们从IMDB（2023）收集了最受欢迎的1000位名人的名单，并通过OpenAI API来问GPT-4有关这些人父母的信息，最终得到了1573对名人孩子-父母对数据。

结果发现，如果问题像这样——“汤姆·克鲁斯的妈妈叫什么”，GPT-4回答准确率为79%。但当问题反转，变成“Mary Lee Pfeiffer（阿汤哥的老妈）的儿子叫什么”，GPT-4回答准确率就降到了33%。

在Llama-1家族模型上，研究人员也进行了同样的测试。实验中，所有模型回答“父母是谁”问题的准确率，都要远高于回答“孩子是谁”问题的准确率。

研究人员将这种现象命名为“反转诅咒”。他们认为，这揭示了语言模型在推理和泛化方面的异类进本局限。

论文通讯作者、牛津大学研究员Owain Evans解释说：

为什么反转诅咒值得关注？

这说明大语言模型在训练过程中存在推理能力缺失。

“A是B”和“B是A”的共现是预训练集中的一种系统性模式。自回归LLM完全无法对这一模式进行元学习，其对数概率没有变化，并且即使参数量从350M扩增到175B，也未能改善这个问题。

One More Thing

不过话说回来，人类是不是也会受“反转诅咒”影响呢？

有网友做了这么个测试。

面对“Mary Lee Pfeiffer South的儿子是谁”这个问题，GPT-4一开始直接举旗投降了。

但当这位网友提示它“她的儿子很有名，你肯定认识”后，GPT-4当场开悟，给出了“汤姆·克鲁斯”这个正确答案。

△X网友@TonyZador

那么，你能反应过来吗？

参考链接：

[1]https://owainevans.github.io/reversal_curse.pdf

[2]https://twitter.com/owainevans_uk/status/1705285631520407821

[3]https://twitter.com/karpathy/status/1705322159588208782

— 完 —

近期资讯

流感高发季来临：怎么区分流感和普通感冒？如何进行多病共防？

2024年第50周的全国急性呼吸道传染病哨点监测情况显示流感已经进入季节性流行期，阳性率上升趋势明显，在门急诊以及住院病例中占比均大幅上升。 [图片] 一、什么是流感？流感，全称为流行性感冒，是一种由流感病毒引起的急性呼吸道传染病，具有传染性强、传播速度快的特点。流感病毒病原学：流感是由流感病毒感染引起的急性呼吸道疾病。IFV属于正黏病毒科，具有负义单链、分节段的RNA基因组。IFV根据其核蛋白和基质蛋白的抗原性不同，分为甲型、乙型、丙型和丁型，其中甲型流感病毒较为复杂，并且是最为常见且致病性最强的病

海尔施基因 2024-12-26

跨网数据摆渡,光盘审计刻录输出,生产音视频刻录,电子档案长期保存应用

在保密行业，现代化及信息化技术发展赋能行业创新，对信息安全防护的高要求随之而来，保护信息安全是重中之重，泄密风险需严防，任何数据泄露都是对行业致命一击。光盘作为信息存储传递介质已成为诸多安全保密领域数据交互的主要手段，由于业务场景需要，面临着跨网数据安全摆渡、光盘刻录安全监控与审计、生产音视频光盘安全刻录、档案数据长期保存管理应用需求，筑牢保密安全防线，确保信息安全归档管理以及信息传输安全的可靠性，解决面临的信息安全和数据应用问题刻不容缓。一体化专业厂商信刻是专业做涉密行业跨网数据导入/导出光盘安全摆

sunny-mmm 2024-12-26

OBOO鸥柏丨VS6.0/MTSTAR满天星多媒体信息发布系统兼容主板型号

[图片] OBOO鸥柏官方的VS6.0/满天星 (MTSTAR)多媒体信息发布系统的兼容性主要与其支持的主板型号有关，与工控主板系统底层兼容息息相关。纯国产芯片，纯国产系统，发布系统特定地支持安卓系列主板的型号有：（ C-40A ，ZC-83A ，ZC-328 ，ZC-339A ，ZC-3566 ，ZC3568 ，ZC-3588A， ZC-H113， ZC-H352，，ZC-527，ZC-40M，ZC-T972，ZC-T982，ZC-3566S，ZC-3568K，ZC-3568D，ZC-H358S） Z

OBOO鸥柏 2024-12-26

金舟软件 2024-12-26

剧本翻译服务：翻译公司常见语种报价与价格因素

剧本翻译属于文学翻译的范畴，是一项需要深厚语言功底和文学功底以及剧作专业知识的工作，因此剧本翻译价格相比于普通的文本翻译要更高一些。剧本翻译的具体价格会受到多种因素的影响，包括语言对、剧本长度和翻译人员经验等。我们是一家专业的剧本翻译公司，下面是一些常见语种剧本翻译报价，供大家参考。一、常见语种剧本翻译收费标准：语种 / 初级 / 中级 /高级英译中: 170/千字；200/千字；230/千字中译英（不含外校）：200/千字；220/千字；240/千字中译英（含外校）： 250/千字；300/千字；

雅言Nora 2024-12-26

第一次玩机器学习

第一次玩机器学习，感觉很简单 [图片] 代码被鬼畜的设置删了，只有图和y的公式： 3x+1

codelyc 2024-12-26

GPT-4遭遇“反转诅咒”！知道“A是B”推不出“B是A”

GPT-4遭遇“反转诅咒”！知道“A是B”推不出“B是A”

推荐体验

相关资讯

GPT-4也难逃“反转诅咒”！新研究发现：大模型存在推理缺陷，知道“A是B”推不出“B是A”

GPT-4也难逃反转诅咒！大模型推理缺陷：知A是B推不出B是A

什么是GPT-4？你知道吗？

仅8B大小的Llama-3模型是如何击败GPT-4的？

什么是 GPT-4？

近期资讯

流感高发季来临：怎么区分流感和普通感冒？如何进行多病共防？

跨网数据摆渡,光盘审计刻录输出,生产音视频刻录,电子档案长期保存应用

OBOO鸥柏丨VS6.0/MTSTAR满天星多媒体信息发布系统兼容主板型号

电力市场观察：长协电价走低，将进入电力低价时代？

【新疆无人机培训】低空经济崛起：空域规划与协调服务

【新疆无人机培训】无人机&eVTOL引领物流革命新纪元

押题 1 丨北京外国语大学翻硕MTI448汉百25真题押中90%！

怎么将音乐转为mp3格式？9个好用的音频转换器测评来了！

剧本翻译服务：翻译公司常见语种报价与价格因素

第一次玩机器学习

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响