慢思考准确率反降30%！普林斯顿揭示思维链某些任务上失效的秘密

作者：量子位发布时间：2024-11-04

梦晨发自凹非寺

量子位 | 公众号 QbitAI

OpenAI o1彻底带火慢思考和思维链（CoT）方法，但CoT在某些任务上反而会降低模型表现。

比如给生造的词分类任务，GPT-4在zero-shot提示下的准确率高达94%，换成CoT的准确率却断崖式下跌到64.4%。

内置CoT的o1-preview准确率更是只有57.7%。

CoT究竟会“搞砸”哪些任务，在学术界仍是一个悬而未决的问题。

现在，普林斯顿计算机系与心理系合作，确定了其中一些任务的特征：人类深思熟虑或被要求解释自己的思路时，也会降低在这些任务上的表现。

新论文“一步一步想，但小心脚下”已上传到arXiv。

心理学探索思维链掉链子原因

为了缩小要探索的范围，团队在CoT提示和人类进行语言思考之间进行了类比。

大模型和人类具能力有着根本不同，因此影响表现的约束因素也不同。如大模型的上下文长度很长，远远超出了人类的记忆限制。

因此，团队预计CoT将在以下情况下损害模型性能：

（i）深思熟虑会损害人类的表现

（ii）影响人类在任务上表现的约束条件，可以普遍性地推广到大模型。

隐式统计学习（Implicit Statistical Learning）

心理学研究发现，当包含统计模式的数据不用语言来描述时，人类可以更好地概括这些数据。

在几个开源和闭源模型上评估这项任务，发现与zero-shot提示相比，使用CoT提示时性能大幅降低。

另一类任务中语言思考会干扰视觉感知，称为语言遮蔽（verbal overshadowing）。

多模态大模型的表现相似，当使用CoT提示时，所有模型性能都下降。其中较弱的模型倾向于回答“所有图像都是同一个人的”。

包含异常的数据分类（Classifying Data With Patterns That Contain Exceptions）

第三类任务设置比较复杂，其中包含一个陷阱。

有10辆不同的车需要分为A类和B类，每辆车有5个特征：

1个独特特征（车牌号，每辆车不同）
1个看起来有规律的特征，如颜色，但有20%的例外。
3个与分类无关的特征，如变速箱类型、座椅材质、车门数量

实际上只有车牌号才是最可靠的分类依据。

如果10辆车没有全部猜对，就会重新打乱顺序再来一轮，最多可以尝试15轮。

不用CoT提示时，模型很快就能记住每辆车的正确分类。使用CoT时，模型会陷入试图总结规律的思维定式，需要尝试的轮数增加。

和人类在被要求解释分类依据时的表现很像。

大模型和人类约束条件不同

同时，研究团队也找出三种，满足思考降低人类表现，但大模型使用CoT提示能提升性能的任务。

自然语言推理
空间直觉（涉及模型缺乏相关先验知识）
涉及工作记忆限制的任务

团队分析原因认为，模型和人类具有根本不同的能力，存在不同的约束条件影响其性能，

这是因为大模型拥有远超人类的工作记忆（上下文长度）和某些特定的逻辑推理能力。

换言之，CoT到底好不好用，还得具体情况具体分析。

这项研究更大的意义在于，将认知心理学与大模型之间建立了联系。

论文的讨论部分提出，心理学界几十年来积累的丰富文献中，或许还能找出更多推进大模型领域的见解。

论文地址：

https://arxiv.org/abs/2410.21333

— 完—

评选征集中

「2024人工智能年度评选」

量子位2024人工智能年度评选已开启报名通道，评选从企业、人物、产品三大维度设立了5类奖项。

欢迎扫码报名评选！评选结果将于12月 MEET2025智能未来大会公布，期待与数百万从业者共同见证荣誉时刻。

点这里 👇关注我，记得标星哦～

科技前沿进展日日相见 ~

相关资讯

GPT-4推理提升1750%，普林斯顿清华姚班校友提出全新“思维树ToT”框架，让LLM反复思考

由普林斯顿和谷歌DeepMind联合提出的全新「思维树」框架，让GPT-4可以自己提案、评估和决策，推理能力最高可提升1750%。

GPT-4 清华谷歌

新智元 2023-05-22

普林斯顿大学：无线技术助力节约食物

本文转载自Princeton University News，由ChatGPT翻译图片来源于网络在2024QS世界大学排名中，普林斯顿大学荣获第17位原作者：斯科特·里昂，工程传媒办公室一个坏苹果可能不会烂掉整个一堆，但在食物分发方面，很多好的食物都和坏的一起被浪费掉。世界面临着食物浪费问题。这种无线技术能帮助解决吗？（根据美国环境保护署的数据，大约三分之一的美国生产食物每年都被浪费掉。根据联合国的估计，全球有一半的水果和蔬菜被浪费掉）普林斯顿大学电子与计算机工程助理教授Yasaman Ghasemp

ChatGPT 苹果

发糖术神张叶 2023-11-20

OpenAI喜提姚班学霸姚顺雨：思维树作者，普林斯顿博士，还是个Rapper

“是时候将研究愿景转变为现实了”

OpenAI

量子位 2024-08-02

面对这项牛津和普林斯顿联手出题的写作竞赛，ChatGPT出手了！

当这些问题遇上大热的人工智能ChatGPT，它会怎么回答呢？它还可以帮助减少亿万富翁对政治和公共政策的影响，因为他们将无法再利用自己的财富来影响政府的决策，使其对自己有利。提交由人工智能撰写的非您本人撰写的论…

ChatGPT 人工智能

外滩教育 2023-03-07

准确率最高的计划软件

准确率最高的计划软件“永盈入口”《у⑧⑨⑧⑦●cc》如果你是刚刚玩,我来教教你,如果你已经玩很久了,却不稳,我来拉拉你,如果你已经遍体鳞伤,我来帮帮你。用我们真诚的微笑，换取您对我们的满意。用我们真诚的微笑，换取您对我们的满意。同样即时设计的AI工具即时AI是一种全新的AIGC工具，可以通过自然语言描述在60s内生成高质量、高细节的Mobile/Web页面原型设计，适当的效率之王。即时AI的操作非常简单，只要模型选择完成后，就可以在文本框中输入网页描述，可以是“类似XX的页面”，也可以是“用于X

AIGC

DwQCrI7475 2024-02-20

近期资讯

深圳市华周测控技术取得一种基于移轴成像的光学元件位姿精密调整装置及其方法专利

金融界2024年10月30日消息，国家知识产权局信息显示，深圳市华周测控技术有限公司取得一项名为“一种基于移轴成像的光学元件位姿精密调整装置及其方法”的专利，授权公告号CN118567120B，申请日期为2024年7月。

金融界 2024-10-30

南通英尔捷半导体申请带有测距功能的冲切成型模具专利，有效减少冲切刀刃上机械热的累计

金融界2024年10月30日消息，国家知识产权局信息显示，南通英尔捷半导体科技有限公司申请一项名为“一种带有测距功能的冲切成型模具”的专利，公开号CN118832678A，申请日期为2024年9月。

金融界 2024-10-30

江苏万迩硕机械取得压力容器泄漏检测装置专利，提高测试的精准性

金融界2024年10月30日消息，国家知识产权局信息显示，江苏万迩硕机械有限公司取得一项名为“一种压力容器泄漏检测装置”的专利，授权公告号CN221882935U，申请日期为2024年3月。

金融界 2024-10-30

东莞市德隆保纳米科技有限公司取得真空镀膜设备的气密性检测装置专利，可判断真空镀膜设备气密性

金融界2024年10月30日消息，国家知识产权局信息显示，东莞市德隆保纳米科技有限公司取得一项名为“真空镀膜设备的气密性检测装置”的专利，授权公告号CN221882917U，申请日期为2024年2月。

金融界 2024-10-30

苏州市志宇自动化工程有限公司取得气密测试机构专利，降低设备占地面积

金融界2024年10月30日消息，国家知识产权局信息显示，苏州市志宇自动化工程有限公司取得一项名为“一种空间受限的气密测试机构”的专利，授权公告号CN221882940U，申请日期为2023年12月。

金融界 2024-10-30

华控新材料取得密封圈性能检测装置专利，实现快速、高效和自动切换检测模具目的

金融界2024年10月30日消息，国家知识产权局信息显示，华控新材料（苏州）有限公司取得一项名为“一种密封圈性能检测装置”的专利，授权公告号CN221882920U，申请日期为2024年3月。

金融界 2024-10-30

上海融富龙智能机械申请塑料加工用钻孔装置及其使用方法专利，可在钻孔时实现对异形工件的自动固定

金融界2024年10月30日消息，国家知识产权局信息显示，上海融富龙智能机械有限公司申请一项名为“一种塑料加工用钻孔装置及其使用方法”的专利，公开号CN118832673A，申请日期为2024年7月。

金融界 2024-10-30

陕西氢能检验检测取得加氢站气体泄漏检测装置专利，降低检测箱内部氢气浓度过高导致的安全隐患

金融界2024年10月30日消息，国家知识产权局信息显示，陕西氢能检验检测有限公司取得一项名为“一种加氢站气体泄漏检测装置”的专利，授权公告号CN221882923U，申请日期为2024年3月。

金融界 2024-10-30

宁波舜宇车载光学取得光波导器件、增强现实显示设备及显示方法专利

金融界2024年10月30日消息，国家知识产权局信息显示，宁波舜宇车载光学技术有限公司取得一项名为“光波导器件、增强现实显示设备及显示方法”的专利，授权公告号CN115202044B，申请日期为2021年4月。

金融界 2024-10-30

佛山紫熙慧众取得一种实现对称点阵特征图形的二元光栅阵列及其方法专利

金融界2024年10月30日消息，国家知识产权局信息显示，佛山紫熙慧众科技有限公司取得一项名为“一种实现对称点阵特征图形的二元光栅阵列及其方法”的专利，授权公告号CN113960787B，申请日期为2021年11月。

金融界 2024-10-30

慢思考准确率反降30%！普林斯顿揭示思维链某些任务上失效的秘密

推荐体验

相关资讯

GPT-4推理提升1750%，普林斯顿清华姚班校友提出全新“思维树ToT”框架，让LLM反复思考

普林斯顿大学：无线技术助力节约食物

OpenAI喜提姚班学霸姚顺雨：思维树作者，普林斯顿博士，还是个Rapper

面对这项牛津和普林斯顿联手出题的写作竞赛，ChatGPT出手了！

准确率最高的计划软件

近期资讯

深圳市华周测控技术取得一种基于移轴成像的光学元件位姿精密调整装置及其方法专利

南通英尔捷半导体申请带有测距功能的冲切成型模具专利，有效减少冲切刀刃上机械热的累计

江苏万迩硕机械取得压力容器泄漏检测装置专利，提高测试的精准性

东莞市德隆保纳米科技有限公司取得真空镀膜设备的气密性检测装置专利，可判断真空镀膜设备气密性

苏州市志宇自动化工程有限公司取得气密测试机构专利，降低设备占地面积

华控新材料取得密封圈性能检测装置专利，实现快速、高效和自动切换检测模具目的

上海融富龙智能机械申请塑料加工用钻孔装置及其使用方法专利，可在钻孔时实现对异形工件的自动固定

陕西氢能检验检测取得加氢站气体泄漏检测装置专利，降低检测箱内部氢气浓度过高导致的安全隐患

宁波舜宇车载光学取得光波导器件、增强现实显示设备及显示方法专利

佛山紫熙慧众取得一种实现对称点阵特征图形的二元光栅阵列及其方法专利

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响