CoT神话破灭，并非LLM标配，三大学府机构联手证实，CoT仅在数学符号推理有用

作者：新智元发布时间：2024-09-23

CoT只对数学、符号推理才起作用，其他的任务几乎没什么卵用！这是来自UT-Austin、霍普金斯、普林斯顿三大机构研究人员联手，分析了100+篇论文14类任务得出的结论。看来，CoT并非是所有大模型标配。

谷歌CoT开山之作，再次成为OpenAI o1模型的利器。

LLM复杂推理能力的实现，就离不开一步一步思考，但是这种「思考」究竟对于什么类型的任务有帮助呢？

来自UT-Austin、霍普金斯、普林斯顿的研究人员，使用CoT对100多篇论文，进行了定量元分析。

论文地址：https://arxiv.org/abs/2409.12183

同时，他们还对14个模型的20个数据集，进行了评估。

结果显示，CoT在涉及数学、逻辑任务中，能够增强LLM性能，但在其他类型任务上，收益较小。

在MMLU中，除非问题或模型回答中包含“=”（表示符号运算和推理），否则直接生成答案，而不使用CoT，能达到与使用CoT相同的准确率。

基于这一发现，作者通过分离「规划」和「执行」，并工具增强的LLM进行比较，来分析CoT在这些任务中的行为。

结果证实，CoT的大部分收益，来自于符号执行的改进，但相对于使用符号求解器来说，表现较差。

总而言之，作者希望通过研究告诉我们，CoT并非是万能的。

「CoT可以有选择性地应用，以平衡性能和推理计算成本」。

另外，未来研究中还需超越基于提示的CoT，转向利用整个LLM中间计算的新范式。

用CoT，还是不用CoT，这是一个问题

o1成为当红炸子鸡，一大原因便是采用了CoT架构。

但是，千万不要被OpenAI误导了。

其实，先前就有研究称，CoT在数学以外的领域，并没有那么有用，甚至有时会损害模型性能。

最新研究中，作者的目标是去评估，基于提示的CoT在哪些领域发挥作用最大，以及具体的原因。

110篇论文，14大类别

对此，研究人员从机器学习顶会ICLR 2024、两个NLP顶会EACL 2024和NAACL 2024中，筛选了所有4642篇论文（2259篇来自ICLR 2024，2,382篇来自两个ACL附属会议）。

在这些论文中，通过自动筛选出现CoT、chain-of-thought或chain of thought两次的文章，共得到516个样本。

然后，下一步通过手动筛选，得到对「CoT提示与直接提示进行比较」的论文。

经过一系列排除，最终收集了110篇论文样本，涵盖了264个数据集。

最后，研究人员将所获得样本中的不同任务，分成14个类别。

如下图2所示，在不文献中，作者发现CoT在任务分类中的性能增益。

可见，CoT在符号推理、数学、逻辑推理三大类别任务中，性能最优，平均提高分别为14.2%、12.3%和6.9%。

使用CoT的前三项任务，平均性能为56.9%，而没有CoT的性能为45.5%。

对于其他类别任务，使用CoT的平均性能为56.8%，而没有使用CoT的平均性能为56.1%。

图2右侧显示了，在数学、符号或逻辑推理以外的任务实验中，平均CoT增量较高10个异常值。

虽然这些论文没有被归类为数学逻辑，但其中一些在某种程度上与逻辑、数学或符号推理相关。

从这个列表中可以看出，从CoT中获益最多的数据集是BIG-bench Hard。还有BIG-bench Temporal、MMLU-Moral Scenarios都涉及到了基本简单问题的组合。

同时，还有几个异常值，也隐约遵循这一趋势。比如，ScienceQ是由一系列自然和社会科学科学选择题组成，但如果不按学科/问题类型细分成绩，很难解释其收益。

其次，在一些论文分析中，其他论文评分结果并未显示出CoT带来的改进。

实验结果

更进一步的，团队在零样本学习和少样本学习的设置下，对14个模型的20个数据集进行了一系列实验，以比较性能。

与CoT相比，零样本CoT有何改进？

如下图3所示，具体显示了图1中，每个推理类别的平均CoT性能改进。右侧呈现的是，对每个数据集使用CoT所带来的性能增益，这是所有模型和单个模型选择的平均值。

在非符号推理类别和数据集上，特别是那些包含主要涉及常识（CSOA、PIOA、SiOA）、语言理解（WinoGrande）和阅读理解（(AGILSAT、ARC-Easy、ARC-Challenge）问题的数据集。

零样本CoT和零样本直接回答的性能之间，几乎没有区别。

尽管这些数据集中涉及推理，但是CoT并没有带来显著的改进。

相较之下，数学和符号类别，与符号和许多符号数据集一起得到了大幅改进。

MATH和GSM8k的增幅分别高达41.6%和66.9%。对于半符号数据集如Mvsteries等，结果显示出适度的增幅。

例如，从简单的自然语言(ContextHub)或更复杂的常识陈述(MuSR 谋杀之谜)解析出一阶逻辑。所有结果均显示在附录 C.1中，表7中还显示了 CoT 和直接答案提示的完整数字结果列表。我们还探索了少数镜头设置，发现它对 CoT 何时提供帮助的影响不大;参见附录 B。

答案形式，是否会影响到CoT帮助的范围？

答案——不多，预先规划或推理正确反应，可能会阻碍模型自主反应能力。

除了数学之外，许多常用的问题数据集是多项选择。

对于两个非多项选择，且包含不同级别的非符号推理来回答问题数据集，CoT具有与跨模型直接回答相似的性能。

其次，BiGGen Bench使用自由式回答作为问题答案，并使用LLM作为法官，以1-5级来评估这些回答。

得到的答案，本质上模糊了CoT和直接答案之间的界限。

为此，研究人员设置了一个新的CoT提示，要求语言模型生成自由形式响应的规划，然后要求其在生成完整的响应。

知识、软推理和常识方面，性能提升显著吗？

除了MMLU、StrategyQA和MuSR外，大多数情况下答案是否定的。

作者使用配对引导法在知识、软推理和常识推理类别的13个数据集上，测试了CoT改进的显著性。

结果得出，大约 38%的数据集显示出，这三个推理类别的效益是显著的。

MMLU和MMLU PRO

MMLU和MMLU Pro显示了，使用CoT带来收益，但由于这些数据集非常广泛，因此无法进行简单的表征。

研究人员探索了MMLU每个类别上的CoT性能，以了解这些领域之间CoT性能的差异。

对此，他们列出了3个类别，其中CoT在MMLU和MMLU Pro上，Llama 3.1 8B和70B最大的误差减少。

其中，一些任务类别明显是数学性质，正如图8中所呈现的那样。

此外，我们还可以看到，CoT在商业任务上，能够提供一定的帮助。经过仔细核查，这些任务也会常常涉及数学等一些内容。

实验结果如下图4所示，当问题或生成结果汇总包含“=”，以及不包含“=”时，使用CoT时的增益效果。

CoT在公式推理中的优缺点

前面主要说明了CoT主要在符号推理任务发挥作用，但没有说明具体原因。

在符号任务上，研究人员CoT的性能提升归因于两个阶段：规划阶段和执行阶段。

下图6显示了，代表性模型选择的结果。

将直接答案与Plan+ Direct求解器和Plan+CoT求解器进行比较时，可以注意到，对于许多数据集和模型，仅有规划并不能解决大部分性能增益。

与直接答案相比，需要CoT或Plan+CoT求解器，来获得强大的性能。

尽管CoT和Plan+CoT求解器，比直接答案和Plan+Direct求解器有优势，但在大多数设置中，仍以Plan+Tool求解器为主。

与符号求解器相比，LLM执行和追踪步骤的能力受到限制。

鉴于以上的发现，研究团队认为CoT应该有选择性地应用，尤其是在需要处理数学、逻辑推理的任务。

而不分青红皂白地使用CoT，可能会导致推理成本增加。

他们还建议，若想进一步提升模型推理能力，还需要超越基于提示的CoT。

总而言之，CoT is not all you need。

参考资料

https://arxiv.org/abs/2409.12183

本文来自微信公众号“新智元”，作者：桃子，36氪经授权发布。

近期资讯

SNCM439属于什么标准镍-铬-钼回火合金结构钢

SNCM439是一种高强度合金结构钢，执行标准为JIS G4053-2016，属于镍-铬-钼回火合金结构钢。它以其出色的强度、硬度、耐磨性和良好的韧性而受到广泛应用，尤其是在制造承受高负荷的机械零件和结构件方面。化学成分： · 碳 (C)：0.36% - 0.43% · 硅 (Si)：0.15% - 0.35% · 锰 (Mn)：0.60% - 0.90% · 硫 (S)：≤0.025% · 磷 (P)：≤0.025% · 铬 (Cr)：0.60% - 1.00% · 镍 (Ni)：1.60% - 2.

上海钢泽合金 2024-09-20

大会邀约迅杰光远与您相约全国第十届近红外光谱学术会议

　　大会概况　　2024年全国第十届近红外光谱学术会议将于9月24日～25日在北京朗丽兹西山花园酒店召开。本次会议旨在展示我国近红外光谱领域所取得的新进展及成果，增进广大近红外光谱科技工作者和广大近

迅杰光远 2024-09-20

事故车转卖二手车：贬值真相与应对策略

在二手车市场的广阔天地里，事故车的存在总是引人关注。对于那些曾经遭遇不幸的车辆，其转卖为二手车时的贬值问题，成为了许多车主和潜在买家心中的疑问。今天，我们就来深入探讨一下，事故车转卖二手车时一般会贬值多少钱，以及背后的真相与应对策略。 [图片] 一、事故车贬值的普遍现象贬值幅度概览事故车转卖二手车时，其贬值幅度并非一成不变，而是受到多种因素的综合影响。一般来说，贬值幅度从几千元到数万元不等，极端情况下甚至可能超过车辆原价的一半。这种差异主要源于事故的严重程度、车辆的修复情况、品牌与型号的市场认可度，以

自杰事故车 2024-09-20

使用dimer方法消除过渡态多余的虚频

dimer方法可以寻找过渡态，也可以用于消除多余的虚频。下面脚本的原理是，先进行频率分析，最大的虚频对应的是过渡态的振动模式，如果有多余的虚频，则把过渡态结构沿着多余虚频的方向移动一点，然后使用dimer方法重新优化过渡态（MODECAR就是最大虚频对应的振动模式）。#!/bin/bash#SBATCH --nodes=1#SBATCH --ntasks=32#SBATCH --partition=n32#SBATCH --error=%J.stderr#SBATCH --output=%J.stdout

猎豹苏洛 2024-09-20

一个优秀的专利管理系统需要具备哪些要素？

在当今这个创新驱动的时代，专利不仅是企业技术实力的象征，更是市场竞争中的关键武器。随着企业专利数量的激增和管理复杂度的提高，一个高效、智能的专利管理系统成为了企业不可或缺的工具。在众多专利管理系统中，启服云专利管理系统为我们提供了一个审视优秀专利管理系统应具备哪些核心要素的窗口。那么，一个真正优秀的专利管理系统，究竟需要包含哪些关键要素呢？全面的流程管理功能专利管理涉及多个复杂的流程，从专利的申请、审查到维护等。一个优秀的专利管理系统首先要具备全面的流程管理功能。在专利申请阶段，系统要能够对创意

科创领航 2024-09-20

还在用人海战术？RFID通道门帮你搞定仓储物流！

各位领导、朋友、大佬们，想象一下，如果你正好有一个庞大的仓储物流中心需要管理，你每天看着员工们像小工蚁一样忙碌地在厂子里面穿梭，大多是为了逐一核对货物信息，汗水与时间双双流逝，在仓储物流的战场上，时间就是金钱，效率就是生命！你期盼的效率却似乎总也追不上订单的增长，头大不大？现在有一个神奇的解决方案——RFID通道门，就可以解决这个问题！ [图片] RFID通道门是什么呢？简单来说，你可以理解它就像是一个智能的“守门神”。就拿首码RFID通道门来说吧，当单个或多个货物通过这个通道门时，它能够快速、准确地

RFID智链精灵 2024-09-20

软件开发团队时间管理的5大技巧

软件开发团队运用时间管理技巧，有助于提升项目效率，确保任务按时完成，减少资源浪费，节约开发时间，增强团队协作，最终有利于项目成功交付。如果开发团队不采取时间管理技巧，可能导致项目延期、资源浪费、团队士气低落、质量问题频发以及客户满意度下降等问题。因此，时间管理技巧对软件开发团队至关重要，以下是五种常见的有效技巧：软件开发团队时间管理技巧 1、设定SMART目标设定SMART目标对开发团队时间管理至关重要，因为它确保目标具体明确、可量化、可实现、相关性强且具有明确的时间限制。这有助于团队清晰理解期望成果

CoCode开发云 2024-09-20

新疆保华润天无人机培训基地：无人机，这一空中的智能体，正逐渐成为现代社会不可或缺的一部分。它们在航拍、物流、农业、救援等多个领域发挥着重要作用。而这一切的背后，都离不开一个精密而复杂的系统——无人机飞行控制系统。今天，就让我们一起揭开这个系统的神秘面纱，探索其核心组成部分及工作原理。传感器系统是无人机飞行控制系统的感知之眼。它由多种传感器组成，包括陀螺仪、加速度计、磁力计、气压计和GPS等。这些传感器负责实时采集无人机的飞行数据，如姿态、速度、加速度、角速度、气压和磁场等，为飞行控制系统提供必要的数据支持

新疆无人机一杨 2024-09-20

CoT神话破灭，并非LLM标配，三大学府机构联手证实，CoT仅在数学符号推理有用

用CoT，还是不用CoT，这是一个问题

110篇论文，14大类别

实验结果

与CoT相比，零样本CoT有何改进？

答案形式，是否会影响到CoT帮助的范围？

知识、软推理和常识方面，性能提升显著吗？

MMLU和MMLU PRO

CoT在公式推理中的优缺点

推荐体验

相关资讯

GPT-4推理能力暴涨32%，谷歌新型思维链效果超CoT

ChatGPT|Prompt中的CoT和ReAct

AI写作|告诉你CoT的几个简单步骤，使用后大幅提升AI的推理能力

RLHF、IFT、CoT—这些ChatGPT背后的技术重点

造富神话破灭，AI公司排队卖身

近期资讯

SNCM439属于什么标准镍-铬-钼回火合金结构钢

大会邀约迅杰光远与您相约全国第十届近红外光谱学术会议

事故车转卖二手车：贬值真相与应对策略

使用dimer方法消除过渡态多余的虚频

一个优秀的专利管理系统需要具备哪些要素？

还在用人海战术？RFID通道门帮你搞定仓储物流！

软件开发团队时间管理的5大技巧

三相变压器在新能源领域的应用

一台车才挣八千块，研发投入还是行业第一

【新疆无人机培训】无人机飞行控制系统的奥秘：从传感器到用户界面的全面剖析

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响