思维链让大模型推理更准确？谷歌早于OpenAI押中o1模型核心原理

作者：DeepTech深科技发布时间：2024-09-19

几天前 OpenAI 新模型 o1 的发布，再次引发了人们对大语言模型的高度关注和讨论。

而 o1 发布之所以如此“轰动”，是因为它与此前大模型由语言驱动用于聊天或语音助手有本质的不同。其不仅进入到复杂的领域，还表现出超强的推理能力。

OpenAI 将 GPT-4o 和 o1 在国际数学奥林匹克竞赛资格考试方面进行对比测试。根据结果，二者差异显著，其中，前者正确解决问题的准确率是 13.4%，而 o1 的准确率则能够达到 83.3%。

这种推理能力的重要意义在于，有望在更广泛的领域应用，例如，药物发现、材料科学、编程、高等数学和物理等。

o1 实现超强推理能力的原因在于它的思考能力，而这背后源于强化学习和思维链（CoT，Chain of Thought）。

这意味着，大模型在给出答案之前，会有一种类似人类思考的过程，然后进行推理。

就在人们对大模型的推理能力进行讨论的时候，谷歌 DeepMind 首席科学家丹尼·周（Denny Zhou）近日在 X 发文称，其与合作者此前在一篇论文中已经对 CoT 进行研究。

丹尼提到，“我们已经用数学方法证明，Transformer 可以解决任何问题，只要允许它们根据需要生成任意数量的中间推理 token。”

根据论文内容，如果大模型具有足够多的时间形成 CoT 进行思考，那么，就具有能够解决任何问题的可能性。而他对此的观点是：“大模型推理能力的极限是什么？天空才是极限。”

综合来看，前文提到的基于生成一系列中间推理 token，是实现大模型思考过程和表现出强推理能力的关键所在。

（来源：X）

相关论文题目为《思维链使 Transformer 能够解决固有的串行问题》（Chain of Thought Empowers Transformers to Solve Inherently Serial Problems），并已于 1 月在国际学习表征会议（ICLR，International Conference on Learning Representations）2024 发表 [1]。

除了丹尼，其他三位论文作者分别是：美国丰田工业大学助理教授李志远、美国斯坦福大学博士研究生 Hong Liu 和助理教授马腾宇。

图丨相关论文（来源：ICLR）

指导模型生成 CoT，是提升大模型在算术和符号推理任务中，准确的、非常有效的方法之一。但此前，人们对于 CoT 背后的机理的认识并不清晰。

在以往的研究中，Transformer 模型表现出明显的优劣势：在并行计算方面表现出优势，但在串行推理方面却表现不足。

CoT 为该问题提供了解决方案，研究人员在该论文中也展现了对相关理论的理解。

（来源：ICLR）

他们提出，没有 CoT 的常数深度 Transformers 在有限精度下只能解决恒定深度阈值电路类问题。

而通过 CoT，能够常数深度算术电路类问题得以解决，甚至是更复杂的计算问题。

他们通过实验验证，CoT 在解决并行计算难以处理的任务（如排列群的组合、迭代平方和电路值问题）时，能够显著提高模型的准确性。

该研究在理解 CoT 增强 Transformer 的推理能力方面提供了新的理论基础，并为未来在复杂任务中应用 Transformer 提供了新的视角。

除了这篇论文，谷歌 DeepMind 在发表的另一篇论文中，也可看到与 OpenAI 的 o1 模型类似的原理。

相关论文已在预印本网站 arXiv 发表，题目为《优化大语言模型测试时计算比扩大模型参数更高效》（Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters）[2]。

论文作者包括：美国加州大学伯克利分校博士研究生查理·斯内尔（Charlie Snell）、谷歌 DeepMind 技术员 Jaehoon Lee 和研究员徐凯文（Kelvin Xu，音译）以及美国卡内基梅隆大学（此前为谷歌 DeepMind 团队成员）助理教授阿维拉·库马尔（Aviral Kumar）。

图丨相关论文（来源：arXiv）

他们提出了一种“计算最优”的策略，即根据给定的提示动态分配测试时的计算资源，以实现最佳的性能提升。

通过实证研究，展示了通过 CoT 可以显著提高并行计算难以处理的任务的准确性。

该论文强调了增加测试时（推理时）计算的有效性，而不仅是扩大模型的参数量。

研究发现，在某些情况下，通过优化测试时的计算，可以在不增加模型规模的情况下提高模型性能。

其中，在与模型参数规模相匹配的浮点运算次数评估中，研究人员发现，在较小的基础模型上使用测试时，计算可以超越一个 14 倍大的模型。

（来源：arXiv）

总体来看，在 o1 模型发布之前几个月，谷歌就已经提前“押中”了具有超强推理能力的大模型核心原理。但遗憾的是，其并未基于此推出相关产品，而 OpenAI 则率先发布了 o1 模型。

对此，美国人工智能初创公司 Abacus.AI 的 CEO 宾杜·雷迪（Bindu Reddy）在社交平台写道：“谷歌的研究水平是顶尖的，但模型却是落后的。”

后续，谷歌是否将更新 Gemini2 或公布其他进展，DeepTech 将持续关注。

参考资料：

1.https://arxiv.org/abs/2402.12875

2.https://arxiv.org/pdf/2408.03314

3.https://x.com/denny_zhou/status/1835761801453306089

4.https://x.com/bindureddy/status/1835866551964348423

5.https://www.technologyreview.com/2024/09/17/1104004/why-openais-new-model-is-such-a-big-deal/

运营/排版：何晨龙

近期资讯

物联网网关的效率选择，迷你主机无风扇发挥强大作用

一、传统物联网网关和无风扇迷你主机搭配的网关有什么区别：传统物联网网关与无风扇迷你主机网关在散热方式、可靠性、功耗和适用场景都存在明显的差异，传统带风扇的网关通过主动散热，风扇容易积灰和磨损增加了维护成本和噪声，而无风扇迷你主机采用被动散热的方式，可靠性更高运行更安静适合工业环境，尤其是在粉尘的场景；二、无风扇迷你主机物联网网关的优势：首先散热方式有很大的区别，采用铝质散热或机身散热设计，依靠自然对流散热，无风扇设计降低了灰尘进入机体的可能性，减少了维护需求；其次无风扇迷你主机的网关具有较高的耐用性和可靠

东田工控 17小时前

octave_zstd软件正式上线Octave软件源

日前，总工程师于红博正式向Octave软件源提交octave_zstd软件的信息，octave_zstd软件已经成功上线。如今，用户可以通过Octave软件源安装octave_zstd，代码如下： >> pkg install -forge octave_zstd [图片]

CNOCTAVE 17小时前

荣威DMH双车上市，9.98万起，更省油也更高效！

DMH超级混动技术，作为上汽在混动技术领域十余年的研发积累结晶，拥有行业首创的“能量域”全域热管理、动力总成大脑PICU、发动机+P1电机同轴结构等多项独创领先技术。并且其还以软件算法为核心，匹配混动专用高效发动机、变速箱、长续航电池等专用硬件，通过“软硬兼施”实现了混合动力最优解。而这套领先技术在刚刚上市的上汽荣威iMAX8DMH新陆尊和D7DMH世界冠军版上均有搭载。其中，荣威iMAX8DMH新陆尊共推出3款车型，官方零售价19.99-24.99万元。针对荣威老车主推出行业最强“以旧换新”置换补贴，根

车道纵横 17小时前

思维链让大模型推理更准确？谷歌早于OpenAI押中o1模型核心原理

推荐体验

相关资讯

GPT-4推理能力暴涨32%，谷歌新型思维链效果超CoT

GPT-4推理能力暴涨32%，谷歌新型思维链效果超CoT，计算成本可降至1/40

语言≠思维，大模型学不了推理：一篇Nature让AI社区炸锅了

AI大模型让手机更智能

谷歌语音助手将升级，大模型让其变得更聪明 | 最前线

近期资讯

物联网网关的效率选择，迷你主机无风扇发挥强大作用

octave_zstd软件正式上线Octave软件源

荣威DMH双车上市，9.98万起，更省油也更高效！

高一到高三英语很简单，无非就这3500个考纲必记词汇，边记边练

【高中地理】21天过完全部知识点，有了它，成绩稳上85+！

发酵箱的发酵效率如何？

【高中语文】各题型满分答题技巧汇编，就凭它，语文也能冲上135+！

制造业新机遇：如何实现效率与成本双提升？

两端内螺纹型六角形支柱——垂直仓库站立地盘，高效存储新选择！

渣浆泵到底是干什么用的呢？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响