Meta版o1来了！田渊栋团队整合快慢思考，能走迷宫推箱子

作者：量子位发布时间：2024-10-17

明敏发自凹非寺

量子位 | 公众号 QbitAI

Meta版o1也来了。

田渊栋团队带来新作 Dualformer，把快慢思考无缝结合，性能提升还成本更低。

能解决迷宫、推箱子等复杂问题。

通过让模型在推理轨迹和最终答案上进行训练，再基于特定策略丢掉部分轨迹，Dualformer模型可以在模仿慢思考的同时，像快思考一样走捷径。

由此能形成更简洁的思维链（CoT）。

从结果来看，在慢思考模式下，Dualformer的最优解率达到97.6%，推理步骤减少45.5%。

自动切换快慢思考模式下，最优率也达到96.6%，且推理步骤减少59.9%。

搞定o1玩不来的迷宫游戏

o1带火了系统2（慢思考），能让大模型推理能力大幅提升。

但是随之而来的计算成本更高。

Dualformer能很好结合快慢思考，从而缓解这一问题。

它建立在Searchformer这项工作的基础上。Searchformer是一个可以解决复杂推理任务的模型，在A*搜索算法生成的路径上训练而来，在路径规划任务（如迷宫、推箱子游戏）上表现良好，可以以更高效率找到最优解。

研究发现，人类会在思考过程中倾向于找捷径。为了更进一步模拟人类，Dualformer在随机推理轨迹数据上进行训练，并在训练过程中依据定制的丢弃策略丢到部分结构。

比如在处理路径规划任务时，根据搜索轨迹中的不同子句（如close子句、子句中的cost tokens、create子句等）设计了四个级别的丢弃策略，从只丢弃close子句到丢弃整个轨迹，并在训练时随机选择应用这些策略。

基于这些策略，Dualformer可以学习更简洁有效的搜索和推理过程。

在推理阶段，Dualformer可配置快速模式（仅输出解决方案）、慢速模式（输出推理链和最终解决方案）或自动模式（自行决定推理模式）。

这种灵活的推理模式设计使得模型能够根据不同任务需求和场景进行自适应调整，类似于人类思维在不同情况下的决策方式。

在具体任务上，研究设置了迷宫(Maze)和推箱子游戏(Sokoban)，让模型进行路径规划。以及数学推理任务。

对比来看，在迷宫任务中，o1-preview和o1-mini模型输出的路径并不好，会“穿墙”。

快思考模式下，Dualformer的表现如下。

Dualformer以80%的最优率完成这些任务，显著优于仅基于解决方案数据训练的Solution-Only模型，后者的最优率仅为 30%。

慢思考模式表现如下。

30×30迷宫任务中，在97.6%的情况下可以达到最优解，同时推理步骤减少45.5%。

自动切换快慢思考模式下，Dualformer的最优率达到 96.6%，与Searchformer相比，推理步骤减少59.9%。

将该方法推广到Mistral-7B和Llama3-8B上，在Aug-MATH数据集上，模型的表现都有所提升。

比如在Mistral-7B模型上，当p=0.1、0.2和0.3时，Pass@20度量的基线模型，其中绝对正确率增加到61.9%。

最后，来看一下研究团队阵容。

该研究由田渊栋等人带来。

田渊栋现在是Meta FAIR的研究科学家主任，领导LLM推理、规划和决策小组。

Qinqing Zheng是FAIR的工程师，研究方向集中在生成模型和强化学习方面。她本科毕业于浙江大学，在芝加哥大学攻读博士学位。2017-2019年期间在Facebook担任研究科学家，帮助Facebook建立了广告推荐模型的分布式训练系统。

Sainbayar Sukhbaatar是FAIR的研究科学家，主要负责大模型推理和记忆方面研究。他曾先后在谷歌、DeepMind、Meta任职。

Michael Rabbat是FAIR的创始成员之一。加入Meta之前他曾是麦吉尔大学计算机工程系教授。研究领域包括机器学习、分布式算法、信号处理等。

论文地址：

https://arxiv.org/pdf/2410.09918

— 完—

评选征集中

「2024人工智能年度评选」

量子位2024人工智能年度评选已开启报名通道，评选从企业、人物、产品三大维度设立了5类奖项。

欢迎扫码报名评选！评选结果将于12月MEET2025智能未来大会公布，期待与数百万从业者共同见证荣誉时刻。

点这里 👇关注我，记得标星哦～

科技前沿进展日日相见 ~

Meta版o1来了！田渊栋团队整合快慢思考，能走迷宫推箱子

推荐体验

相关资讯

田渊栋新作：打开1层Transformer黑盒，注意力机制没那么神秘

田渊栋：关于GPT-4的一些感想

不到1000步微调，将LLaMA上下文扩展到32K，田渊栋团队最新研究

GPT-5不能停，吴恩达田渊栋反对千人联名，OpenAI CEO也发声了

羊驼家族大模型集体进化！32k上下文追平GPT-4，田渊栋团队出品

近期资讯

如何在unocss中使用css变量

双亲委派模型和Class类加载器

网页常见效果之纯css实现卡片效果之hover、堆叠、鼠标滚动页面、选项卡分类效果、Swiper炫酷轮播

React Hooks - useDeepCompareEffect

手摸手带你封装Vue组件库（5）全局样式以及Button组件

闭包?B包！—— 一篇文章带你无痛理解闭包

强大的无头UI表格库：TanStack Table！Github Star达到了惊人的25K！

Vue3源码学习5——组件的renderer渲染器

nicegui太香了，跨平台开发和跨平台运行--使用Python+nicegui实现系统布局界面的开发

HTML 数据日报邮件开发笔记

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响