OpenAI-o1思考替代法火了，焦剑涛高徒一作提出思考偏好优化，不限于推理任务

作者：量子位发布时间：2024-10-28

OpenAI-o1替代品来了，大模型能根据任务复杂度进行不同时间的思考。

不限于推理性的逻辑或数学任务，一般问答也能思考的那种。

最近畅销书《Python机器学习》作者Sebastian Raschka推荐了一项新研究，被网友们齐刷刷码住了。

论文一作为华人学者Tianhao Wu，导师之一是2011年清华特奖得主焦剑涛。

团队提出了一种称作思考偏好优化（Thought Preference Optimization）的方法，能让模型像OpenAI-o1一样，通过内部“思考”输出更好答案，最终只显示结果，不展示思考过程。

TPO将思维链式提示/推理融入训练中：

在回答之前，用思维链式方法进行思考；使用一个LLM评判来评估响应（不包括由LLM生成的想法）；根据被拒绝和优选的响应形成偏好对进行DPO（包括这些响应中的想法）。

基于Llama 3 8B Instruct的结果表明，TPO效果相当好。

有意思的是，如果添加了思维提示，但Llama 3 8B Instruct基础模型没有在偏好对上经历DPO微调，那么这个基础模型的性能会比没有思维提示时差得多。

在指令数据（直接响应基线）上对模型进行微调（无需思考提示）就能显著提升基模型的性能。

进一步加入TPO，在AlpacaEval、Arena-Hard基准测试中，性能比基线再提升约4%。

网友纷纷表示这项研究很有意思，简单而又实用。

如果你已经在进行DPO，那么采用这种方法几乎就是不二之选了。

所以，TPO到底长啥样？

两种思考提示模板，无需额外人工标注数据

TPO的基本思路就是让模型在给出最终回答前先生成“思考”过程，且思考过程对用户不可见，仅作为模型内部计算过程，然后通过迭代优化来提升思考的质量，无需额外的人工标注数据。

具体来说，它的实现过程始于一个经过指令微调的基础语言模型，首先通过提示词引导模型生成包含思考过程和最终回答两个部分的输出。

这个提示词可以是通用型的，简单要求模型写下思考过程；也可以是具体型的，明确要求模型先写出草稿回答并进行评估。

对于每个用户指令，模型会生成多个不同版本的输出，每个都包含思考和回答部分。

且思考过程采用自然语言形式，便于解释和利用预训练知识。

然后系统会将这些输出中的回答部分（不含思考过程）提供给一个评判模型来打分。

评判模型可以是像ArmoRM这样直接对单个回答评分的模型，也可以是像Self-Taught Evaluator这样通过比较两个回答来选出更好者的模型。

基于评判结果，系统会选出得分最高和最低的回答，连同它们对应的思考过程一起构成偏好对。

这些偏好对随后被用于直接偏好优化（DPO）训练，通过这种方式，模型能够逐步学习到哪些思考方式能带来更好的回答。

整个过程是迭代进行的，每轮训练后得到的新模型会被用于下一轮的思考和回答生成。

为了防止回答变得过于冗长，TPO还引入了长度控制机制，通过在评分中加入长度惩罚项来平衡回答的质量和简洁性。

值得注意的是，在实际使用时，模型生成的思考过程会被隐藏，只向用户展示最终的回答部分。

更多细节，感兴趣的童鞋可自行查看原论文。

通过这种训练方法，即使是像Llama-3-8B-Instruct这样相对较小的模型也能在AlpacaEval等基准测试中取得接近甚至超过一些更大模型的性能。

在AlpacaEval基准测试中，TPO模型获得52.5%的胜率，比基线提升4.1%；在Arena-Hard测试上，TPO模型获得37.3%的胜率，比基线提升4.3%。

研究发现，虽然在训练初期，带思考的模型表现不如直接回答的基线模型，但经过多轮迭代训练后，TPO模型的表现明显超过基线。

更细致的分析显示，思考不仅对推理和数学等传统认为需要思考的任务有帮助，在营销、健康、一般知识等非推理任务上也表现出优势，模型会随着训练逐渐学会更高效的思考（思考长度缩短）。

华人一作

这项研究由来自Meta FAIR、加州大学伯克利分校、纽约大学的研究人员共同提出。

论文一作为华人学者Tianhao Wu。

Tianhao Wu目前是加州大学伯克利分校博士生，导师是焦剑涛（Jiantao Jiao）和Kannan Ramchandran。

本科主修数学，合作导师是北大教授、清华交叉信息学院兼职教授王立威（Liwei Wang）。

他的研究重点是通过强化学习改善大语言模型的指令遵循和推理能力，目标是构建可以解决需要多步骤推理的复杂任务的大规模模型。

此外他还在开发由Agent组成的AI社会，这些Agent可以以模块化的方式连接起来，形成更强大的集体智能。

论文链接：https://arxiv.org/abs/2410.10630

参考链接：[1]https://x.com/rasbt/status/1850177459930497118[2]https://thwu1.github.io/tianhaowu/

本文来自微信公众号“量子位”，作者：西风，36氪经授权发布。

近期资讯

hawk26 昨天

萨科米耐火材料行业倾斜式混合机

萨科米，作为耐火材料生产线的专业制造商，凭借其精湛的工艺、先进的技术和优越的品质，在行业内树立了标杆。特别是在倾斜式混合机的定制化服务方面，萨科米展现出了强大的实力和灵活性。倾斜式混合机是耐火材料生产中的关键设备，其性能直接影响到产品的质量和生产效率。萨科米深知每个企业的生产需求都是独特的，因此提供了丰富的定制化选项，以满足客户的个性化需求。萨科米的定制化服务涵盖了从混合室容量、搅拌器形状到控制系统配置的全方位定制。客户可以根据自己的生产工艺、产品要求和特殊需求，选择适合的混合机配置。这种高度灵活的定

萨科米昨天

萨科米固废环保行业倾斜式混合造粒机

在当今全球高度重视环境保护的大背景下，固废环保行业正发挥着至关重要的作用。而其中，倾斜式混合造粒机以其显著的环保效益，成为固废处理领域的一颗耀眼明星。倾斜式混合造粒机在固废处理过程中展现出了强大的功能。首先，它能够高效地将各类固体废弃物进行混合。无论是工业废渣、建筑垃圾还是生活垃圾中的可回收物，都可以在这一设备中得到充分的搅拌和融合。通过精确的混合比例控制，可以实现固废资源的高度利用，减少对自然资源的依赖。在造粒环节，倾斜式混合造粒机更是表现出色。它将混合后的固废转化为均匀的颗粒状物质，这些颗

萨科米昨天

“联想手机数据安全：三种方法实现PC备份

联想手机以其出色的摄像头、流畅的操作系统、卓越的内置通讯信号和精心设计的外观赢得了全球众多用户的青睐。如果您是联想手机的用户，并且担心丢失手机上的重要数据，那么将联想手机备份到PC可能是您需要考虑的解决方案。本文将为您提供详细的指导，帮助您轻松实现联想手机数据备份到电脑。方法1：使用Coolmuster Android Backup Manager备份联想手机到PCCoolmuster Android Backup Manager是一款高效的联想手机备份工具，它能够让您一键将整个联想手机的数据备

Coolmuster_cn 昨天

合成树脂废水预处理方法

对于难降解的合成树脂废水，预处理是提高后续处理效率的关键步骤。预处理的目的主要是去除废水中的悬浮固体、降低有机物浓度、调整pH值、提高废水的可生化性以及减少对后续处理设备的冲击。以下是一些常用的预处理方法：物理法：包括格栅、沉砂池等，用于去除大颗粒杂质。化学法：通过加入化学试剂如混凝剂，可以使废水中的细小颗粒凝聚成较大的絮状物，便于通过沉淀分离。深度氧化法：利用强氧化剂如臭氧、过氧化氢在催化剂的作用下产生羟基自由基，这些自由基能够无选择性地氧化大多数有机物，从而将有机污染物转化为无害或更易于生物降解

漓源污水处理昨天

OpenAI-o1思考替代法火了，焦剑涛高徒一作提出思考偏好优化，不限于推理任务

两种思考提示模板，无需额外人工标注数据

华人一作

推荐体验

相关资讯

寻找志同道合的伙伴（设计师团体）不限于游戏，影视，动画，ip设计

北青快评 | 向大学生普及AI通识课，也可以不限于大学生

OpenAI全新模型：推理能力已接近人类，ChatGPT像人一样思考Azure OpenAI

姚期智领衔提出大模型「思维」框架！逻辑推理正确率达98%，思考方式更像人类了

GPT-4推理更像人了，中国科学院提出“思维传播”，类比思考完胜CoT，即插即用

近期资讯

FileLink内外网文件交换：构建安全高效的数字化桥梁

NocoBase 与 Appsmith：哪个开源低代码平台更适合你？

【高中生物】“基础知识点梳理”，有了它，成绩稳上90+！

ETC申请退款怎么退？（任通行etc押金难退吗）

萨科米炭黑行业倾斜式混合机

FN美国公司展出单兵武器系统2.2版 .264口径将交付特种部队测试

萨科米耐火材料行业倾斜式混合机

萨科米固废环保行业倾斜式混合造粒机

“联想手机数据安全：三种方法实现PC备份

合成树脂废水预处理方法

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响