贾佳亚团队新作：10k数据让大模型数学能力超GPT-4

作者：量子位发布时间：2024-07-05

GPT-4

只要10k数据，就能让大模型的数学成绩增长5.6%。

港中文贾佳亚团队推出了基于推理步骤的大模型优化策略，能够像老师教学生一样优化大模型。

利用这种方法，72B Qwen模型的数学成绩超越了GPT-4、Gemini1.5-Pro和Claude3-Opus等一众闭源模型。

老师在纠正学生错误时，不会只告诉学生最终答案错了，还会告知具体哪个步骤错了，以此快速纠正其错误。

贾佳亚团队正是学习了这一特点，将斯坦福团队推出的DPO（直接偏好优化）进一步细化，形成了逐步应用的策略Step-DPO。

该方法让Qwen-72B模型在多个数据集上进步明显，同时也获得了更强的长链条推理任务能力。

像教育学生一样训练大模型

如何强化推理能力，一直是大语言模型领域的重要问题之一。

常见的思维链策略通过在输入提示词部分添加“Let’s think step by step.”，来使模型在输出中完成逐步推理，但对于复杂的问题，仅通过修改提示词不足以引导模型正确解决问题。

由于复杂问题涉及的推理过程较长，有时包含数十个推理步骤，一旦其中任一步骤出错，就难以得到正确的结果。

此外，现有方案旨在通过监督式微调（SFT）阶段增加问答数据以实现更好的对齐。

然而，当SFT数据达到一定数量时，模型经常出现幻觉，性能也随之趋于饱和。

一个潜在的原因是，随着偏好输出的概率上升，非偏好输出的概率也会随之增加。

为了抑制幻觉，提升模型的事实性，斯坦福大学提出了直接偏好优化方法，其工作原理是创建基于人类偏好对的数据集，每个偏好对都包含一个输入提示、偏好输出以及非偏好输出。

然后对语言模型直接进行微调，最大限度地提高生成的可能性，并减少输出的可能性。

因此，DPO的优化目标为：

其中πθ与πref分别表示当前微调模型以及参照模型。

但在长链条推理任务中，DPO无法准确判断推理过程中的错误步骤，从而无法聚焦关键出错步骤。

如下图所示，基于DPO的模型在训练过程中无法准确判断推理步骤正确与否。

因此，作者提出了基于推理步骤的直接偏好优化——Step-DPO。

就像老师在纠正学生错误时，不会只告诉学生最终答案错了，还会告知具体哪个步骤错了，以此快速纠正其错误。

与此类似，Step-DPO不再像DPO从整体上对比答案，而是将每个推理步骤视为一个基本单元，并且对比单个推理步骤，从更精细的角度提升模型的多步推理分析能力。

Step-DPO的优化目标为：

除此之外，作者还提出基于模型自生成的数据处理流程。如图所示，该流程包含以下三个步骤：

第一步是错误收集。

首先，给定一组数学问题D0=(x,y∧)，其中x是数学问题，y∧是其真实答案。

然后，使用初始模型πref来得到每个数学问题x的答案。

在进行模型推理之前，需要添加思维链（CoT）前缀作为提示，以确保模型的推理结果被结构化为多个推理步骤，每个步骤均以“Step i：”开始。

经过模型推理可得到每个数学问题x的推理结果y，然后选择与真实答案y∧不一致的那些结果，并汇总得到数据集D1：

第二步是错误步骤定位。

每个错误推理结果y都呈现为一系列推理步骤的序列y=s1,s2,…,sn，随后需要人工或利用GPT-4验证每个推理步骤的正确性，直到找到第一个错误步骤sk，并记录其步骤编号。

然后将sk选为错误的推理步骤slose，从而得到D2：

最后是错误步骤修正。

为了获得D2中每个样本对应的正确推理步骤，需要对模型πref进行推断，使用提示x和前面的正确推理步骤s1~k-1来采样多个输出ycont，此过程可以表示为：

随后保留ycont中那些与真实答案一致的输出，并将其中的第一个推理步骤作为swin，最终得到数据集D：

下图展示了一个数据样本示例。值得一提的是，该数据准备流程无需大量的人工介入，人类或GPT-4只需要判断给定推理步骤是否正确，而无需亲自撰写答案来修正错误。

10k数据带来数学能力大幅提升

Step-DPO可以在SFT模型或现有的开源Instruct模型上进行微调，仅通过10K数据以及数百个训练步数，即可取得大幅度的数学能力提升。

如下图所示，在Qwen2-7B-Instruct模型的基础上进行Step-DPO可在MATH测试集上获得5.6%准确率的提升。

在Qwen2-72B-Instruct模型的基础上进行Step-DPO，可在MATH和GSM8K测试集的准确率分别达到70.8%和94.0%，超过一系列闭源模型如Gemini-1.5-Pro、GPT-4-1106，以及Claude-3-Opus。

除此之外，在难度较高的包含数学竞赛题的Odyssey-MATH榜单上也有显著提升。

经过Step-DPO之后，模型更加鲁棒，减少幻觉的产生，在推理过程中也不容易出错。如以下两个例子所示。

假设h(x)=f-1(x)，如果h(2)=10，h(10)=1，h(1)=2，求f(f(10))。

t的平方根大于2且小于3.5，满足这一条件的整数t有多少个？

即便是下图这道数学竞赛题，经过Step-DPO之后的模型也可以做对。

在所有非增函数f:{1,2,…,10}→{1,2,…,10}中，有些函数有固定点，另一些没有，这两种函数的数量相差多少？

目前，该项目的代码，数据，模型，Demo均已公开至GitHub和Hugging Face，同时支持在线体验。

论文地址：https://arxiv.org/abs/2406.18629

GitHub：https://github.com/dvlab-research/Step-DPO

在线Demo：http://103.170.5.190:7870/

模型（HF）：https://huggingface.co/collections/xinlai/step-dpo-6682e12dfbbb2917c8161df7

数据（HF）：https://huggingface.co/datasets/xinlai/Math-Step-DPO-10K

本文来自微信公众号“量子位”（ID:QbitAI），作者：港中文贾佳亚团队，36氪经授权发布。

近期资讯

是这个机 2024-12-26

天泽智联“皖云焊”助力安徽省电气焊安全监管

近期，天泽智联创新推出了“皖云焊”安全监管应用平台，该平台目前已作为省级电气焊监管平台正式上线，为规范、提升安徽省电气焊作业全链条安全管理能力提供了有效助力和抓手。 “皖云焊”极具特色、亮点突出。“六大”特点开创了电气焊安全监管的新模式。 [图片] 一、开关机语音提醒，强化源头安全管理 “焊接千万次，安全每一次，皖云焊提醒您，请清除周边易燃易爆物品，确保作业环境安全……”“请查看并清理作业现场，确保无明火，无焊渣废料，排除火灾隐患，关闭电源……”每当焊工通过扫码开启或关闭焊机时，平台都会通过语音提醒操作人

天泽智联 2024-12-26

没有导航地图，也能自动驾驶，这一次，别再说比亚迪智驾不行了

谈及三电技术，相信很多人第一印象就会想到比亚迪，但谈到智驾技术，比亚迪似乎很低调，甚至有不少人认为这是比亚迪的短板，但没想到，这一次，比亚迪推出的智能辅助驾驶系统“天神之眼”可谓超乎意料。这套智驾系统采用融合感知方案，通过摄像头、多种雷达，集视觉、感知等多种感知系统，实时捕捉并通过高算力对道路信息进行精准处理，从而适应更加复杂的路况，即便在没有导航地图的乡间小路，依然能为车主提供更加安全、便捷的辅助驾驶体验，可谓高阶智驾实力领先。自2024年12月24日起，比亚迪“天神之眼”系统将在全国范围内开通无图

玩车有料 2024-12-26

【新疆无人机培训】无人机技术在城市安全监测的革命性角色

新疆保华润天航空无人机培训中心：在这个日新月异的时代，无人机技术如同一股清流，悄然渗透进公共安全与应急响应的每一个角落，成为不可或缺的“空中力量”。想象一下，当灾难降临，地面交通受阻，传统救援方式难以迅速到达现场时，是无人机以其独特的视角和灵活性，第一时间飞抵灾区上空，捕捉实时画面，为决策者提供宝贵的第一手资料。在火灾监测与扑灭方面，无人机搭载热成像仪，能在浓烟滚滚中精准定位火源，指导消防队伍高效灭火，同时避免盲目行动带来的风险。而在城市安全监测领域，它们化身为不知疲倦的“天空巡逻者”，利用高清摄像头监控

会飞的大乌苏 2024-12-26

使用 LakeSoul 构建实时机器学习样本库

在之前的公众号文章《重磅！开源湖仓平台 LakeSoul 设计理念详解》中，我们介绍了 LakeSoul 开源流批一体表存储框架的设计理念和部分实现原理。LakeSoul 设计的初衷，是为了解决在流批一体的业务场景下，传统的 Hive 数仓难以解决的各类问题，包括 Upsert 更新、Merge on Read、并发写等。今天我们以一个典型的应用场景：构建实时机器学习样本库来展示 LakeSoul 的核心功能。 01 业务需求背景 1.1 在线推荐系统在互联网、金融等行业，很多的业务场景都可以归纳为一个

数元灵 2024-12-26

【新疆无人机培训】未来天空的革新者：探索新兴航空器的研发与制造

新疆保华润天航空无人机培训中心：在科技飞速发展的今天，人类对天空的征服已经不再局限于传统的飞机和直升机。新兴航空器，尤其是无人机（UAV）和电动垂直起降（eVTOL）飞行器，正以其独特的优势和巨大的市场潜力，成为航空航天行业的新亮点。这些航空器不仅能够执行复杂的任务，还能在紧急情况下提供快速响应，因此受到了广泛关注。首先，让我们聚焦于这些新兴航空器的核心部件研发。电池技术的进步为无人机和eVTOL提供了更长的续航能力和更高的能效比。推进系统的创新则让这些飞行器能够实现更加灵活的机动性和更快的速度。飞行控制

新疆无人机萌妹 2024-12-26

什么！你的品牌还没用过小程序模板商城？

在这个互联网高速发展的时代，餐饮行业正经历着一场前所未有的变革。广告，作为连接消费者与品牌的重要桥梁，也在不断地适应着数字化的浪潮。而小程序模板商城，尤其是凡网云轻站，正以其多样化的模板和强大的功能，成为数字化转型的关键工具。凡网云，一个专为互联网、广告和餐饮行业量身打造的小程序模板商城，以其丰富多样的模板和定制化服务，让每一个餐饮品牌都能在数字世界中独树一帜。无论是追求高端大气的西餐厅，还是温馨亲民的快餐店，轻站都能提供与之匹配的模板，让品牌形象在指尖滑动间生动展现。在广告行业，创意是王道，而轻站的

帆可云官网 2024-12-26

【新疆无人机培训】无人机在基础设施安全监测中的创新应用

新疆保华润天航空无人机培训中心：在现代社会，基础设施的健康运行对于经济发展和社会稳定至关重要。然而，传统的基础设施巡检方法往往耗时耗力，且存在一定的安全风险。幸运的是，随着无人机技术的飞速发展，这一领域迎来了革命性的变革。无人机以其独特的优势，正在逐步替代传统的人工巡检方式。它们能够轻松到达偏远地区，甚至是人类难以接近的危险地带，进行高效的巡检工作。例如，在电网巡检中，无人机可以快速定位故障点，减少停电时间；在油气管道巡查中，它们能及时发现泄漏等安全隐患，保障能源供应的安全。除了提高效率和安全性外，无人机

新疆无人机培训步煜天 2024-12-26

贾佳亚团队新作：10k数据让大模型数学能力超GPT-4

像教育学生一样训练大模型

10k数据带来数学能力大幅提升

推荐体验

相关资讯

专治大模型“刷题”！贾佳亚团队新基准让模型只挑错不做题，GPT-4得分不到50

融合ChatGPT+DALLE3，贾佳亚团队新作Mini-Gemini上线

融合ChatGPT+DALLE3，贾佳亚团队新作开源：识图生图一站解决

GPT-4拿下最难数学推理数据集新SOTA，新型Prompting让大模型推理能力狂升

融合ChatGPT+DALL·E 3，贾佳亚团队新作开源畅玩：识图推理生图一站解决

近期资讯

pTRV2植物RNAi载体—艾普蒂生物

8566模具钢主力解决崩裂问题，PM23主力解决磨损问题。第534篇

比亚迪高阶智驾实力领先，“天神之眼”无图城市领航全国都能开

天泽智联“皖云焊”助力安徽省电气焊安全监管

没有导航地图，也能自动驾驶，这一次，别再说比亚迪智驾不行了

【新疆无人机培训】无人机技术在城市安全监测的革命性角色

使用 LakeSoul 构建实时机器学习样本库

【新疆无人机培训】未来天空的革新者：探索新兴航空器的研发与制造

什么！你的品牌还没用过小程序模板商城？

【新疆无人机培训】无人机在基础设施安全监测中的创新应用

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响