AlphaGo核心算法增强，7B模型数学能力直逼GPT-4，阿里大模型新研究火了

作者：量子位发布时间：2024-05-09

GPT-4

把AlphaGo的核心算法用在大模型上，“高考”成绩直接提升了20多分。

在MATH数据集上，甚至让7B模型得分超过了GPT-4。

一项来自阿里的新研究引发关注：

研究人员用蒙特卡洛树搜索（MCTS）给大语言模型来了把性能增强，无需人工标注解题步骤，也能生成高质量数据，有效提升大模型的数学成绩。

论文发布，让不少网友重新关注到了蒙特卡洛树搜索这个在前大模型时代的明星算法。

有人直言：

蒙特卡洛树搜索+LLM是通往超级智能之路。

因为“树搜索本身更接近人类思维”。

用蒙特卡洛树搜索增强大模型

具体来说，阿里的研究人员提出了一种名为AlphaMath的方法，用大语言模型+MCTS来自动生成数学推理数据，并提升大模型在完成数学推理任务时的性能表现。

嗯，名字就很有蒙特卡洛树搜索内味儿了。

这里有个前情提要：

思维链（CoT）、思维程序（PoT）等方法已经被证明能够有效提高大模型的数学能力，但问题在于，它们都需要人类手动喂详细的解题步骤，即训练当中需要用到人工标注的高质量数学推理数据。

AlphaMath的一个核心目的就在于，在这个步骤中去人工化——数据格式就是简单的数学问题-答案对。

AlphaMath的技术路线主要涵盖三个阶段：

首先，研究人员收集了一个数学数据集，其中包含数学问题及其对应的正确答案。

然后，利用预训练的大模型（即策略模型）根据问题生成初始的解题路径，并通过MCTS对解题路径进行探索和改进，搜索更优的解题思路。

在MCTS过程中，同时训练一个价值模型来预测解题路径的质量，引导搜索方向。

最后，第二阶段获得的数据会被用来优化策略模型和价值模型。

这三个阶段会通过迭代优化地方式执行，以实现无需人工标注的自动数据生成和模型数学能力优化。

另外，研究人员还基于价值模型提出了Step-level Beam Search方法，以提高大模型的数学推理效率，平衡推理时的解题质量和运行时间。

简单来说，Step-level Beam Search是将MCTS推理过程做了个简化：

利用价值模型对候选路径进行评估，以更准确地选择高质量的解题路径。
通过逐步扩展和剪枝，在搜索过程中动态调整候选路径集合，提高搜索效率。
搜索过程中考虑了完整的解题路径，而不仅仅是局部的下一步动作，可以得到更全局优化的解题方案。

MATH成绩超GPT-4

为了验证AlphaMath的效果，研究人员设计了这样的实验：

对开源的数学大模型DeepSeekMath-Base-7B，用AlphaMath方法进行训练，并在GSM8K、MATH和Gaokao2023基准上，与GPT-4为代表的闭源模型、Llama2为代表的开源模型，以及专门做过数学SFT的MathCoder等模型进行对比。

结果显示，不依赖于人类（或GPT-4）标注的高质量数据，AlphaMath调教下的7B数学大模型，已经能在MATH上取得63%的分数，超过了GPT-4原版的42.5%和外挂代码解释器版的51.8%。

另外，在执行3轮MCTS并训练策略模型和价值模型的情况下，AlphaMath能让大模型在涵盖小学数学题的GSM8K上提升10多分，在MATH和Gaokao2023上提升20多分。

还可以看到，Step-level Beam Search在MATH数据集上取得了良好的效率和准确率平衡。

论文的共同一作是Guoxin Chen、Mingpeng liao、Chengxi Li和Kai Fan。

通讯作者Kai Fan本硕毕业于北京大学，2017年从杜克大学博士毕业，2018年加入阿里巴巴达摩院。

论文地址

https://arxiv.org/abs/2405.03553

本文来自微信公众号“量子位”（ID：QbitAI），作者：鱼羊，36氪经授权发布。

近期资讯

能源自动化管理系统——助力医院实现高效节能

近年来，随着绿色可持续发展需求的增强，医院作为特殊的公共建筑，也在积极推动节能减排和绿色建筑政策的实施。在《绿色医院建筑评价标准》中明确要求医院在建筑全生命周期内，既要保证医疗流程的高效运作，又要最大限度地节约资源（节地、节能、节水、节材），保护环境，减少污染，为患者和医护人员提供健康、适用且高效的空间。同时，面对巨大的能耗和复杂的管理挑战，《医院能耗运营数智管控实施规范》提出，医院可以通过数智化技术实现精细化的能耗管理，量身定制节能减排策略，推动绿色医院建设。下面我们就来看看，智慧医院是如何利用能

淳博智筑 2024-12-27

Winkler AG 经典系列PILZ®–带有钩织外套的加热套 WHG2系列

Winkler AG 经典系列PILZ®–带有钩织外套的加热套 WHG2系列、WHG2H系列、WHLG2系列、WHLG2ER系列、WHLMG3ER系列、WHLSG2ER系列、WHLG2ER系列 Winkler 经典系列 – PILZ® 带有钩织外套的加热套 Winkler的标准系列WHG2的前身最早是在80多年前为实验室应用而开发的。它也是大多数其他系列的基础。材料技术的持续改进、高水平的功能性和防止意外事故的安全性使得这个系列成为任何实验室设施的重要组成部分。产品线还包括各种配件和适用的控制设备。从50

皕赫国际18001942024 2024-12-27

LIMS在制药实验室数据审核与报告中的革新应用

在当今高度监管的制药行业中，实验室数据审核与报告的准确性和效率直接关系到产品的安全性、合规性以及企业的市场竞争力。然而，据行业报告，众多制药公司在审计试验中面临失败，主要归因于数据管理和报告环节的薄弱。本文旨在探讨制药实验室在数据审核与报告方面遇到的挑战，并通过引入先进的LIMS（实验室信息管理系统）解决方案，结合行业案例，展示其如何重塑实验室运营，提升数据质量和合规性。制药实验室数据审核与报告的困境制药实验室在保障产品质量、患者安全和法规遵从性方面承担着重大责任。然而，数据审核与报告过程中存在诸多障碍：

白码科技 2024-12-27

项目管理软件自动化，任务流程轻松提速

任务流程自动化，通过Zoho Projects项目管理软件预设流程和条件，实现任务的高效管理。该软件能够自动跟踪任务进度，依据预设规则推送任务至下一环节，从而消减人工介入，减少人为错误，显著提升项目管理的效率。同时，自动化处理还能确保项目数据的准确度，使员工能够更专注于创造性和战略性的工作，提升整体工作质量和员工满意度。此外，Zoho Projects项目管理软件的自动化功能适用于多种场景，但企业在引入时也需考虑员工培训以及系统集成等因素。一、什么是任务流程自动化？任务流程自动化是通过设置预定义的流程和条

Zoho云服务 2024-12-27

全球限量300台的摩根PLUS6

近期，上海街边出现一辆全球限量仅300台且极具old money范的老爷车——摩根plus6，这台摩根是由上海叁壹汇给我们带来的。摩根Plus 6是英国老牌汽车制造商摩根（Morgan）推出的一款极具特色的敞篷跑车，它将经典的复古外观设计与最新的汽车工程技术融为一体。这款车型不仅延续了摩根品牌近70年的经典设计元素，还引入了宝马提供的先进动力系统，为驾驶者提供了独特的驾驶体验。摩根Plus 6保留了该品牌标志性的复古造型，让人一眼就能认出它的英伦血统。车身线条流畅且圆润，带有明显的上世纪风格，但

映车印象 2024-12-27

Web极客码 2024-12-27

揭秘8272CL 4核8G服务器的强大魅力：快快网络让你大开眼界

如果你是个人站长、开发者啥的，一台配置合适的服务器简直就是神器。特别是那种4核CPU加上8GB内存的，处理能力强，运行稳定，特别适合用来建个人博客、企业官网，或者搞点轻量级的Web服务、API后端啥的。 1.个人博客：流量不是很大的话，4核8G的配置绝对够用。 2.企业官网：内容静态、访问量适中的企业网站，这种配置也能稳稳地提供服务。 3.轻量级网络服务：应用程序需求不高的话，比如RESTful API或者微服务里的某个部分，这个配置就挺合适。 4.小型游戏服务器：资源要求不高的游戏，比如Minecra

快快网络官方 2024-12-27

AlphaGo核心算法增强，7B模型数学能力直逼GPT-4，阿里大模型新研究火了

用蒙特卡洛树搜索增强大模型

MATH成绩超GPT-4

论文地址

推荐体验

相关资讯

7B大模型测试成绩超GPT-4！微软新研究解决工具调用难题

7B开源数学模型干翻千亿GPT-4，中国团队出品

【Mini GPT-4】7B 使用指南

GPT-4搞不定的图推理，港科大7B模型搞定

GPT-4搞不定的图推理，港科大7B模型搞定｜KDD2024

近期资讯

能源自动化管理系统——助力医院实现高效节能

Winkler AG 经典系列PILZ®–带有钩织外套的加热套 WHG2系列

LIMS在制药实验室数据审核与报告中的革新应用

项目管理软件自动化，任务流程轻松提速

全球限量300台的摩根PLUS6

【高中政治】300个逢考必错知识点，就凭它，政治也能冲上85+！

高中政治高分答题模板，考前救急版！

春节狂欢，打造你的专属抽奖程序！

WordPress网站中如何修复504错误

揭秘8272CL 4核8G服务器的强大魅力：快快网络让你大开眼界

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响