重磅！复旦大学联合上海人工智能实验室初步实现传说中的“Q*”算法

作者：华尔街见闻发布时间：2024-06-17

Q* 被验证了！小型的 LLM 在数学方面和前沿模型一样优秀。

通过结合一种创新算法，Llama8B 在数学基准测试 GSM8K 上达到了 96.7% 的惊人成绩！这比 GPT-4、Claude 和 Gemini 都要好，而且它的参数量仅为这些模型的二百分之一！

Q* 相信大家都不会陌生，被称为OpenAI内部实现大模型数学和复杂推理重大突破的神秘算法，不过Q*迄今为止一直是一个传说，Q*究竟如何我们并不得而知。

就在这两天，复旦大学联合上海人工智能实验室悄悄提交了一篇重磅论文，题为《LLaMa-3 8B使用蒙特卡洛树自我优化获取GPT-4级别的数学奥林匹克解题方法：一份技术报告》。论文中，科研人员开发出一种名为MCTSr的算法，可以显著提高大模型在数学和复杂推理方面的能力。这是自Q*这种神秘算法传说以来首次有类似技术被公开发表，并且其有效性通过了可靠评估。

这是一篇探讨如何将大型语言模型(LLM)与蒙特卡罗树搜索(MCTS)算法结合,以提高LLM在复杂数学推理任务中的性能的研究论文，文章提出了一种创新算法MCTSr,旨在解决LLM在复杂计算和逻辑推理中存在的准确性和可靠性不足的问题。

论文由复旦大学和上海人工智能实验室提交到了arxiv，论文第一作者Zhang Di 复旦PhD在读，曾经有多份大厂工作实习经历。

传统的MCTS算法无法很好地与LLM的随机生成性质相结合。因此,作者提出了改进的UCB公式和动态剪枝策略,以更好地平衡探索和利用,优化决策框架。MCTSr算法构建一棵蒙特卡罗搜索树,通过选择、自完善、自评估和反向传播等迭代过程不断优化答案。

在自完善环节,LLM根据提示对当前答案提出改进意见,并生成优化版本。在自评估中,LLM会对完善后的答案进行打分,并采用约束条件确保评分的严格性和可靠性。

实验表明,在GSM8K、GSM Hard、MATH等数据集上,使用MCTSr算法能显著提高LLaMa-3 8B模型解决数学问题的成功率,尤其是在奥林匹克级别的数学竞赛题目上,也取得了显著进步,接近最新的封闭源模型GPT-4的表现。

从最基本的Zero-Shot到逐步增强的不同模型配置,包括One-turn Self-Refine和新提出的MCTSr算法在不同迭代次数(rollouts)下的表现如下（相对简单的MATH数据集）。

奥数级别的数据集中表现：AIME（美国高中奥数竞赛）， Math Odyssey（谷歌推出的极端复杂推理数据集），OlympiadBench（国际奥数）。

这项研究证实了结合MCTS和LLM能够增强复杂推理能力,为LLM在逻辑决策和数学等领域的应用铺平了道路。不过,MCTSr算法目前还处于初级阶段,在更广泛场景下的适用性有待进一步探索。此外,算法各个环节都有改进空间,需要持续优化以提高实用性和有效性。

期待MCTSr与最强的开源模型结合的威力。论文中有MCTSr详细实现方法和评估，大家感兴趣可以看看原文paper：https://arxiv.org/pdf/2406.07394。

本文作者：opencat；来源：AI寒武纪；原文标题：《重磅！复旦大学联合上海人工智能实验室初步实现传说中的“Q*”算法》。

*免责声明：文章内容仅供参考，不构成投资建议

*风险提示：股市有风险，入市需谨慎

重磅！复旦大学联合上海人工智能实验室初步实现传说中的“Q*”算法

推荐体验

相关资讯

上海人工智能实验室单位联合发起大模型语料数据联盟

浦江实验室、上海人工智能实验室主任汤晓鸥逝世

上海机场“机场大脑与人工智能联合创新实验室”揭牌

上海人工智能实验室发布中期天气预报大模型“风乌”

上海人工智能实验室“书生・浦语灵笔”大模型开源

近期资讯

199元！特斯拉Bot人形机器人开售即抢光：二手平台溢价超百元

如何顺利卸载虚拟机：详细步骤与注意事项解析

性能新突破，一加Ace5值得买吗：第三代骁龙8+6400mAh，仅2299元

苏州易来科得申请多层涂布的降阶模型电化学仿真专利，解决传统模型无法仿真的问题

武汉新城开通全国首条跨市自动驾驶公交线路

探访合肥现代科技馆：沉浸式探索前沿科技

我国首个商用堆在线辐照生产同位素装置正式投运

一加平板发布：11.6 英寸 LCD 屏、天玑 8350，首发价 1999 元起

国科微8K超高清芯片获“音视频领域关键技术突破一等奖”

史上最强鸿蒙平板！华为MatePad Pro 13.2英寸柔光版开售：5799元起

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响