Q*项目公开发布！研究团队并非OpenAI

作者：量子位发布时间：2024-06-25

OpenAI

昆仑万维投稿

量子位 | 公众号 QbitAI

Q*项目公开发布，可让小模型达到参数量比其大数十倍、甚至上百倍模型的推理能力。

自去年11月伴随着OpenAI内讧，其神秘Q*项目被爆出后，业内对OpenAI Q*的讨论和猜测就没停过，而OpenAI这边一直避而不谈。

在当时，一些人就从名字猜测Q*可能与Q-Learning有关，例如Meta科学家田渊栋提出Q*可能是Q-learning和A*的结合：

而现在，一项名为Q*的项目突然公开发布，而且真的和Q-Learning、A*有关。

不过，研究团队并非OpenAI，更不是DeepMind（相传，OpenAI的Q*项目前身是GPT-Zero，由Ilya Sutskever发起，名字致敬了DeepMind的Alpha-Zero）。

而是来自国内昆仑万维颜水成团队与新加坡南洋理工大学的一项新工作。

团队表示，希望Q*算法能够打破OpenAI的封锁，提升现有开源模型的推理能力。实验中，Q*算法的表现也很给力：

在GSM8K数据集上，Q*帮助Llama-2-7b提升至80.8%的准确率，超越了ChatGPT；
在MATH数据集上，Q*帮助DeepSeek-Math-7b提升至55.4%的准确率，超越了Gemini Ultra；
在MBPP数据集上，Q*帮助CodeQwen1.5-7b-Chat提升至77.0%的准确率，缩小了与GPT-4的编程水平差距。

网友看到这项工作后一时间炸开了锅，研究命名无疑成为了讨论的一大焦点，网友的评论却很一致：

这就是Q*。

虽然不是那个Q*，但却是真正的Q*：

谁让OpenAI至今不发布任何名为Q*的工作：

抛开命名，从研究本身来讲，有网友看过论文后感叹这项研究真不简单：

越思考，就越觉得Q*的这个方法是正确的。

甚至有网友认为有种AGI的感觉：

那么，Q*到底长啥样？

复杂推理任务全盘规划

总的来说，在《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》这项工作中，研究人员首先将大语言模型的推理轨迹分解为若干个状态，对于每一个状态，参考DeepCubeA中的设计，通过将定义Path Cost的

函数和定义Accumulated Reward的

集成到同一个

函数内，实现了对历史状态收益和未来期望收益的综合考虑。

最后利用A*搜索算法对状态进行最佳优先搜索，实现了对复杂推理任务的全盘规划，从而提升开源模型在推理任务上的性能。

其中

表示当前轨迹中的多个历史状态，即，的聚合收益。

具体的函数形式可以通过人为定义，例如判断当前代码是否符合语法规则等，或者通过构建process reward model进行监督学习得到；中的聚合方式可以为求和、最大值、最小值等。

为了获得状态-动作对

的最优Q值以实现规划，研究人员在当前LLM策略生成的数据上通过监督学习的方式训练了一个代理Q值模型

。

训练过程中的真实标签

可以由三种不同的方式得到，包括离线强化学习，蒙塔卡罗采样估计和利用更强大的语言模型补全。

随后，研究团队通过一系列实验，证实了Q*框架可以显著提升LLM的推理能力。

如开头所述，在GSM8K数据集上，Q*帮助Llama-2-7b提升至80.8%的准确率，超越了ChatGPT；在MATH数据集上，Q*帮助DeepSeek-Math-7b提升至55.4%的准确率，超越了Gemini Ultra; 在MBPP数据集上，Q*帮助CodeQwen1.5-7b-Chat提升至77.0%的准确率，缩小了与GPT-4的编程水平差距。

具体结果见下图：

Q*能够帮助参数量仅为7b的小模型达到参数量比其大数十倍甚至百倍模型的推理能力，大幅提升模型的性能，并显著降低了计算资源的需求。

不过，昆仑万维团队也表示，Q*的研究尚在初级阶段，算法在各个环节还有进一步的改进空间。