揭秘OpenAI新模型核心技术:打败围棋冠军的AlphaGo用过,华人科学家起关键作用

作者：搜狐科技发布时间：2024-09-13

出品 | 搜狐科技

作者 | 梁昌均

更强、更慢、更贵，这是OpenAI最新推出的新模型o1的核心特征。

更强主要体现在推理能力，完全吊打GPT-4o，并在部分复杂任务表现上超出人类专家，o1因此也被定义为推理模型。

这样的能力从表象来看，是因为模型学会了慢思考。如同人一样，当深思熟虑后，得到的结果往往就会更好。

模型思考的时间越长，处理复杂推理的能力就越强。而o1预览版模型成本比GPT-4o贵三四倍，一改OpenAI此前模型越做越便宜的趋势。

o1模型的推出，意味着OpenAI提出新的研究范式，这为大模型打破技术瓶颈提供了一个新路径，而背后也离不开诸多华人科学家的助力。

Scaling Law依然有效，GPT-5将融入推理技术

o1模型更强的推理能力主要得益于强化学习+思维链的创新算法，两者缺一不可。

关注技术的人，对强化学习（Reinforcement Learning，RL）不会感到陌生。早在几年前，谷歌旗下的AI机器人AlphaGo先后打败李世石和柯洁等围棋冠军，背后正有强化学习的威力。

强化学习之父Richard Sutton对强化学习的定义是，通过试错学习如何最佳地匹配状态和动作，以期获得最大的回报，本质是实现自动决策。

OpenAI在研发GPT系列大模型中也采用了强化学习算法，准确来说是人类反馈强化学习（RLHF），模型通过外界反馈，持续优化算法，从而进行自我调整。这也正是很多模型会在第二次追问下会说之前回答有误的原因。

o1模型更关键的是把强化学习和思维链（Chain of Thought，CoT）进行结合。简单来说，思维链是在模型做出决策前，形成中间的推理步骤，可以让模型逐步分解复杂问题，借此提升大模型的性能，比如数学、推理能力等。

它让模型从传统的 input—output的方式，转变成input—reasoning chain—output，可以提高模型在复杂推理任务上的表现。

正如OpenAI所展示的o1模型的评测效果，强化学习和思维链的结合，使得模型可以完善自己的思维过程，不仅能将复杂问题进行分解，还具备自我检查的能力，识别纠正出现的错误，而且能在推理路径出错时调试其它策略，类似人在解决复杂问题时的思考过程。

因此，o1模型也需要更长的思考时间进行响应。在OpenAI的一项单词推理测试中，o1-preview响应时间达32秒，而GPT-4o仅需3秒。

“模型花在思考上的时间越多，处理复杂推理的能力就越好。这使得我们不再受预训练范式的限制，可以通过推理计算进行扩展，为功能和对齐开辟新的可能性。”OpenAI CTO Mira Murati表示。

同时，她认为，思维链通过使模型的推理透明并使它能够主动推理安全规则，从而使其在意外或新情况中更具弹性，为AI安全和对齐研究的进步提供了新的机会。

当然，响应时间越长，模型所需的算力消耗可能也会更多。思维链允许模型将多步问题分解为中间步骤，这意味着需将额外的计算分配给需要更多推理步骤的问题，这或许正是o1模型定价更贵的原因之一。

OpenAI还在研究中发现，随着强化学习计算量的增加，以及模型思考时间的延长，o1的性能会不断提高。这意味着，此前遭遇质疑的Scaling Law依然有效，只不过对数据的依赖降低。这很大程度上是因为，思维链并不需要大量的预训练数据集。

“o1的训练方式与之前的大模型有着根本性的不同。”OpenAI研究负责人Jerry Tworek 解释称。该公司并未对o1模型训练细节进行说明，据称采用了量身定制的新训练数据集。

英伟达的高级科学家Jim Fan认为，模型不仅仅拥有训练时的Scaling law，还拥有推理层面的Scaling law，双曲线的共同增长，将突破大模型能力的提升瓶颈。

“此前没人能将 AlphaGo的成功复制到大模型上，使用更多的计算让模型走向超人的能力。目前，我们已经翻过这一页了。”Jim Fan表示。

Murati表示，大语言模型将会拥有两种研发范式，一种是传统的扩展范式，另一种就是这种推理新范式，OpenAI希望能把二者合而为一。

推理被视为大模型的核心能力，但此前国内外大模型表现均不佳。不过，o1模型的实际推理能力也面临质疑，复旦大学教授张奇就认为其依然不具备真正的推理能力。

Murati透露，OpenAI目前正在着力构建下一代规模更大的模型GPT-5，也将融入此次发布的推理技术。

思维链论文预测落地，提出者是华人

在OpenAI发布o1模型后，该模型部分核心研发成员接受了简短采访。搜狐科技注意到，这些成员中至少出现了5位华人面孔。

他们分享了研发新模型过程中的“AplhaGo”时刻。华人研究员Hyung Won Chung表示，o1模型就像人想解决一个复杂的问题，或写一个商业计划、小说，需要思考一段时间。“思考得越多，结果就越好，推理就是将思考转化为更好的结果的能力。”

Hyung Won Chung曾在谷歌大脑工作，参与过5400亿参数的大型语言模型PaLM等研发，他在去年7月加入OpenAI。

多位研究员都提到了推理模型思维链的重要性。“当我们看到使用RL训练模型生成并完善自己的思维链时，它可以做得比人类更好，这是真正可以扩展模型的推理能力的方式。”

聚焦让模型更好解决数学问题的研究员则表示，此前一直对模型的输出感到很组沮丧，因为其不会质疑哪里出了问题，或者何时犯了错误。

“01模型可以使得我们能观察它的推理过程，可以看到它开始质疑自己，并进行非常有趣的反思。这是新的东西，是一个真正有意义的时刻。”

值得注意的是，在OpenAI发布的o1模型团队名单中，还有不少华人面孔，其中包括了思维链的提出者Jason Wei，他在2023年2月加入OpenAI，此前曾在谷歌大脑担任研究科学家。

2022年的谷歌团队发表的一篇论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》，首次提出思维链，Jason Wei是第一作者。他还和Jeff Dean 等人合著了大模型涌现能力的论文，并参与过GPT-4的研究。

这篇思维链的论文，通过实验验证了思维链能够显著提高大型语言模型在数学、常识和符号推理等任务上的表现，并比传统的提示方法具有更强的泛化能力和更小的数据需求。

同时，该论文还预测，随着模型规模的不断扩大，思维链可能会成为一种更加普遍和有效的方法，用于增强模型的推理能力，并可以考虑和其它技术结合使用，以进一步提高模型的性能和效率。

如今来看，Jason Wei的论文中的思想落在了o1模型上。“o1不是纯粹地通过提示完成思维链，而是使用强化学习训练模型，最终更好地执行链式思考。”

此外，o1模型研究团队华人成员至少还包括Hongyu Ren、Kevin Yu、Shengjia Zhao、Wenda Zhou、Francis Song、Mark Chen等，安全团队有Jieqi Yu、Kai Xiao、Lilian Weng等，基本都毕业于北大、清华、复旦、哈佛、斯坦福、麻省理工等名校。

其中Mark Chen和Lilian Weng已是OpenAI的核心主管。Mark Chen从2018年起加入OpenAI时就开始担任前沿研究主管，专注于多模态建模和推理研究，领导了创建该公司图像产品DALL·E的团队，以及将视觉感知融入GPT-4的团队。

在去年OpenAI的内斗风波中，Mark Chen与另外两名同事担任了领导层和员工之间的联络人，传达了员工支持奥特曼的联名信。

本科毕业于北大的Lilian Weng现任OpenAI安全系统负责人，2018年加入任研究科学家，当时专注于训练机器人任务的算法，目前同时管理专注于长期和短期AI安全的团队。

值得关注的是，OpenAI前首席科学家Ilya Sutskever也出现了名单中，其在今年5月离职创业。他新成立的公司SSI安全超级智能刚完成10亿美元的融资，估值达到50亿美元。

可以说，华人正在成为OpenAI发展的重要一股力量。GPT-4背后有三十余位华人，GPT-4o mini团队的9位负责人中有5位是华人，Sora的13人研发团队也有4位华人。