当前位置:首页|资讯

揭秘OpenAI新模型核心技术:打败围棋冠军的AlphaGo用过,华人科学家起关键作用

作者:搜狐科技发布时间:2024-09-13

出品 | 搜狐科技

作者 | 梁昌均

更强、更慢、更贵,这是OpenAI最新推出的新模型o1的核心特征。

更强主要体现在推理能力,完全吊打GPT-4o,并在部分复杂任务表现上超出人类专家,o1因此也被定义为推理模型。

这样的能力从表象来看,是因为模型学会了慢思考。如同人一样,当深思熟虑后,得到的结果往往就会更好。

模型思考的时间越长,处理复杂推理的能力就越强。而o1预览版模型成本比GPT-4o贵三四倍,一改OpenAI此前模型越做越便宜的趋势。

o1模型的推出,意味着OpenAI提出新的研究范式,这为大模型打破技术瓶颈提供了一个新路径,而背后也离不开诸多华人科学家的助力。

Scaling Law依然有效,GPT-5将融入推理技术

o1模型更强的推理能力主要得益于强化学习+思维链的创新算法,两者缺一不可。

关注技术的人,对强化学习(Reinforcement Learning,RL)不会感到陌生。早在几年前,谷歌旗下的AI机器人AlphaGo先后打败李世石和柯洁等围棋冠军,背后正有强化学习的威力。

强化学习之父Richard Sutton对强化学习的定义是,通过试错学习如何最佳地匹配状态和动作,以期获得最大的回报,本质是实现自动决策。

OpenAI在研发GPT系列大模型中也采用了强化学习算法,准确来说是人类反馈强化学习(RLHF),模型通过外界反馈,持续优化算法,从而进行自我调整。这也正是很多模型会在第二次追问下会说之前回答有误的原因。

o1模型更关键的是把强化学习和思维链(Chain of Thought,CoT)进行结合。简单来说,思维链是在模型做出决策前,形成中间的推理步骤,可以让模型逐步分解复杂问题,借此提升大模型的性能,比如数学、推理能力等。

它让模型从传统的 input—output的方式,转变成input—reasoning chain—output,可以提高模型在复杂推理任务上的表现。

正如OpenAI所展示的o1模型的评测效果,强化学习和思维链的结合,使得模型可以完善自己的思维过程,不仅能将复杂问题进行分解,还具备自我检查的能力,识别纠正出现的错误,而且能在推理路径出错时调试其它策略,类似人在解决复杂问题时的思考过程。

因此,o1模型也需要更长的思考时间进行响应。在OpenAI的一项单词推理测试中,o1-preview响应时间达32秒,而GPT-4o仅需3秒。

“模型花在思考上的时间越多,处理复杂推理的能力就越好。这使得我们不再受预训练范式的限制,可以通过推理计算进行扩展,为功能和对齐开辟新的可能性。”OpenAI CTO Mira Murati表示。

同时,她认为,思维链通过使模型的推理透明并使它能够主动推理安全规则,从而使其在意外或新情况中更具弹性,为AI安全和对齐研究的进步提供了新的机会。

当然,响应时间越长,模型所需的算力消耗可能也会更多。思维链允许模型将多步问题分解为中间步骤,这意味着需将额外的计算分配给需要更多推理步骤的问题,这或许正是o1模型定价更贵的原因之一。

OpenAI还在研究中发现,随着强化学习计算量的增加,以及模型思考时间的延长,o1的性能会不断提高。这意味着,此前遭遇质疑的Scaling Law依然有效,只不过对数据的依赖降低。这很大程度上是因为,思维链并不需要大量的预训练数据集。

“o1的训练方式与之前的大模型有着根本性的不同。”OpenAI研究负责人Jerry Tworek 解释称。该公司并未对o1模型训练细节进行说明,据称采用了量身定制的新训练数据集。

英伟达的高级科学家Jim Fan认为,模型不仅仅拥有训练时的Scaling law,还拥有推理层面的Scaling law,双曲线的共同增长,将突破大模型能力的提升瓶颈。

“此前没人能将 AlphaGo的成功复制到大模型上,使用更多的计算让模型走向超人的能力。目前,我们已经翻过这一页了。”Jim Fan表示。

Murati表示,大语言模型将会拥有两种研发范式,一种是传统的扩展范式,另一种就是这种推理新范式,OpenAI希望能把二者合而为一。

推理被视为大模型的核心能力,但此前国内外大模型表现均不佳。不过,o1模型的实际推理能力也面临质疑,复旦大学教授张奇就认为其依然不具备真正的推理能力。

Murati透露,OpenAI目前正在着力构建下一代规模更大的模型GPT-5,也将融入此次发布的推理技术。

思维链论文预测落地,提出者是华人

在OpenAI发布o1模型后,该模型部分核心研发成员接受了简短采访。搜狐科技注意到,这些成员中至少出现了5位华人面孔。

他们分享了研发新模型过程中的“AplhaGo”时刻。华人研究员Hyung Won Chung表示,o1模型就像人想解决一个复杂的问题,或写一个商业计划、小说,需要思考一段时间。“思考得越多,结果就越好,推理就是将思考转化为更好的结果的能力。”

Hyung Won Chung曾在谷歌大脑工作,参与过5400亿参数的大型语言模型PaLM等研发,他在去年7月加入OpenAI。

多位研究员都提到了推理模型思维链的重要性。“当我们看到使用RL训练模型生成并完善自己的思维链时,它可以做得比人类更好,这是真正可以扩展模型的推理能力的方式。”

聚焦让模型更好解决数学问题的研究员则表示,此前一直对模型的输出感到很组沮丧,因为其不会质疑哪里出了问题,或者何时犯了错误。

“01模型可以使得我们能观察它的推理过程,可以看到它开始质疑自己,并进行非常有趣的反思。这是新的东西,是一个真正有意义的时刻。”

值得注意的是,在OpenAI发布的o1模型团队名单中,还有不少华人面孔,其中包括了思维链的提出者Jason Wei,他在2023年2月加入OpenAI,此前曾在谷歌大脑担任研究科学家。

2022年的谷歌团队发表的一篇论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》,首次提出思维链,Jason Wei是第一作者。他还和Jeff Dean 等人合著了大模型涌现能力的论文,并参与过GPT-4的研究。

这篇思维链的论文,通过实验验证了思维链能够显著提高大型语言模型在数学、常识和符号推理等任务上的表现,并比传统的提示方法具有更强的泛化能力和更小的数据需求。

同时,该论文还预测,随着模型规模的不断扩大,思维链可能会成为一种更加普遍和有效的方法,用于增强模型的推理能力,并可以考虑和其它技术结合使用,以进一步提高模型的性能和效率。

如今来看,Jason Wei的论文中的思想落在了o1模型上。“o1不是纯粹地通过提示完成思维链,而是使用强化学习训练模型,最终更好地执行链式思考。”

此外,o1模型研究团队华人成员至少还包括Hongyu Ren、Kevin Yu、Shengjia Zhao、Wenda Zhou、Francis Song、Mark Chen等,安全团队有Jieqi Yu、Kai Xiao、Lilian Weng等,基本都毕业于北大、清华、复旦、哈佛、斯坦福、麻省理工等名校。

其中Mark Chen和Lilian Weng已是OpenAI的核心主管。Mark Chen从2018年起加入OpenAI时就开始担任前沿研究主管,专注于多模态建模和推理研究,领导了创建该公司图像产品DALL·E的团队,以及将视觉感知融入GPT-4的团队。

在去年OpenAI的内斗风波中,Mark Chen与另外两名同事担任了领导层和员工之间的联络人,传达了员工支持奥特曼的联名信。

本科毕业于北大的Lilian Weng现任OpenAI安全系统负责人,2018年加入任研究科学家,当时专注于训练机器人任务的算法,目前同时管理专注于长期和短期AI安全的团队。

值得关注的是,OpenAI前首席科学家Ilya Sutskever也出现了名单中,其在今年5月离职创业。他新成立的公司SSI安全超级智能刚完成10亿美元的融资,估值达到50亿美元。

可以说,华人正在成为OpenAI发展的重要一股力量。GPT-4背后有三十余位华人,GPT-4o mini团队的9位负责人中有5位是华人,Sora的13人研发团队也有4位华人。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1