OpenAI o1金牌团队揭秘AI超越人类惊人时刻！22分完整版视频全公开

作者：新智元发布时间：2024-09-22

【新智元导读】o1诞生，对于OpenAI团队来说，是最具革命性的时刻。在22分钟完整版采访视频中，他们分享了自己对新模型的思考，以及背后的开发故事。

OpenAI o1团队采访的完整版视频，终于上线了！

&nbsp;

全程22分钟，o1研发团队在项目Bob McGrew组织下，一起分享了「啊哈」时刻。

有的人提到，全新o1模型相当于多个博士「合体」而成，往往比人类表现更好。还有的人称，o1发布之后，明显感受到了AGI到来。

「当模型在数学、编码、围棋、国际象棋等领域的表现超过人类时，AGI的未来变得更加明朗」。

来自艾伦研究所的科学家Nathan Lambert对这个视频，做了一个精彩亮点的总结。

一共有8点：

1 强化学习加持的o1，比人类更善于发现新的CoT推理步骤

2 自我批评的涌现，是o1最强有力的时刻

3 让o1「超时」前完成回答，然后突然有了「啊哈」时刻

4 scaling参数规模的挑战，以及继续沿着强化学习算法进步之路

5 许多人提到，相对于算法而言，基础设施显得多么重要

6 通过规划、纠错，o1能够解决世界上的新问题

7 新的训练范式是一种全新的方法，可以将更多的算力投入到模型中

8 o1编写代码时，当其输出要使用的代码时，需要通过单元测试

接下来，具体来看下o1模型背后的故事。

强化学习+思考，o1开启新范式

o1作为OpenAI全新系列，与GPT模型最大不同，就在于推理。

它本质上，是一个推理模型，也就是会比以往「思考」得更多。

在OpenAI研究人员看来，「思考」就是推理的一种最直观的方式。

有时候，当被问及意大利首都是什么问题时，我们几乎不用思考，即刻就能得出答案。但有时候，涉及商业企划书、写小说等人物时，便需要长时间的思考过程。

毋庸置疑，思考时间越久，结果就越好。

因此，推理是将思考时间，转化为最优结果的能力。

用Mark Chen的话来说，推理是一种「原语」，是实现任何可靠思考过程的必经之路。

关于推理的研究，OpenAI内部其实很早就开始了。成立初期，他们看到了AlphaGo通过RL算法战胜人类的潜力，并进行了大量的研究。

比如，他们曾在2016年开放游戏测试平台「Universe」，是一个训练AI通用智能水平的开源平台。

2018年打造出名为OpenAI Five的游戏AI，成功击败了两届DOTA2国际邀请赛的世界冠军OG战队。

与此同时，数据和机器人领域，取得了重大的scaling进展。

OpenAI团队便开始思考：如何在通用领域做到强化学习，实现一个非常有力的AI？

那便是，GPT系列开启的全新范式。它在扩展无监督学习方面，取得了惊人的成果。

而且，也就是从那时起，研究人员便开始探索，如何将这两种范式相结合——强化学习和无监督学习。

研究人员称，这项努力开始的确切时间点，很难说，但这件事已经进行了很长时间。

「啊哈」时刻

在视频中，有人表示，自己觉得研究中最酷的就是那个「啊哈」时刻了。

在某个特定的时间点，研究发生了意想不到的突破，一切忽然就变得很明了，仿佛顿悟一般灵光乍现。

所以，团队成员们分别经历了怎样的「啊哈」时刻呢？

有人说，他感觉到在训练模型的过程中，有一个关键的时刻，就是当他们投入了比以前更多的算力，首次生成了非常连贯的CoT。

就在这一刻，所有人都惊喜交加：很明显，这个模型跟以前的有着明显的区别。

还有人表示，当考虑到训练一个具备推理能力的模型时，首先会想到的，是让人类记录其思维过程，据此进行训练。

对他来说，啊哈时刻就是当他发现通过强化学习训练模型生成、优化CoT，效果甚至比人类写的CoT还好的那一刻。

这一时刻表明，我们可以通过这种方式扩展和探索模型的推理能力。

这一位研究者说，自己一直在努力提升模型解决数学问题的能力。

让他很沮丧的是，每次生成结果后，模型似乎从不质疑自己做错了什么。

然而，当训练其中一个早期的o1模型时，他们惊奇地发现，模型在数学测试中的得分忽然有了显著提升。

而且，研究者们可以看到模型的研究过程了——它开始自我反思、质疑自己。

他惊叹道：我们终于做出了不一样的东西！

这种感受极其强烈，那一瞬间，仿佛所有东西都汇聚到了一起。

还有一位研究人员表示，当你要求模型在「超时」前，完成思考，过程非常有趣。

这就像自己在参加数学竞赛一样，任何思考都是有时限的。

他表示，这也是自己进入AI领域主要原因，而现在，对于自己来说，也算是实现了「闭环」时刻。

另外，o1模型让人惊艳的是，在推动科学发现和工程进步，有巨大的帮助。

对于很多人而言，AGI似乎是一个很抽象、很遥不可及的概念，直到亲眼看见AI在人类擅长的事情上做得更好，才能相信AGI的到来。

对专业的国际象棋和围棋手而言，IBM的Deep Blue，以及DeepMind AlphaGo和AlphaZero，让他们早在几年前就意识到了这一点。

而对OpenAI的这群擅长数学和编码的科学家，o1模型就有类似的意义。更有趣的是，他们的工作相当于是亲手制造了一个可以碾压自己能力的AI。

项目中，遇到哪些困难？

关于过程中遇到的障碍，研究人员们直接表示，训练LLM从根本上来讲就是一件非常困难的事情。

类似于从地球发射一枚飞往月球的火箭，成功的路只有很窄的一条，但有数不清的失败之路，稍微偏离一个角度就无法到达目标。

训练过程出问题的方式可以有上千种，即使在这群才华横溢的研究科学家们手中，每轮训练也会遇到数百个问题。

此外，随着模型变得越来越智能，比如像o1一样相当于手握几个phd学位的人类，评估也变得越发困难。

有时，他们需要花很长的时间来确定模型做的事情是否正确，而且最后很多常用的行业基准也趋于饱和，需要重新找到适合o1能力的基准测试。

除了模型的开发历程，研究人员们还被问到了自己最喜欢的o1模型用例。

Hyung Won Chung表示，o1可以成为很好的编码助手。

他自己在工作时通常遵循TDD（Test-Driven Development）的开发方式，有了o1的帮助可以免去自己编写单元测试的工作，而是直接指定需求，让模型自动编写。

此外，遇到的报错信息也可以直接扔给o1，虽然有时不能直接解决问题，但它可以比编译器提出一个更好的问题，帮助你解决错误。

Jason Wei则表示，自己经常把o1当成头脑风暴的伙伴，而且可以讨论的问题范围相当之广，大到如何解决一个机器学习问题，小到如何起草一篇博客或推文。

他今年5月撰写的一篇关于LLM评估的博客，就借鉴了o1的意见，比如文章的结构、各种评估基准的优缺点以及行文风格等等方面。

在OpenAI工作是一种什么样的体验？

关于这个问题，很多人都谈到了大家的聪明才智，以及团队氛围的融洽。

比如自己吭哧吭哧调试了一周的代码，被路过的同事瞬间解决了；每天和极其聪明的同事共处，让自己逐渐变得谦卑。

Mark Chen形容「草莓」项目是一个非常「有机」（organic）的项目，因为在专业问题上大家都有自己的看法和主见，都有满怀热情想要推动的想法。

当这些想法聚集在一起，就会迸发出火花，像滚雪球一样越滚越大。

然而，有主见的另一面，就是所有人都很坚持自己的看法，但并不固执。如果看到反驳自己主张的客观结果，他们也会随之改变想法。

更值得赞叹的是，这群绝顶聪明的人，同时也很nice，乐于帮助别人解决问题，同事之间一起吃饭、一起出去玩，让采访中的很多研究者都直言，「在这里工作是非常好的经历」。

o1-mini背后的故事

o1-mini发布的动机是，为更多研究人员提供预算较低，但推理能力依旧很强的模型。

它可以称得上是「推理专家」，比以往OpenAI最佳模型还要聪明。

而且，成本和延迟都非常低。

或许，它可能不一定知道一位名人，以其出生日期，但确具备了如何进行有效推理，和大量智慧的能力。

OpenAI研究人员表示，将进一步改进算法，使之能够媲美最好的小模型。

除此之外，全世界的研究人员一直以来，都在投入更多的计算和硬件，使得模型成本在很长一段时间内，呈指数级下降。

然而，一个缺陷是，我们没有去花费更多时间，寻找一种新的方法扭转局面。

o1新范式，便是我们的发现——推理scaling，也能很好优化算力效率。

做研究的动力是什么？

这批「智慧大脑」能够聚在一起，究竟是什么原因，激励着他们去做研究？

一位研究人员称，一想到自己通过不同方式，让模型实现推理，这个过程简直太迷人了。

还有人表示，「好事多磨」。

o1能够回答如此神速，这是朝着能够长时间思考问题的模型，迈出的第一步。未来，还将需要进行数月、甚至数年的研究，让其迈向下一个征程。

「一想到我们少数人能够产生改变世界的影响，就非常兴奋，有意义」。

最抓人的一点是，新范式解锁了模型以前无法完成的任务，这不仅仅是回答某些查询，而实际上已经通过规划、纠正错误，泛化出新的能力。

甚至，o1能够产生新的知识，对于科学发现来说，这是最令人兴奋的部分。

研究者表示，在短时间内，模型将成为自身发展，越来越强大的贡献者。

最后，当o1负责人问道，「还有什么其他观察值得一提吗」？

Jason Wei分享道，「一个有趣的观察是，每个训练出来的模型都略有不同，有自己的怪癖，就像一件手工艺品。这种独特性为每个模型增添了一丝个性之处」。

参考资料：

https://x.com/OpenAI/status/1837194684428345474

本文来自微信公众号“新智元”，编辑：桃子乔杨，36氪经授权发布。

近期资讯

20个案例透解 |「超级用户」带来四大超级好处：扩散、增长、参与和社群！

在当今竞争激烈的市场中，「超级用户计划」正成为企业增长和品牌忠诚度提升的关键策略。本文深入剖析了超级用户如何为企业带来四大战略优势：扩散、增长、参与和新社群。通过20个生动的案例分析，展示了超级用户在推动品牌传播、加速业绩增长、促进产品创新以及构建活跃社群方面的巨大潜力。

品牌猿 2024-09-19

铁威马推出六款新 NAS，均配第 12 代酷睿处理器 + 双 10GbE 电口

IT之家9月19日消息，除F8SSD标准与Plus版两款八盘位全闪NAS外，铁威马还推出了6款基于英特尔第12代酷睿AlderLake-U处理器并搭载了2个10GbERJ45有线网口的NAS产品。这一批铁威马新品还都配备2根双通道DDR5SO-DIMM插槽，拥有2个M.22280NVMe缓存盘槽，运行TOS6操作系统。

IT之家 2024-09-19

HUAWEI Mate XT非凡大师即将开售｜小艺解锁语音编辑等多种智慧体验

近日，在华为见非凡品牌盛典及鸿蒙智行新品发布会上，HUAWEIMateXT非凡大师全新发布上市，并将于9月20日10：08正式开售，备受消费者关注。

砍柴网 2024-09-19

刚刚，南海绽放“金葵花”：两项“大国重器”同日投产

据介绍，亚洲首艘圆筒型FPSO“海葵一号”和亚洲第一深水导管架平台“海基二号”两个“大国重器”同步投产。

光明网 2024-09-19

实拍C919飞机首次飞抵西藏拉萨

9月19日，据人民日报消息，一架C919飞机首次飞抵西藏拉萨贡嘎国际机场，与正在进行演示飞行的ARJ21飞机相聚在“世界屋脊”青藏高原。此次C919飞机飞抵拉萨，将开展环控、航电动力装置等高高原运行关键系统的研发试飞，以及高高原机场适应性检查，为后续满足高高原航线运行需求和高原型研发奠定基础。

千龙网 2024-09-19

小米 Redmi Note 14 Pro+新配色「镜瓷白」亮相：后置三摄、曲面边框

小米RedmiNote14系列手机即将发布，官方宣布将于下周正式亮相。根据此前的预热信息，该系列手机将主打抗摔、防水和服务保障三大亮点。RedmiNote14Pro+手机采用镜瓷白配色，配备了三摄后置摄像头，并采用曲面设计边框和四曲背部设计，预计会带来出色的握持手感。

中关村在线 2024-09-19

南航首架C919飞机商业首航完成

：9月19日，中国南方航空编号为B-919J的首架C919飞机正式迈入商业运营新阶段。12:11，这架飞机从广州白云国际机场起飞，执行CZ3539航班前往上海虹桥国际机场。

金融界 2024-09-19

Hanni 2024-09-19

OpenAI o1金牌团队揭秘AI超越人类惊人时刻！22分完整版视频全公开

强化学习+思考，o1开启新范式

「啊哈」时刻

项目中，遇到哪些困难？

在OpenAI工作是一种什么样的体验？

o1-mini背后的故事

做研究的动力是什么？

推荐体验

相关资讯

MKBHD采访Sora幕后团队16分钟完整版 | 钛媒体AGI

【20分钟完整版】OpenAI CEO Sam Altman MIT访谈

赶紧收藏｜ChatGPT注册教程（完整版）

极速大　发　技巧口诀表完整版

小白也能做的Ai绘画个性海报（完整版）

近期资讯

20个案例透解 |「超级用户」带来四大超级好处：扩散、增长、参与和社群！

铁威马推出六款新 NAS，均配第 12 代酷睿处理器 + 双 10GbE 电口

HUAWEI Mate XT非凡大师即将开售｜小艺解锁语音编辑等多种智慧体验

刚刚，南海绽放“金葵花”：两项“大国重器”同日投产

实拍C919飞机首次飞抵西藏拉萨

小米 Redmi Note 14 Pro+新配色「镜瓷白」亮相：后置三摄、曲面边框

南航首架C919飞机商业首航完成

人工智能+教育：弘成教育探索教育数字化新范式

刚换部门，如何快速提升自己对业务的了解度？

为计划而做的市场分析为什么没人看？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响