一声炸雷，OpenAI o1模型突然上线

作者：腾讯研究院发布时间：2024-10-16

OpenAI

本文转载自公众号“新智元”

OpenAI最强的o1系列模型忽然上线。毫无预警地，OpenAI就扔出这一声炸雷。

传说中两周内就要上线的草莓模型，居然两天内就来了。‍

从今天开始，o1-preview在ChatGPT中会向所有Plus和Team用户推出，并且在API中向tier 5开发者推出。

同时，OpenAI还发布了o1-mini——一种经济高效的推理模型，非常擅长STEM，尤其是数学和编码。

o1模型仍存在缺陷、局限性，它在首次使用时比长期使用，更令人印象深刻

全新的o1系列，在复杂推理上的性能又提升到了一个全新级别，可以说拥有了真正的通用推理能力。

在一系列基准测试中，o1相比GPT-4o再次有了巨大提升，具有了奥数金牌能力，在物理、生物、化学问题的基准测试中，直接超过了人类博士水平。‍

OpenAI研究员Jason Wei表示，o1-mini是自己过去一年看到的最令人惊讶的研究成果。一个小模型，居然在AIME数学竞赛中获得了高于60%的成绩。

不过，从OpenAI文章中的附录来看，这次放出的preview和mini似乎都只是o1的“阉割版”。

推理Scaling新范式开启‍‍‍‍‍‍‍‍

英伟达高级科学家Jim Fan对o1模型背后原理做了进一步解析。

他表示，推理时间Scaling新范式正在大范围普及和部署。正如Sutton在“苦涩的教训”中所言，只有两种技术可以无限scaling计算能力：学习和搜索。

现在，是时候将重点转向后者了。

1. 进行推理不需要巨大的模型。

2. 大量计算从预训练/后训练，转移到推理服务

3. OpenAI一定很早就发现了推理scaling法则，而学术界最近才开始发现

4. 将o1投入实际应用中，比在学术基准测试中取得好成绩要困难得多

5. Strawberry很容易成为一个数据飞轮

以OpenAI此前划分等级来看，o1已经实现了L2级别的推理能力。

有人测试后发现，o1成功写出一首非常难的诗，在这过程中，成功完成这项任务所需要的计划和思考是疯狂的，而且推理时间计算非常酷。

不过，AI大牛Karpathy测试o1-mini后吐槽道，“它一直拒绝为我解决黎曼假说。模型懒惰仍是一个主要问题，真可悲”。

还有NYU助理教授谢赛宁上手测试了“9.11和9.8谁大”的经典问题，没想到o1-preview依旧答错了。

“strawberry有多少r”这个经典难题，对o1来说自然是不在话下。

大V Mattew Sabia表示，最可怕的是，GPT-5还要比o1模型更强大69倍。而普通人，根本不理解大象的推理和逻辑能力。

人类真的准备好了吗？

绕晕人类的逻辑推理难题，o1解决了

我们都知道，逻辑推理对于以往的LLM来说，是很难跨越的高山。

但这一次，o1模型展现出的解决复杂逻辑难题的能力，让人惊讶。

比如下面这道逻辑题——

公主的年龄等于王子在未来某个时候的年龄，届时公主的年龄将是王子过去某个时候年龄的两倍；而在过去那个时候，公主的年龄是他们现在年龄总和的一半。问公主和王子现在各自的年龄是多少？请提供这个问题的所有解。

这道题极其拗口，即使对于人类来说，想要正确地翻译、理解题义，都会花费好大的功夫。

令人震惊的是，o1模型在经过一些步骤的思索后，竟然给出了正确答案。‍

它通过定义变量、理解问题、解决方程等步骤，得出：公主的年龄为8k岁，王子的年龄为6k岁，其中k为正整数。

在另一个demo中，Jason Wei向我们展示了，o1是如何根据提示，就编写了一个视频游戏。

可以看到，他把提示复制到了o1模型中。

随后，模型思考了21秒，将整个思考的步骤都展示了出来。

随后，模型随后给出了代码。

运行代码后，果然是一个非常流畅的小游戏！

甚至，我们扔给o1一串乱七八糟不知所云的韩语句子，要求它翻译成英语，它竟然也做到了。

因为，虽然句子文法不通，o1却依然一步一步对它解码。

最终，o1给出了答案，还幽默地表示：地球上没有翻译器能做到，但韩国人却很容易识别，这是一种通过元音和辅音的各种变换，来加密韩语的方法。

而相比之下，GPT-4o完全被绕晕了，无法理解。

可以看出，o1表现出的超强性能，将逻辑推理又提高到了一个新的级别。

它是怎么做到的？

强化学习立功，

大模型AlphaGo时刻来临‍‍‍‍‍‍‍

o1系列模型与以往不同的是，它在回答问题之前，会用更多时间去“思考问题”，就像人类一样。

通过训练，它们学会完善思维过程，尝试不同策略，并自主识别错误。

这背后，是强悍的强化学习算法立了大功。想当年，AlphaGo战胜人类棋手，背后就是用的是RL算法。

它通过高度数据完成了高效的训练，并教会LLM使用CoT进行富有成效的思考。

提出CoT的背后开发者、OpenAI研究员Jason Wei表示，o1不是纯粹地通过提示完成CoT，而是使用RL训练模型，最终更好地执行链式思考。

而且，OpenAI团队还发现模型中的Scaling Law中的新定律。

o1的性能，随着更多的强化学习（训练时间计算）和更多的思考时间（测试时间计算）投入，性能不断提高。

这一方法，在Scaling时的限制，和LLM预训练的限制，大不相同。

o1的性能随着训练阶段和测试阶段计算量的增加而平稳提升

OpenAI还放出了o1模型背后团队的最新采访视频，接下来一睹为快：

已关注

关注

重播分享赞

关闭

观看更多

退出全屏

视频加载失败，请刷新页面再试

团队完整名单如下：

生化物理，

超越人类博士水平‍‍‍‍‍‍‍

作为OpenAI开创的新系列模型，o1究竟强在哪？

在竞赛编程问题（Codeforces）中排名前89%；在美国奥数竞赛预选赛（AIME），位列前500名学生之列。

最重要的是，它在物理、生物、化学问题的基准测试中（GPQA），超过了人类博士水平。

在推理常用的MATH、GSM8K等基准测试上，o1和最近很多的前沿模型已经达到了饱和表现，很难有区分度，因此OpenAI主要选择了AIME评估模型的数学和推理能力，以及其他人类考试和基准测试。

AIME旨在挑战美国最优秀的高中学生的数学能力，在2024年的AIME考试中，GPT-4o平均仅解决了12%（1.8/15）的题目。

但o1的提升相当显著，平均解决了74%（11.1/15）的题目，在64个样本中进行多数投票时达到了83%（12.5/15）。如果使用打分函数并重新排序1000个样本，准确率甚至达到了93%（13.9/15）。

13.9的得分，意味着o1的水平达到了全国前500名学生之列，并超过了美国数学奥赛的入围分数。

在Codeforces、GPQA Diamond这种有挑战性的任务上，o1远远超过了GPT-4o。

在具有挑战性的推理基准测试中，o1大幅超越了GPT-4o

GPQA Diamond测试的是化学、物理和生物学领域的专业知识。为了将模型与人类进行比较，团队招募了拥有博士学位的专家来回答其中的问题。

结果是，o1的表现（78.0）超过了这些人类专家（69.7），成为第一个在此基准测试中超越人类的模型。

然而，这个结果并不意味着o1在所有方面都强于拥有博士学位的人类，仅仅表明它能更熟练地解决一些相应水平的问题。

此外，在MATH、MMLU、MathVista等基准测试中，o1也刷新了SOTA。

启用视觉感知能力后，o1在MMMU上取得了78.1%的成绩，成为第一个能与人类专家竞争的模型，在57个MMLU子类别中，有54个类别超过了GPT-4o。

o1在广泛的基准测试中优于GPT-4o，包括54/57个MMLU子类

思维链

通过强化学习，o1学会了识别并纠正自己的错误，并将复杂的步骤分解为更简单的步骤。

在当前方法不起作用时，它还会尝试不同的方法。这个过程显著提高了模型的推理能力。

举个密码学的例子。

题面是：「Think step by step」经过加密之后对应的是「oyfjdnisdr rtqwainr acxz mynzbhhx」，问「oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz」的意思是什么。

可以看到，GPT-4o对这种题目完全是束手无策。

而o1则根据已知信息推理出了加密计算的方法，并最终给出了正确答案——THERE ARE THREE R'S IN STRAWBERRY。

GPT-4o

o1-preview

编程

在这项评测中，OpenAI基于o1进一步训练出了一个编程加强版模型。

在2024年国际信息学奥林匹克竞赛（IOI）中，新模型获得了213分，排名在49%的位置上。

过程中，模型有十个小时来解决六个具有挑战性的算法问题，每个问题允许提交50次。

而在放宽提交限制的情况下，模型的性能可以获得显著提升。当每个问题允许1万次提交时，模型达到了362.14分——超过了金牌的门槛。

最后，OpenAI还模拟了由Codeforces举办的竞技编程比赛——严格遵循规则，并允许10次提交。

GPT-4o的Elo评分为808，位于人类选手11%的位置。而新模型则远远超过了GPT-4o和o1，达到了1807的高分，表现优于93%的选手。

在编程竞赛上进一步微调提升了o1：经过改进的模型在2024年国际信息学奥林匹克竞赛中，在比赛规则下排名在第49百分位

人类偏好评估

除了考试和学术基准测试之外，OpenAI还评估了人类对o1-preview与GPT-4o在广泛领域内具有挑战性、开放性提示词上的偏好。

在此评估中，人类会看到o1-preview和GPT-4o对提示词的匿名响应，并投票选择他们更喜欢哪个响应。

在数据分析、编程和数学等重推理的类别中，人们更倾向于选择o1-preview。但在一些自然语言任务中，GPT-4o更胜一筹。

也就是说，o1-preview目前并不适合所有的使用场景。

在推理能力更重要的领域，人们更倾向于选择o1-preview

o1-mini性价比极高

为了给开发人员提供更高效的解决方案，OpenAI发布了o1-mini——一种更快、更便宜的推理模型。

作为一种较小的模型，o1-mini比o1-preview便宜80%。

这对于需要推理，但不需要通用世界知识的应用程序来说，它是一种功能强大、性价比高的模型。

不过，目前的o1系列依然处在早期，诸如网络插件、长传文件、图片等能力，还未集成。在短期内，GPT-4o仍是最强的实力选手。

原文链接：

https://mp.weixin.qq.com/s/xbSEvWCkanMWTGeIv5m--w

参考资料：

https://openai.com/index/learning-to-reason-with-llms/

👇 点个“在看”分享洞见

近期资讯

世界都市生活加速趋同但分歧的拉锯战还在继续

尽管文化背景各异，但从打车软件到外卖平台，这些数字化习惯正在以惊人的速度趋同。不过，这种生活上的一致并未消解深层次的世界观和价值观的差异，世界大同的梦想依然很遥远。

第一财经 2024-12-31

中航光电获得实用新型专利授权：“一种水下接线盒组件”

证券之星消息，根据天眼查APP数据显示中航光电（002179）新获得一项实用新型专利授权，专利名为“一种水下接线盒组件”，专利申请号为CN202323587430.1，授权日为2024年12月31日。

证券之星 2024-12-31

腾讯研究院AI速递 20241231

3.英伟达通过AI训练软件、仿真环境和JetsonThor处理器，推动机器人技术发展并支持行业商业化。3.AI视频生成技术竞争升级，PixVerse凭借速度与质量优势，成为市场中性价比高的优选，推动技术普及。3.资本市场对AI领域热情高涨，各类AI初创公司和大厂在融资中表现突出。

腾讯研究院 2024-12-31

华为，突然降价！

研究机构Canalys称，2024年三季度，华为通过首款三折叠机型MateXT的发布进一步强化其技术领导者的形象，并且Pura70系列热度在发布的第二个季度得以延续。

新闻夜航 2024-12-31

华为鸿蒙 NEXT 系统“超级终端”新增适配部分 Sound 系列音箱

IT之家12月31日消息，华为鸿蒙HarmonyOSNEXT（5.0）系统于今年10月正式发布，新系统采用全新交互设计，支持跨设备互通扫描、互通图库、跨设备剪贴板、应用内视频投播等功能。与手机、平板通过蓝牙配对连接。1，进入智慧生活应用，按照音箱的操作指导音箱的配网动作。

IT之家 2024-12-31

一场化工AI大赛，点亮行业智能化的星星之火

行业智能化，高度依赖于人才的创造力，今天已经是全社会的共识。以化工为例，大量问题和智能化需求，都是在矿山、油田、工厂里萌发的，老师和学生平时在“象牙塔”中，很少有机会接触到真实的产业难题，更别提把AI工具应用到场景中去解题了。而化工企业，又面临招人留人难，急缺智能化创新人才，迟迟难以推动AI在行业中规模化落地。

脑极体 2024-12-31

性价比iPhone也要涨价！苹果iPhone SE 4售价曝光：定价超3600元

快科技12月31日消息，据爆料，苹果明年上半年将推出iPhoneSE4。消息称iPhoneSE4价格涨至499美元（约合人民币3642元），相比之下，iPhoneSE3的起售价是429美元，两者相差70美元。据悉，iPhoneSE4涨价的主要原因在于硬件配置的升级，该机升级了屏幕、性能、内存、影像等等，对比上代升级幅度明显。

快科技 2024-12-31

印度警方用鸟拦截无人机

据《印度快报》29日报道，印度特伦甘纳邦的警方已开始使用鸟类拦截无人机。作为特伦甘纳邦警察部门的最新成员，一支包括鹰和鸢在内的反无人机“五鸟小队”已投入部署。一旦发现空中有入侵者，小队的驯鸟人员就会放出一只鹰，从空中抓走这架无人机，就像抓捕猎物一样，而小队中的鸢主要通过携带的摄像头执行空中监视任务。

环球时报 2024-12-31

印度空间研究组织（ISRO）：成功完成太空对接任务发射

印度空间研究组织（ISRO）宣布成功完成太空对接任务发射。

金融界 2024-12-31

MLED技术开启显示行业新纪元，消费新场景即将展开

随着科技的飞速发展，MLED（MiniLED和MicroLED的统称）技术以其卓越的显示性能，正在重塑我们对视觉体验的期待。传统LED显示屏多应用于户外，而MLED技术的成熟、成本的降低，正带领LED显示屏进入商业甚至消费级市场，从高端显示屏、广告屏幕，再到直显电视，MLED的身影无处不在。

华夏时报 2024-12-31

一声炸雷，OpenAI o1模型突然上线

推荐体验

相关资讯