OpenAI发布o3系列模型“剑指”AGI 北大毕业生打造

作者：新京报发布时间：2024-12-21

12月21日，OpenAI连续12个工作日的直播发布活动正式收官，与第一天发布正式版o1模型相对应的是，最后一天OpenAI首席执行官山姆·奥特曼推出了该公司的下一代大模型并将其命名为o3，o3在一系列测试中的表现超过了o1，并在一项关于通往AGI（通用人工智能）的测试中表现优异。

不过，同今年年中发布o1预览版时相同，山姆·奥特曼坦言o1仍然需要进行安全测试，并没有公开具体的对外界开放的日程表。取而代之的是o3-mini（即迷你版本）会在明年1月底发布。值得注意的是，o3-mini的训练者是北大计算机系毕业，后在斯坦福获得博士学位的任泓宇。

总体来看，本次OpenAI持续约两周的发布活动算得上“量大管饱”，包括正式版本o1、Sora的“千呼万唤始出来”，也包括下一代模型o3的推出，中间还夹杂了一系列针对开发者、具体产品以及算法技术上的更新升级。但发布内容虽多，却并未再现像上半年视频模型Sora和多模态模型GPT-4o推出时那样带给业界的震撼，尤其是不少用户在使用过正式发布的Sora后发现该产品仍然存在较多缺陷，并非明显优于国内视频模型。这或许说明OpenAI虽然仍是AI大模型领域的佼佼者，但已并非望尘莫及。

o3大模型现身 Arc AGI测试题得分超过人类阈值

从左至右分别为Arc Prize基金会主席Greg Camerad、OpenAI研究主管Mark Chen、OpenAI首席执行官山姆·奥特曼。

本次OpenAI的“收官”直播，山姆·奥特曼与OpenAI高级副总裁、研究主管Mark Chen担任主持人，另外还有两位解说嘉宾分两次上场。

在“上半场”，Mark首先介绍了o3大模型的能力：在一项由现实世界软件任务组成的基准测试中，o3得分71.7，超过了得分48.9的o1和得分41.3的o1 preview（预览版）。而在一项名为Elo的竞争性编程能力测评上，o3取得了2727分，o1评分1891，o1 preview评分1258，o3的性能已经达到了o1 preview的两倍多。而在数学基准测试中o3的得分为96.7，也超过了前两者的83.3分和56.7分，“这表示我们正在攀登实用性的前沿。”Mark说。

作为对比，Mark本人就是计算机专家，他还曾指导过类似的编程竞赛，但他本人在编程测评上的最好成绩约为2500分，这一点上他被o3击败了。不过他在数学竞赛上的最高分是满分，这一点上o3仍然无法达到人类顶尖水平。“这么说，我就安全了。”山姆·奥特曼对此打趣道。

事实上，在OpenAI的最后一场直播之前，有很多网友猜测其是否能够再次震撼业界，如推出一款通往AGI的跨时代产品。而第一位嘉宾——Arc Prize基金会主席Greg Camerad的出场证实了网友的猜测方向。

Arc Prize是一个非营利性组织，其推出了“通用人工智能抽象和推理语料库”（ARC-AGI）基准，来衡量AI在获取在未知任务上的效率，该组织为AGI所下的定义为：一个可以在其训练数据之外有效地获得新技能的系统。

Greg Camerad表示，该组织的测试题旨在验证大模型在通往AGI方向上的水平，目前o3取得了该组织经验证过的最高分：在低算力配置下，其准确率达到75.7%，高算力下的表现提升至87.5%，而人类平均水平的阈值为85%，这意味着o3在该项测评中的表现已经达到了人类水平，这是一个重要的里程碑，而在o3达到这一水平之前，该测试题已经5年未被攻克。

不过，ARC Prize组织方面也表示，这并不代表已经实现了AGI，因为o3在某些简单任务上仍有失误，该组织会继续举办大奖赛，直到出现一个取得85%成绩的高效开源解决方案。根据ARC Prize组织透露的数据，高算力下的o3模型执行每个任务的消耗高达1000美元

o1-mini首先推出北大毕业生任泓宇担纲训练任务

OpenAI研究员任泓宇（左）介绍o3-mini大模型。

虽然o3成为了OpenAI最先进的大模型，不过山姆·奥特曼也坦言，o3不会马上对外开放，理由是该大模型仍然需要进行安全测试。不过他表示将首先开放外部安全测试申请，同时明年1月底将率先开放o3-mini大模型。

在本次直播的“下半场”，山姆·奥特曼表示“o3-mini是我们真正感到兴奋的大模型，而训练该大模型的任泓宇将加入我们。”贝壳财经记者了解到，任泓宇本科毕业于北京大学计算机系，后在斯坦福获得博士学位，早在o1-mini推出时，他就担任了训练任务。

相比o3模型，o3-mini在性能与成本平衡方面表现更加出色，能够以较低成本提供高效服务。根据任泓宇的演示，o3-mini在编程上展现出了出色的性能，随着思考时间的增加，o3-mini模型的表现不断提升，性能超越o1-mini。

任泓宇表示，在中位思考时间下，o3-mini胜过正式版o1模型，能够以大约一个数量级的更低成本提供相当甚至更好的代码性能。此外，o3-mini的响应时间大大缩短，达到了o1的一半。

在实用演示中，用户在文本框中输入编码请求后，模型能够迅速将请求发送至API，并自动解决任务，生成代码并保存至桌面，随后自动打开终端执行代码。整个过程复杂且涉及大量代码处理，但o3-mini模型在低成本模式下依然表现出了极快的处理效率。

最后，Mark介绍，OpenAI推出了一款被称为审慎对齐的新技术，以找到具体的安全边界，让大模型知道什么时候该审查或拒绝用户提出的需求，但又不会过度拒绝。

“现在你可以填写申请表，进行对o3和o3-mini的外部安全测试，有越多人进行安全测试，就能越快确保我们达到明年1月底发布o3-mini以及之后发布o3的目标。”山姆·奥特曼在直播最后表示。

新京报贝壳财经记者罗亦丹

编辑曲筱艺

校对赵琳

OpenAI发布o3系列模型“剑指”AGI 北大毕业生打造

推荐体验

相关资讯

OpenAI发布新一代推理模型o3系列

OpenAI发布新一代的推理模型系列o3

刚刚，OpenAI 重磅发布 o3！再次突破 AI 极限，北大校友参与研发

OpenAI宣布推出o3和o3 mini推理模型

OpenAI的12天：更接近AGI的o3模型为发布会划上句号

近期资讯

本地 AI 开发利器，初探微软 Win11 AI Dev Gallery 功能

日本公布登月探测器“倒栽葱”着陆原因：一个主引擎点火滞后

全国首个智能瓦斯巡检系统在神东建成

江苏捷达交通工程集团有限公司取得新式水泥砂浆勾缝设备专利，提高装置使用后清理便捷性

工信部：试点部署万兆光网，力争累计建成5G基站450万座以上

任天堂Switch2实机照曝光：升级磁吸接点

把RLHF带给VLA模型！通过偏好对齐来优化机器人策略，代码已开源

力箭一号遥六运载火箭发射任务失利：三级发动机点火约 3 秒后姿态失稳，实施自毁

松下大海豹2.0冰箱515升：补贴1598元，高端家电的性价比之选

腾讯和迈瑞医疗合作搭建全球首个重症医疗大模型

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响