推理大模型来了，OpenAI o1解答物理、生物和化学问题水平超越人类博士

作者：多知网发布时间：2024-09-13

来源|多知

作者|Penny

9月12日晚，OpenAI开发了一系列新的人工智能模型，旨在让大模型花更多时间思考后再做出反应。它们可以推理复杂的任务，解决比以前的科学、编码和数学模型更难的问题。

根据OpenAI的官方博客显示，OpenAI o1 在竞争性编程问题(Codeforces)中排名第 89 位，在美国数学奥林匹克 (AIME) 预选赛中跻身美国前 500 名学生之列，并在物理、生物和化学问题 (GPQA) 基准测试中超越人类博士级准确度。

OpenAI o1 就是此前被传的内部代号为“草莓”的项目，这是一个不同于大语言模型的新模型，更像一个推理模型。

除了官方博客，OpenAI还发布了o1的多个视频，包括解数学题、做贪吃蛇游戏、破译韩文、破解逻辑谜题、解答量子物理等。可以看到，o1的推理能力得到极大提升，带来范式的变化。

根据OpenAI研究团队的采访显示，o1被定义为"推理模型”，这些系列的新特点：

1）注重思考过程：“推理模型”会在回答问题之前进行更多思考，采取了用思考时间来给出更优的结果，这与语言大模型一步到位给出答案不同;

2）自生成思维链：团队使用强化学习(RL)训练模型生成和完善自己的思维链，而不仅仅依赖人类编写的思路链;

3）可以自我反思：o1能够质疑自己、反思错误，展现出更复杂的推理过程，尤其是在数学能力上。

OpenAI称：“我们大规模强化学习算法教会模型如何在高度数据高效的训练过程中利用其思路进行有效思考。我们发现，随着强化学习的增加（训练时间计算）和思考时间的增加（测试时间计算），o1 的性能会持续提高。扩展此方法的限制与 LLM 预训练的限制大不相同，我们将继续研究这些限制。”

OpenAI称，在竞争性编程平台 Codeforces 的测试中，OpenAI o1 取得排名前 89% ，位于顶级选手行列。而在美国数学奥林匹克预选赛（AIME）中，o1解答正确率为 83% ，而GPT-4o 仅能解答对 13%。此外，o1在物理、生物和化学等领域的基准测试（GPQA）中，表现甚至超过了一些博士级别的准确度。

OpenAI还对o1在GPQA钻石版上进行了评估，这是一个测试化学、物理和生物学专业知识的困难智能基准。

为了将模型与人类进行比较，OpenAI还招募了拥有博士学位的专家来回答GPQA钻石版的问题。结果是o1超越了这些人类专家的表现，成为第一个在这一基准上做到这一点的模型。

OpenAI坦言，这些结果并不意味着o1在所有方面都比拥有博士学位的人更有能力——只是表明该模型在解决博士学位预期解决的一些问题上更为熟练。

在其他几个机器学习基准上，o1也超越了最先进的水平。

在启用了视觉感知能力后，o1在MMMU(多模态大规模在多学科任务上的表现基准)评测集上得分为78.2%，使其成为第一个与人类专家竞争的模型。它还在57个MMLU子类别中的54个上超越了GPT-4o。

OpenAI首席执行官山姆·奥特曼在其个人社交平台表示，“o1是迄今为止我们最强大的模型，虽然它的表现仍然存在缺陷，不过在你第一次使用它的时候仍然会感到震撼。”

o1此次发布的有两个版本：标准版 o1-preview 和简化版 o1-mini。虽然 o1-preview 在处理复杂问题时表现更加精准，但它的成本也相对更高。而 o1-mini 则是一款更轻便、经济的模型，价格比 o1-preview 便宜 80%，主要面向对推理性能要求较低的用户。

OpenAI o1 的发布标志着开发具有复杂推理能力的人工智能迈出了重要一步。它在专门任务中超越人类的能力，加上其强化学习框架，使其适合于科学、工程和其他需要批判性思维的领域的应用。

可以说，o1在推理能力上的提升将进一步改变教育领域，虽然仍有不足之初，但教育领域又多了一个参考工具。

END

作者：Penny

推理大模型来了，OpenAI o1解答物理、生物和化学问题水平超越人类博士

推荐体验

相关资讯

OpenAI 新大模型，推理能力近人类水平！

OpenAI发布GPT-4o：像真人一样聊天可现场解答初中数学问题

OpenAI要为GPT-4解决数学问题：奖励模型指错,解题水平达到新高度

超越GPT-4o 史上最强AI大模型来了！

OpenAI推出GPT-4o：已帮帮助学生解决数学问题

近期资讯

如何使用Axure制作互联网医疗大健康慢病管理系统原型及随访管理系统原型？

国内首架太阳能氢能无人机在明月湖首飞

佰维发布CUDIMM DDR5-9200 CL42 24GB内存：不是最快但它会亮

荣誉|上海银行荣膺2024年手机银行APP“拓扑奖”

回看十五年，传统企业上云潮

vivo X200相机规格曝光：50Mp三摄系统引领新一代影像旗舰

“箭”指空天为火箭造“大心脏”

地球还有多少秘密？“黑暗生物圈”被发现，体积是地表海洋的两倍

电商平台已破发！iPhone 16标准版官网发货时间延至10月

俞敏洪跟蔚来李斌谈被网暴：对自己的心情没有影响

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响