接近理科博士生水准！OpenAI放大招

作者：证券时报发布时间：2024-09-13

北京时间9月13日凌晨，OpenAI重磅发布全新AI大模型——o1模型。

据OpenAI官网介绍，这一模型“旨在花更多时间思考后再作出反应。它们可以推理复杂的任务，解决比以前的科学、编码和数学模型更难的问题”。不过，今天在ChatGPT和大模型API中新发布的是该系列中的第一款模型，而且还只是预览版——o1-preview（o1预览版）。

事实上，此前外界曾流传OpenAI正在研发新模型“草莓”和“猎户座”，其中“草莓”具有更强的推理能力、擅长解决复杂的数理逻辑问题，而“猎户座”则将基于“草莓”模型的能力，是“ChatGPT”的超强继任模型。

OpenAI首席执行官山姆·奥特曼在其个人社交平台表示，“虽然o1的表现仍然存在缺陷，不过你在第一次使用它的时候仍然会感到震撼。”

OpenAI今天发布的o1模型虽然名字上与此前泄露的“草莓”不同，但功能、推理、性能等方面与外界揣测的基本一致。据了解，o1的推理模式的特别之处在于，在回答用户问题之前，o1会进入拟人化思考模式，将问题分解成更小的步骤，逐一解决，然后生成一个较长的内部思维链，这一推理模式也使得回答的内容更加准确。

“在我们的测试中，下一个模型（o1模型）更新在物理、化学和生物学的具有挑战性的基准任务上的表现与博士生相似。我们还发现它在数学和编码方面表现出色。在国际数学奥林匹克(IMO)资格考试中，GPT-4o仅正确解决了13%的问题，而推理模型得分为83%。他们的编码能力在比赛中得到了评估，并在Codeforces比赛中达到了第89个百分位。”OpenAI对o1模型的介绍表示。

在数学竞赛中，以AIME2024为例，GPT-4o平均只能解决12%的问题，而o1平均能解决74%的问题，若采用64个样本的共识，解决率能达到83%。o1在竞争性编程问题（Codeforces）中排名第89位，在美国数学奥林匹克(AIME)预选赛中跻身美国前500名学生之列，并在物理、生物和化学问题(GPQA)基准测试中超越人类博士级准确度。

OpenAI表示，对于复杂的推理任务来说，这是一个重大进步，代表了人工智能能力的新水平。鉴于此，OpenAI将计数器重置为1，并将该系列命名为OpenAIo1。

另外，OpenAI在过去一段时间一直被质疑因加快产业开发而降低了对模型安全的重视，团队中多名安全团队的人员也接二连三离职。对于模型的安全问题，OpenAI表示，在开发这些新模型的过程中，公司提出了一种新的安全训练方法，利用模型的推理能力，使它们遵守安全和协调准则，能够通过在上下文中推理安全规则，并且更有效地应用这些安全规则。

“我们衡量安全性的一种方法是测试当用户试图绕过安全规则（称为‘越狱’）时，我们的模型如何继续遵循安全规则。在我们最严格的越狱测试之一中，GPT-4o得分为22（0-100分制），而我们的o1预览模型得分为84。”OpenAI介绍称。

适用对象方面，拥有增强的推理能力的o1模型更适合于解决科学、编码、数学和类似领域的复杂问题。例如，医疗研究人员可以使用o1来注释细胞测序数据，物理学家可以使用o1来生成量子光学所需的复杂数学公式，各领域的开发人员可以使用o1来构建和执行多步骤工作流程。

至于新模型的使用方面，OpenAI称，从发布之日起，ChatGPTPlus和Team用户将能够在ChatGPT中访问o1模型。o1-preview和o1-mini都可以在模型选择器中手动选择。不过，发送消息的次数目前还存在限制。o1-preview每周发送消息次数限制为30条消息，o1-mini则为50条消息。OpenAI称正在努力提高这些发送次数，并使ChatGPT能够根据给定的提示自动选择正确的模型。

价格方面，API的价格上，o1-preview每百万输入15美元，每百万输出60美元。与之对比，GPT4o每百万输入和每百万输出分别是5美元和15美元，o1-preview价格是GPT4o的3倍。o1-mini会便宜一些，每百万输入为3美元，每百万输出为12美元。

关于未来的计划，OpenAI表示计划向所有ChatGPTFree用户提供o1-mini访问权限。同时，除了o1模型宣布的这些更新之外，OpenAI还希望添加浏览、文件和图片上传等功能，并计划继续开发和发布GPT系列中的模型。

责编：叶舒筠

校对：廖胜超

END

接近理科博士生水准！OpenAI放大招

推荐体验

相关资讯

接近理科博士生水准！OpenAI放大招

OpenAI o1预览模型发布：推理能力更强可达理科博士生水准

OpenAI发布o1预览模型：推理能力更强可达理科博士生水准

重磅！会“思考解题逻辑”的OpenAI推理大模型登场，认知将跃升至“理科博士生水准”

号称博士生水准！OpenAI最新模型仍分不出9.11和9.8哪个大

近期资讯

英维克取得一种多路输出的隔离电源电路以及一种逆变系统专利，提高隔离电源电路的工作效率

“微信送礼”重燃战火，电商格局迎来新变数？

力零科技申请用于带电作业的并沟线夹安装工具专利，提升并沟线夹带电作业效率

上海航天能源取得一种基于本安关联的电源专利，降低产品成本

力林科技取得电源转换装置专利，具有高电压需求且具备小体积

深圳市周励电子科技取得能够限制最大功率的开关电源专利，能够限制最大功率

威胜能源技术取得一种负电源电路专利，成本极低

深圳欣锐科技取得控制引导功能发生电路专利，做到元件数量少、电路简单、体积小、成本低、可靠性高

超聚变申请种电源及计算设备专利，能够降低提高连接器的电流通流能力所需的成本

龙境科技申请一体式线对板连接器专利，有效避免线路板焊盘脱落风险

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响