OpenAI放大招！发布最强水平大模型，解决博士生级别科学问题

作者：陆家嘴杂志发布时间：2024-10-08

传言中有高级推理能力、此前被称为"草莓项目"的OpenAI新项目于北京时间9月13日凌晨推出了。

OpenAI在官网介绍，一个新的推理（reasoning）模型系列将开始提供，这个系列模型将用于解决困难问题，这些模型将在做出反应前花更多时间思考，可以通过复杂的过程进行推理，解决比以往更难的科学、编码和数据问题。OpenAI此次在ChatGPT和API接口渠道上先推出该系列的预览版本OpenAI o1-preview。

"对复杂的推理任务而言，这是一个重大进步，代表人工智能能力的一个崭新水平。因此我们将‘计数器’重置为1，新系列命名为OpenAI o1。"OpenAI表示。OpenAI CEO Sam Altman（萨姆·奥尔特曼）也在社交平台上表示，该新模型是一个新范式的开始，即AI能够进行通用复杂推理。

OpenAI o1包括三个型号，除o1-preview 之外还将有o1和o1-mini。其中o1-mini是一种更快、更便宜的推理模型且适用于需要推理但不需广泛世界知识的应用，o1-mini还比o1-preview便宜80%。

技术方面，OpenAI介绍，新系列模型经过训练，学会完善自身思维过程并尝试不同策略，能认识到自己的错误。新系列模型更新后的性能类似于博士生在物理、化学、生物学中完成具挑战性的基准任务。新系列模型还在数据和编码方面表现出色，在国际数学奥林匹克竞赛（IMO）的资格考试中得分83%，对比之下GPT-4o仅正确解决了13%的问题。新系列模型还在竞争性编程问题Codeforces比赛中排名前89%。

在技术研究相关文章中，OpenAI介绍，公司用大规模强化学习算法"教会"模型在数据高效训练时用思维链进行高效思考。随着强化学习增加和思考时间增加，o1的性能不断提高。类似于人类在回答困难问题之前思考很长时间，o1也尝试在解决问题时使用思维链，该模型通过强化学习学会磨练思维链并改进策略，学会在当前方法不起作用时尝试不同方法，这提高了模型推理能力。

"作为早期模型，它还难以使ChatGPT变得更加有用，例如通过浏览网页获取信息或上传文件和图像。对于很多常见案例，GPT-4o短期内能力还是更好。"OpenAI表示。不过该系列新模型增强的推理功能可能对解决科学、编码、数学和类似领域的复杂问题更有效，例如，医疗保健研究人员可用它来注释细胞测序数据，物理学家用它生成量子光学所需的复杂数学公式，开发人员可用它构建和执行多步骤工作流程。量子物理学者Mario Krenn就展示了GPT-4o不能回答但o1-preview正确完成计算的复杂量子物理问题。

OpenAI研究人员Noam Brown在社交平台上提到OpenAI o1系列的更多细节，他表示，o1系列经过强化学习训练，在通过自己的思维链做出反应前会思考，思考时间越长，推理任务表现越好。"这为大模型缩放（scaling）开辟了新维度，我们不再受预训练的瓶颈限制，现在也可以扩展推理计算了。" Noam Brown表示，但o1模型并不总是比GPT-4o好，有时人们不值得长时间等待o1响应，在个人写作和编辑文本时人们可能会偏好GPT-4o，在计算机编程、数据分析和数学计算领域则可能会偏好OpenAI o1。

Noam Brown透露，OpenAI o1在回答前会思考几秒，但OpenAI的目标是让未来的版本思考几个小时、几天甚至几周，虽然推理成本会更高，但人们有可能也会获得更多，例如在研发新抗癌药等方面，人工智能可以不仅仅是聊天机器人。

不过，不是所有用户都能立马用上新系列模型。据OpenAI介绍，ChatGPT Plus用户和Team用户最早可以在几个小时内体验到新模型。o1-preview限制为每周30条消息，o1-mini限制为每周50条消息。而从下周开始，ChatGPT的企业用户和教育（Edu）用户也可以访问这两种模型。该系列模型的API访问权限首先给Tier 5级用户。此外，OpenAI还计划将向所有ChatGPT免费用户提供o1-mini访问权限。后续，OpenAI还计划增加浏览、文件和图片上传等功能，且在OpenAI o1系列之外继续开发和发布GPT系列中的其他模型。

在安全方面，OpenAI则透露，新模型的思维链推理为确保对齐和安全提供了新的机会，隐藏的思维链为监控模型提供了独特的机会，使人能"读取模型思想"并理解其思维过程。此外，公司最近与美国和英国的人工智能安全研究所达成协议，开始将相关协议付诸实施，包括允许各机构尽早使用该模型的研究版本，这有助于建立一个在公开发布之前和之后对未来模型进行研究、评估和测试的流程。

OpenAI放大招！发布最强水平大模型，解决博士生级别科学问题

推荐体验

相关资讯

OpenAI放大招！发布最强水平大模型，解决博士生级别科学问题

OpenAI放大招发布o1模型能解决博士生级别科学问题

OpenAI o1 新模型在解决博士级别的科学问题上超越人类

接近理科博士生水准！OpenAI放大招

推理大模型来了，OpenAI o1解答物理、生物和化学问题水平超越人类博士

近期资讯

Windows本地AI开发神器！微软推出并开源AI Dev Gallery

泪奔！韩国客机失事最惨一幕：1家9口空难离世家仅剩狗

《守望先锋》国服官网上线：代码曝光回归时间！

4万多人在线看肥娟一块一块数钱：营业额再创新高

我国开建全球最大万吨级纯电动运输船：续航可达500公里

存10万一天赚不到4元！余额宝收益率跌跌不休一年之间腰斩

弃安卓！微信后腾讯重磅游戏宣布适配纯血鸿蒙：华为赢麻

印度成功发射两枚卫星，将开展空间交会对接试验

年末新机大战打响：补贴与降价齐飞，争夺细分市场空间

知名投资人：英伟达正在“印钱” AI机遇无穷无尽！

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响