OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性

作者：搜狐科技发布时间：2024-09-13

出品 | 搜狐科技

作者 | 梁昌均

在进行高达1500亿美元的估值融资之际，OpenAI放出了一个大招，预热了许久的“草莓”（Strawberry）模型终于来了。

“需要耐心等待的时刻结束了。”该公司CEO山姆·奥特曼（Sam Altman）说。这就是名为 o1的新模型，这次发布包括预览版o1-preview和小尺寸版o1-mini。

OpenAI官方发文称，新模型旨在解决复杂推理问题，训练模型在响应之前花更多时间思考，类似于人类的思考方式。

“新模型在推理能力上代表了AI能力的新水平。”OpenAI称，该模型可以解决科学、编程和数学等更为复杂的任务，且比此前的GPT-4o有显著提升。

奥特曼发帖表示，“这是我们迄今为止功能最强大、最一致的模型，也是迄今为止我们最好的推理模型，这是新范式的开始。”

推理能力吊打GPT-4o，数学编程能力“爆表”

新模型到底有多强？它在需要深入思考和逻辑推理的专业任务上不仅吊打GPT-4o，还超过了拥有博士学位的人类专家。

OpenAI表示，新模型在物理、化学和生物等学科的挑战性基准测试中，表现超过人类专家。在国际数学奥林匹克（IMO）资格考试中，新模型得分超83%，远高于GPT-4o的13%。在Codeforces编程竞赛中，o1模型的成绩达到了前89%，而GPT-4o仅达到11%。

OpenAI表示， o1模型在推理能力上相比GPT-4o显著进步。综合评测显示，在绝大多数需要深入思考和复杂推理的任务中，新模型都展现出了明显优于GPT-4o的表现，并在多个细分测试上超过90%。

在启用视觉感知能力的情况下，o1模型在MMMU（多模态理解）测试中获得了78.2%的高分，成为首个能与人类专家展开竞争的AI模型。

在 MMLU（大规模多任务语言理解）测试中，在总计57个子类别中，o1在54个类别上都超越了GPT-4o 的表现。

上述评测还显示，o1模型在MMLU Categories中的高数测试正确率高达98%，且在ML Benchmarks中的数学测试相较GPT-4o获得了超过34%的最大绝对性优势，足以显示o1模型是个数学超级“学霸”。

OpenAI还选择了专为美国最优秀的高中数学生而设计的高难度考试——美国数学邀请赛（AIME）作为基准，来测试模型的极限能力。

结果显示，在2024年AIME考试中（15题），GPT-4o平均只解决了12%（答对 1.8 ）的问题，o1模型测试单次正确率高达74%，64次采样的正确率提升至 83%，1000次采样后使用学习型评分函数重新排序后的正确率高达93%，即能答对13.9 题，跻身美国前500名学生之列，也超出美国数学奥林匹克竞赛的分数线。

OpenAI进一步将o1模型应用于GPQA diamond 测试，其专门用于评估模型在化学、物理和生物学等领域的专业知识水平，并邀请了拥有相关领域博士学位的专家参与测试。

测试结果显示，o1不仅成功完成了测试，更是超越了博士表现，成为首个在GPQA diamond 基准上击败人类专家的AI模型。

“这些结果并不意味着它在所有方面都比拥有博士学位的专家更强，只是说o1更擅长解决一些博士能够解决的特定问题。”OpenAI称。

在编程方面，OpenAI基于o1模型深度优化和专项训练出一个新的AI模型，其在2024年国际信息学奥林匹克竞赛（IOI）获得了213分的高分，跻身参赛者的前50%。

在Codeforces平台的模拟竞争性编程比赛中，该新模型超越了93%的人类竞争者。相比之下，GPT-4o仅超过11%的人类竞争者。

这些评测显示出，新模型不仅在数学、编程等需要高推理能力的专业领域可比肩人类专家，同时在更为广泛的多模态和语言理解方面也有更好表现。

OpenAI发布的一项匿名人类偏好评估显示，o1-preview在数据分析、编码和数学等推理密集型类别中，比GPT-4o更受欢迎，但在某些自然语言任务中，o1-preview并不是首选。这表明它并不适合所有用例，GPT-4o在文本生成方面仍保持优势。

OpenAI负责新模型研发的员工也提到，o1模型并不总是比GPT-4o更好，许多任务并不需要推理能力，有时等待o1的回应相比快速获得GPT-4o的回应并不值得。

“作为早期模型，o1-preview还不具备ChatGPT的许多实用功能，如浏览网页、上传文件和图片。对于许多常见情况，GPT-4o短期内变得更加强大。但对于复杂的推理任务来说，这是一个重大进步，代表了人工智能能力的新水平。”OpenAI表示。

强化学习+思维链加持，幻觉依然无法彻底解决

o1模型更强的推理能力得益于OpenAI开发了一种创新的大规模强化学习算法。这种算法不仅能高效利用数据，还能有效训练模型运用思维链进行推理思考。

这种训练的核心在于教会模型“如何思考”。因此，与传统模型追求的快速响应不同，新模型开始学会慢思考——在回答之前，内部进行长链条的思考和推理，确保生成内容的质量。在OpenAI的一项单词推理测试中，o1-preview响应时间达32秒，而GPT-4o仅需3秒。

“我们训练这些模型花更多的时间去思考问题，然后再做出反应，就像人类一样。”OpenAI称，借助强化学习和思维链，新模型能完善自己的思维过程，具备自我检查的能力，识别纠正出现的错误，可以将复杂问题进行分解，并能在发现当前方法无效时尝试不同的策略。

OpenAI还发现，随着强化学习计算量的增加，以及模型思考时间的延长，o1的性能会不断提高。这显示新模型更多依赖计算资源和算法优化，而传统大语言模型预训练则依赖于海量数据的收集处理。

“这有很大不同，我们正深入研究这种新方法的扩展限制。”OpenAI表示，模型思考的时间越长，在推理任务上的表现就越好。“这开辟了一个新的扩展维度，不再受预训练的瓶颈限制，现在也可以扩展推理计算能力。”

得益于这些技术创新所带来的能力，OpenAI将新模型计数器重置为 1，并命名为o1。

某种程度来说，这意味着大模型的“摩尔定律”Scaling Law有效，但重点已从堆数据，转移到堆算力和算法优化方面，提高模型思考时间，可以说是一条提升大模型能力的新路径。

英伟达的科学家Jim Fan对此也点评称，模型不仅仅拥有训练时的Scaling law，还拥有推理层面的Scaling law，双曲线的共同增长，将突破大模型能力的提升瓶颈。

同时，OpenAI表示，思维链推理为AI对齐和安全提供了新的机会。“这是教授模型人类价值观和原则的有效方法，推理能力的提升有利于模型稳健性，并使我们能够以清晰的方式观察模型思维的过程。”

不过，这仍然无法彻底解决幻觉问题，但思维链为AI的三大缺陷（不可信、不可控、不透明）提供了思路。它可以“读取模型的思想”并理解其思维过程，检测AI是否试图操纵用户，以及为 AI决策提供解释性，增加透明度和可信度。

OpenAI总裁Greg Brockman也提到，这提供了新的安全机会，公司正在积极探索，包括可靠性、幻觉和对抗攻击者的鲁棒性。

“在权衡了用户体验、竞争优势、思维链监控和安全等在内的多种因素后，我们决定不向用户展示原始思维链。”OpenAI表示，o1模型会提供由模型生成的思维链摘要。

预览版成本比GPT-4o贵三四倍，9.11和9.8谁大仍翻车

“发布o1-preview的一个动机是为了观察哪些使用场景会变得流行，以及这些模型在哪些方面还需要改进。”OpenAI员工称。

该公司表示，新模型将为多个领域的专业人士带来显著助益，尤其是那些在科学研究、软件开发、数学计算等领域面临复杂挑战的领域，将是一个辅助工具。

ChatGPT Plus和Team用户从今天开始可以在ChatGPT 中访问 o1 模型。ChatGPT Enterprise 和Edu用户将从下周开始获得访问权限。

部分开发者今日起也可使用o1-preview和o1-mini，速率限制为20 RPM。OpenAI计划在未来向所有ChatGPT的免费用户开放o1-mini的使用权。

对开发者来说，使用o1模型要付出更高的价格。目前，o1-preview输入定价15美元/百万token，是GPT-4o（5美元/百万token）的3倍；输出定价60美元/百万token，是GPT-4o（15美元/百万token）的4倍。

不过，开发者可以选择小版本的o1-mini。相较o1-preview，它速度更快、成本更低，适用于需要推理但没有广泛知识的应用程序，尤其擅长数据和编码，成本比o1-preview低80%，即和GPT-4o价格相当。

对于OpenAI此次发布的新模型，复旦大学计算机科学技术学院教授、MOSS大模型核心人员张奇对搜狐科技表示，它依然不具备真正的推理能力。

“统计机器学习进行可以拟合数据集，但是无法进行类人的演绎和归纳推理，它学习到的仍然是概率相关性。”张奇表示。

他提到，换一些简单题目，与训练语料不同的数据，o1-preview的结果就会变的很差。比如虽然它数学能力突出，但对9.11和9.8哪个大这种问题，第一次回答时仍然翻车，而在进行第二次反馈后，它才从不同角度解读，最后给出了正确答案。

这意味着，评测代表的是评测数据集的能力，但用到具体的实际场景，OpenAI新模型的首次输出准确性仍有很大的改进空间。实际上，Open发布的前述评测中，部分表现突出的结果都是多次测试综合得出。

OpenAI称，o1模型还处于早期，未来将进行定期更新和改进，后续会加入更多功能，如网页浏览、文件和图像上传等。同时，会继续开发GPT系列模型，与o1系列模型并行发展。

这意味着，我们还是有机会见到GPT-5，你还期待吗？

近期资讯

怎么样找到电脑的ip地址？介绍几种简单有效方法

在日常使用电脑的过程中，‌我们经常需要知道自己的IP地址以便进行网络配置或故障排查。‌本文将介绍几种简单有效的方法，‌帮助您在Windows和Mac系统中找到电脑的IP地址。‌Windows系统：‌1、使用命令提示符：‌- 按下“Win+R”键，‌打开“运行”对话框。‌- 输入“cmd”，‌然后按回车键，‌打开命令提示符窗口。‌- 在命令提示符窗口中，‌输入“ipconfig”命令。‌- 按回车键，‌命令执行后，‌会显示一系列网络配置信息。- 在显示的信息中，‌找到“IPv4 地址”字段，‌该字段后的地址

虎观小二 17小时前

在信息安全日益重要的今天，数据防泄漏（DLP）软件成为保护企业敏感信息的关键工具。本文将评测12款数据防泄漏软件，包括国内的Ping32和11款国外知名软件，帮助您选择合适的解决方案。 [图片] 1. Ping32 防泄漏手段：内容监控：实时监控文件和电子邮件内容，检测敏感数据。数据加密：支持文件和数据加密，确保信息传输安全。访问控制：基于用户角色设定权限，限制对敏感信息的访问。行为分析：通过用户行为分析，识别潜在的泄漏风险。 [图片] 2. Symantec Data Loss Preventi

安在软件 17小时前

三相电力稳压器不会自动升降怎么办？

三相电力稳压器是一种用来稳定电压的设备，能够保护电器设备免受电压波动的影响。然而，有时候三相电力稳压器可能出现自动升降失效的情况，导致无法正常工作。这时候我们可以采取以下措施来修复三相电力稳压器不自动升降的问题： 1.检查电源：首先要检查三相电力稳压器的电源是否正常，确保输入电源的电压和频率符合设备的要求。如果电源有问题，必须及时解决，否则稳压器无法正常工作。 2.检查接线：检查三相电力稳压器的接线是否正确，确保接线牢固，接触良好。如果接线出现松动或接触不良的情况，必须及时整理接线，确保连接

创稳墙暖变压器 17小时前

Win10录屏怎么录制？三招教会你录屏快捷方法！

在探索Windows 10系统的强大功能时，屏幕录制工具无疑是其中一项非常实用的功能。无论是为了捕捉在线课程的精彩讲解、保存工作会议的重要讨论，还是记录游戏的激动人心时刻，一个好的屏幕录制工具都能帮助我们轻松地记录下这些瞬间。本文将为您介绍几种在Windows 10系统中进行屏幕录制的方法，包括系统自带的Xbox Game Bar、社交软件QQ的录屏功能，以及专业的第三方录屏软件——嗨格式录屏大师。方法一：使用Xbox Game BarXbox Game Bar是Windows 10系统内置的录屏工具，它

嗨格式 17小时前

条件性位置偏爱实验（Conditioned Place Preference, CPP）实验是目前评价药物精神依赖性的经典实验模型，也是广泛应用于寻找抗觅药行为的有效工具。（REN I5I O5 6IO48 O）该实验将实验动物（大鼠、小鼠）置于条件性位置偏爱箱的白色观察区，并给予精神依赖性药物（例如吗啡），然后观察实验动物在条件性位置偏爱箱的黑色区和白色区的活动情况，白色区、黑色区以及其中的灰色区之间有小门可供动物自由穿梭。（REN I5I O5 6IO48 O）动物每次处于给药区就会在药物奖赏性效

正华仪器 17小时前

OpenAI o1模型到博士水平了?复旦教授:没有真正推理能力,学到的还是概率相关性

推荐体验

相关资讯

复旦教授张奇评谷歌、OpenAI新模型：推理能力没有本质突破，国内差距再拉大

OpenAI 新大模型，推理能力近人类水平！

AI与相关性的提高（附下载）

詹余引谈ChatGPT：模型的底层逻辑基于统计，核心是相关性，并未真正地理解需求

OpenAI即将推出的“草莓”项目：推理能力的革命性突破

近期资讯

怎么样找到电脑的ip地址？介绍几种简单有效方法

高一到高三英语很简单，无非就这688个考纲必记词汇，边记边练

稳压器零线是什么意思？

12款数据防泄漏软件 | 全面测评12款防泄漏软件

三相电力稳压器不会自动升降怎么办？

Win10录屏怎么录制？三招教会你录屏快捷方法！

免费下载「荆南波波黑」可免费商用，俏皮可爱的卡通中文字

科技云报到：有韧性才能更“任性”，云韧性构筑业务最后一道防线

9.18 脑科学日报 | Science：情绪感染通过血清素提高小鼠恢复力

Conditioned Place Preference CPP条件位置偏爱系统

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响