OpenAI o1比博士还“聪明”，全球11位AI大咖怎么看？

作者：36氪的朋友们发布时间：2024-09-13

腾讯科技讯 9月13日消息，据国外媒体报道，美国当地时间周四，OpenAI推出了名为OpenAI o1的新人工智能模型，这也是其首个具有“推理”能力的大模型，它能通过类似人类的推理过程来逐步分析问题，直至得出正确结论。

OpenAI o1有o1-preview和o1-mini两个版本，仅支持文本，向所有ChatGPT的Plus和Team用户推出，并在API中向Tier 5开发者推出。根据OpenAI官网的评测，这款模型尤其擅长处理数学和代码问题，甚至在物理、生物和化学问题基准测试中的准确度超过了人类博士水平。

此外，OpenAI o1在物理、化学、数学、逻辑等多维度的基准测试中，水平均超过了GPT-4o：

（GPT-4o和01基准测试对比，来源：OpenAI）

比博士还聪明的OpenAI o1，调动了全球的AI名人好奇心，除了OpenAI的多位高管，英伟达高级科学家Jim Fan、纽约大学教授、美国知名AI学者加里·马库斯（Gary Marcus）、卡内基梅隆大学计算机科学博士生詹姆斯·坎贝尔（James Campbell）等纷纷一睹为快，并在X上表达自己的看法。

我们汇总了全球11位关注AI的知名企业家、科学家的看法，有意思的是，整体的评价态度基本分为两个阵营：

一个阵营以OpenAI的高管和研究员为代表，他们大多数都给了“好评”，认为新模型开启了新一轮的AI技术范式，帮助大模型走向更复杂的推理时代；而在OpenAI之外的多数“编外人士”，给出的评价相对克制，虽然没有否定OpenAI o1的创新，但他们认为新模型的能力还没有被充分测试，并且它距离AGI依旧很遥远。

“好评”阵营：OpenAI o1打开了新的技术范式

在OpenAI发布OpenAI o1预览版及其极速版OpenAI o1-mini之后，该公司多位高管以及研究人员发帖，认为新模型将AI推向更复杂的推理时代。

OpenAI首席执行官山姆·奥特曼（Sam Altman）：OpenAI o1是我们迄今为止最强大的人工智能模型。尽管它并非尽善尽美，仍带有一定的缺陷与局限性，但初次体验便足以令人印象深刻。更重要的是，这也预示一个新范式的诞生——人工智能已迈入能够进行广泛而复杂推理的新时代。

OpenAI总裁格雷格·布罗克曼（Greg Brockman）：OpenAI o1是我们首个通过强化学习进行训练的模型，它在回答问题之前会进行深思熟虑。这是一个充满巨大机遇的新模型，无论在数量（推理度量已有显著提升）还是质量（通过简单英语“阅读模型的思维”，忠实的思维链让模型变得更可解释）上，都有明显改进。

这项技术仍处于早期阶段，带来了新的安全机会，我们正在积极探索，包括可靠性、幻觉问题以及对抗性攻击的鲁棒性。

思维链作者、OpenAI研究员Jason Wei：OpenAI o1是一个在给出最终答案之前会进行思考的模型，它不仅仅通过提示来训练思维链，而是通过强化学习让模型更好地完成思考过程。

在深度学习的历史上，我们一直在扩展训练计算，但思维链是一种自适应计算方式，也能在推理时进行扩展。

虽然OpenAI o1在AIME和GPQA的测试中显得很强大，但不一定能直接转化为用户可以感受到的效果。即使对科学工作者来说，找出GPT-4不如OpenAI o1的提示并不容易，但一旦找到，你会觉得非常惊奇。我们都需要找到更具挑战性的提示。

人工智能用人类语言模拟思维链在很多方面表现出色。这个模型能像人类一样处理问题，比如将复杂的步骤拆解成简单的步骤、识别并纠正错误，以及尝试不同的方法。

这个领域已经被完全重新定义了。

OpenAI研究员马克斯·施瓦泽（Max Schwarzer）：我一直认为，你不需要一个GPT-6级的基础模型来实现人类水平的推理能力，强化学习才是通往AGI的关键。今天，我们有了证明——OpenAI o1。

作为OpenAI创始成员之一，前特斯拉AI高级总监安德烈·卡帕西（Andrej Karpathy）的评论画风格外不同，他吐槽了模型的“懒惰”问题：OpenAI o1-mini一直拒绝为我解决黎曼假设（Riemann Hypothesis），模型的“懒惰”仍然是一个主要问题。

英伟达高级研究科学家Jim Fan和卡内基梅隆大学计算机科学博士生詹姆斯·坎贝尔（James Campbell）虽然不是OpenAI工作人员，也给了好评。

英伟达高级研究科学家Jim Fan：这可能是自2022年原始Chinchilla缩放定律以来，大语言模型研究中最重要的进展。关键在于两个曲线的协同作用，而不是单一曲线。人们通过延伸训练缩放定律来预测大语言模型能力将陷入停滞，却未曾预见到推理缩放才是真正打破收益递减的关键。

我在2月份曾提到，任何自我提升的大语言模型算法都没能在三轮之后取得显著进展。没有人能在大语言模型领域重现AlphaGo的成功，在这个领域，更多的计算能力将可达到超越人类的水平。不过，现在我们翻开了新的一页。

博士生坎贝尔 VS 奥特曼：卡内基梅隆大学计算机科学博士生詹姆斯·坎贝尔（James Campbell）发帖，展示了OpenAI o1预览版在美国数学邀请赛（AIME）上的表现，显示其解答了83%的问题。相较之下，GPT - 4o仅解答出13%的问题。坎贝尔写道：“一切都结束了！” 对此，OpenAI首席执行官山姆·奥特曼（Sam Altman）回复称：“我们还会回来的！”

“中差评”阵营：买家需谨慎，它并没有那么聪明

HuggingFace首席执行官兼联合创始人克莱门特·德兰吉（Clement Delangue）：再一次，人工智能系统并不是在“思考”，而是在“处理”和“运行预测”——就像谷歌或电脑一样。这种技术往往给人一种错误的印象，让你觉得这些系统像人类一样智能，但这只是廉价的宣传和营销策略，让你觉得它们比实际情况更聪明。

纽约大学教授、美国知名AI学者加里·马库斯（Gary Marcus）：OpenAI关于GPT的新模型确实令人印象深刻，但是：

1. 它不是AGI（通用人工智能），而且距离这个目标还很远。

2.仔细阅读并理解其中的细节。关于它如何工作的细节并不多，已测试的内容也没有全面披露。它与GPT-4的其余部分并未完全整合。（为什么？）

3.完整的新模型并未向付费订阅者发布，只推出了一个迷你版和预览版。因此，业界还未能对其进行充分测试。

4.报告显示，OpenAI o1在许多领域表现良好，但在某些方面旧模型表现更佳。它并不是一个全面超越旧模型的神奇改进。

5.我们不清楚具体的训练内容，但即使是一些基础任务，如井字棋（tic-tac-toe），也存在问题。

6.OpenAI夸大了它在法律考试上的成功，经过仔细审查，这些说法经不起推敲。科学审查需要时间，目前这些结果尚未经过同行评审。

7.它声称能在几秒钟内完成的任务，若给它一个月时间，可能会让人惊讶。但如果给它一个高度专业化的任务，比如编写复杂的软件代码，它可能会令人失望，因为OpenAI希望你认为它无所不能。

8. 买家需谨慎。

沃顿商学院管理学教授伊森·莫里克（Ethan Mollick）：我已经用了1个月的“草莓”（OpenAI o1），它在许多方面都很惊人，但也有些限制。也许最重要的是，这是一个信号，表明了未来事情的发展方向。

新的人工智能模型被称为“o1-预览”（为什么人工智能公司总是这么不擅长命名？），它在解决问题之前会先“思考”一下问题。这使得它能够解决那些需要计划和迭代的复杂问题，比如新颖的数学或科学难题。事实上，它在解决极其困难的物理问题上，现在甚至可以超过人类的博士专家。

需要明确的是，“o1-预览”并不是在所有方面都表现得更好。例如，它并不比GPT-4o更强。但对于需要规划的任务，表现却非常好。例如，我给它下达了这样的指令：参考下面的论文，考虑老师和学生的观点，弄清楚如何使用多个代理和生成式AI构建一个教学模拟器。编写代码并详细说明你的方法。然后我把我们论文的全文贴了上去，唯一的提示是要构建完整的代码。你可以看到下面系统生成的结果。

评估这些复杂的输出确实很困难，因此展示草莓模型的收益（以及局限性）最简单的方法是用一个游戏：填字游戏。我从一个非常难的填字游戏中提取了8条线索，并将其翻译成文本（因为我还不能看到图像）。不妨自己尝试一下这个谜题，我敢打赌你会觉得它很有挑战性。

填字游戏对大语言模型来说显得尤其棘手，因为它们需要反复试错：尝试并排除许多相互关联的答案。而大语言模型无法做到这一点，因为它们每次只能在其答案中添加一个Token。例如，当我把这个谜题给Claude时，它首先给出的答案是“STAR”（错误的），然后用这个错误的答案尝试解答剩下的谜题，最后甚至连答案都猜不出来。没有规划过程，它只能不断尝试。

但如果我把这个谜题给草莓会怎样呢？这个模型首先“思考”了整整108秒（大多数问题能在更短时间内解决）。你可以看到它的思路，下面是一个样本（还有很多我没包括），这些思路非常启发人——值得花时间读一读。

大语言模型会反复迭代，创造和排除想法，结果通常相当出色。然而，“o1-预览”似乎还是基于GPT-4o，有点过于字面化，难以破解这个较难的谜题。例如，“星系团”并不是指真正的星系，而是三星Galaxy手机（这也让我困惑）——答案是“应用程序”。在决定是否为COMA（一个真实的星系团）之前，它一直在尝试实际的星系名称。因此，剩下的结果虽然有创意，但不完全正确，也不符合规则。

为了尝试更进一步，我决定给它一个提示：“1向下是APPS。”人工智能又花了一分钟。再次，在它的思维样本中（见左边），你可以看到它如何迭代想法。最终，它给出的答案完全正确，解决了所有难题的提示，尽管它确实生成了一个新线索——这不是我给它的谜题。

所以，如果没有“草莓”，“o1-预览”所做的事情是不可能实现的，但它仍然不是完美的：错误和幻觉仍然存在，且它仍受限于GPT-4o作为底层模型的“智能”。自从有了新模型，我没停止用Claude来评论我的帖子，Claude在风格上仍然表现更好，但我确实停止用它处理任何复杂的计划或问题解决任务。0“o1-预览”在这些领域代表了巨大的飞跃。

使用“o1-预览”意味着面临人工智能的范式变化。计划成了一种代理形式，人工智能在没有我们帮助的情况下自己得出解决方案。可以看出，人工智能做了大量的思考，产生了完整的结果，作为人类伙伴的角色感觉被削弱了。人工智能会自主完成任务，然后给出答案。当然，我可以通过分析它的推理找出错误，但我不再感觉自己与人工智能的输出有联系，也不再觉得自己在解决方案的形成中扮演重要角色。这不一定是坏事，但确实是一种改变。

随着这些系统不断升级，逐渐走向真正的自主代理，我们需要弄清楚如何保持在这个循环中——既要捕捉错误，又要掌握我们试图解决问题的核心。“o1-预览”展示了可能前所未见的人工智能功能，即使它目前存在一些局限性。这给我们留下了一个关键问题：随着人工智能的发展，我们如何与它更好地合作？这是“o1-预览”目前还无法解决的问题。

和很多人直接的褒贬观点不同，作为对话式搜索引擎Perplexit CEO，阿拉温德·斯里尼瓦斯（Aravind Srinivas）试图“猜测”OpenAI o1模型的原理。他不认为“草莓”所给出的答案是经由反复批判性反馈精心提炼的结果，而且认为单纯依赖大型语言模型来得出答案并不足够可靠。他建议，将代码执行融入其中，并结合从知识图谱中直接提取的事实，这一做法在实际应用中可能更为有效。

总体而言，OpenAI o1的“思考”时间更长、更擅长处理标准化程度更高的“理科”问题了，这对科学领域的发展来说是一件好事。但除了是非分明的逻辑推理问题，世界上所存在的更多问题，都是没有标准答案的，对芸芸众生而言，一千个人眼中有一千个哈姆雷特，如果大模型能为人类解决这类非标问题，或许才能接近真正的AGI。（编译/金鹿）

本文来自微信公众号“腾讯科技”，作者：金鹿，编辑：郑可君周小燕，36氪经授权发布。

OpenAI o1比博士还“聪明”，全球11位AI大咖怎么看？

“好评”阵营：OpenAI o1打开了新的技术范式

“中差评”阵营：买家需谨慎，它并没有那么聪明

推荐体验

相关资讯

人类输了？OpenAI开年王炸Sora震撼全球，周鸿祎等国内大咖怎么看

OpenAI“内斗”，ChatGPT会怎么看？

极速大　发　规律怎么看

推送切片看“怎么看Chatgpt”

大　发　怎么看大　小　和　单　双

近期资讯

当中秋遇上“天问1000”会擦出怎样的火花？｜天问1000知识挑战赛

又是一年岳麓峰会论道！长沙计算再“拔尖”走向智算时代

消息称苹果包下台积电2nm首批产能，用于iPhone 17 Pro系列手机

PS5 Pro CPU不升级原因揭晓！

HTC 明晚 VIVE 新品发布会，有望推出骁龙 XR2+ Gen 2 VR 头显

台风刚走，60年一遇的“超级月亮”，江苏人能观赏吗？

阳澄湖大闸蟹被台风“贝碧嘉”吹跑了？官方回应

5G网络的未来蓝图：从连接到智能化

雷军祝贺东风汽车第6000万台下线：希望能与东风有更深的合作

手机耗电太快？可能是你充电方式错了，难怪电池不耐用

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响