实测 OpenAI 新模型 o1 ：做题王者，实战青铜

作者：爱范儿发布时间：2024-09-13

今天凌晨，OpenAI 发布了 o1 系列模型，最大的特点是擅长推理。

模型的能力，一代比一代强，我们的测评，一次比一次难做。测评变成一件「毕恭毕敬」的事情，生怕提不出好问题（难不倒它），在让它推理之前，我们自己的脑子就快烧没了。

最重要的原因是：我们想知道，被寄予厚望的新一代模型，有没有应用到实际生活中的推理能力？以及要如何测出这样的能力？

秉承着这个想法，我们设计了一套考验 o1-preview 综合能力的「考卷」。

省流版结论如下：它擅长做题、搞研究，更像一个适合待在实验室的高材生，你现在还不能指望它成为生活里的助手。

热身：数学与逻辑能力强，速度还不慢

发布会的数据大家看了很多，尤其是新一代 o1 在各项任务上的评分，都有超乎以往的表现。比如 OpenAI 的官方文档里，特别提到 AIME 数学竞赛的考试中，o1 都能取得不错的表现。

快速查了一下，这个 AIME 比赛，考题长这样：

原题粘贴过去，看看究竟是怎么个超强表现。o1-preview 反应很迅速，上手就开始解题了。

对比一下官方答案完全正确。反应时间也比预计的快，只是思考过程，并不是默认展开。

所以除非手动下拉，否则从用户的观感上看，它就是自己卷成一团在跑计算，这是个交互设计上面可以提升的地方。

不过，对比 AIME 官方解答，o1-preview 的回答比较冗长——指望靠 GPT 开挂的中学生朋友，可别指望照抄，要自己思考呀。

逻辑推理题方面，我们沿用了一些「过往真题」：

爱丽丝有 4 个兄弟，她还有 1 个姐妹。爱丽丝的兄弟有多少个姐妹？

你可能会奇怪，这不是很简单吗？——答案是 2，加上爱丽丝自己。

不出意外，o1-preview 很快答对了，甚至没告诉我思考多久，快到有种「就这？几秒」的感觉。

不过，今年 6 月，开源 AI 研究机构 LAION 发现，GPT-3.5/4、Claude、Gemini、Llama、Mistral 都没能答对这类题目，某种程度上连小学生的推理能力都不如。

直到现在，GPT-4o 也还是答错了。

可以说，o1-preview 的推理能力的确提高了。

进阶考验：情景推理慢于GPT-4o，但更准确

接着是测试 LLM 模型的经典必考：海龟汤问题。

一名男人发现自己少贴了一张邮票，随后便去世了。请问发生了什么事？

海龟汤是一种推理游戏，出题人给出简短、模糊的故事背景，由玩家自己主动提问。出题人只会回答「是」和「不是」，然后玩家根据出题人的回答，结合自己的推导，给出故事的真相。

我给了 o1-preview 五次提问的机会，然后让 o1-preview 尝试推理真相。每一次提问，o1-preview 都考虑了十几秒，层层递进。

但没想到，才问了 3 个问题，o1-preview 就迫不及待地给出推理了。

不得不说，非常接近真相。

这道题的标准答案是，男人寄送定时炸弹给仇人，但因为少贴了邮票，炸弹又被退回，结果一爆炸，炸死了自己。

o1-preview 的方向是对的，稍显缺乏了一些准确和完整，少了一些细节，但很接近正确答案。非要挑刺的话，可能是没有遵循我的提示词指令提问五次。

不过，和 AI 玩推理游戏很有意思，可惜目前新模型的额度有限，o1-preview 每周 30 条，o1-mini 每周 50 条，为了避免浪费宝贵的提问次数，下面的又一道海龟汤题目，我要求 o1-preview 一次性提 8 个问题，然后根据我的回答直接给出答案。

这次它的表现相当令人惊讶：o1-preview 只思考了 10 秒，提出的问题全部直击要害，真相呼之欲出。

比较搞笑的地方是，大家可以点开看看 o1-preview 这短短的十秒里都想了什么——我的同事忍不住吐槽：这 AI 戏也太多了吧。

等我一次性回答「是」和「不是」后，o1-preview 又花了 13 秒给出答案，基本就是标准答案。

以后再玩这种推理游戏，要严防死守有人掏出手机，用 AI 作弊。

相同的问题给到 GPT-4o，长处是一如既往，够快，几乎是实时的，但思维更跳脱。

答案嘛，稍微有偏离，而且看上去对自己的答案不是很自信的样子。

压轴大题：自作主张教人剁手，上得厅堂下不了厨房

普通用户最关心的，肯定不是新模型的「卷面能力」，谁闲着没事儿会突发奇想，打开手机算个鸡兔同笼啊？

比「卷面能力」更有用的，是处理生活实际问题，而且不是应用题，是正经八百生活中会碰到的计算问题。

眼下，多地都在派发电子消费补贴，国家对各类消费电子产品，最高可以补贴 2000元。

官方发布很简单，但实际用起来就不是了。只能以旧换新？有什么地址限制？哪里领券？有没有最低消费？

来，让 o1-preview 过来帮我算一下，到底可以薅到多少羊毛。

比较遗憾的是，o1-preview 的知识库截止到去年十月，对新政策没办法实时反应。

行吧，那就先手动录入一下，在输入广东省官方给的细节之后，它反应速度非常快，直接「自作主张」地把各种常见优惠都算进去了。

但都是「假设」，做不得数。在搜集了一些实际优惠政策之后，我们手动录入 prompt：

我需要买一台新电脑，现在有一万左右的预算，想买一台最新款的 MacBook Air。现在京东有优惠活动。条件如下：
1.政府补贴，按照标价减免 20%，2000 元封顶
2.苹果自己有满 7000 减 1400 元的优惠
3.苹果电脑可以以旧换新，但需要根据旧机品相定价。详细的品相信息已经列在下面

因为不能浏览网页，它自己设定价格为 9499 元，但不一定反映出实际上电商的挂牌价。

另外则是旧机价格的判断，京东给出的报价是 3300 元。

京东估价

同样的旧机，多跑几次提示词，每次 o1-preview 都会给不同的报价，仅供参考，其中 3400 元是和京东报价最接近的一次。

o1-preview 估价

更关键的是，这些写在提示词里的信息都要我们自己去找和整理，AI 没能节省多少时间。

买东西时算优惠价，就是日常生活里最实际的数学场景了，谁能忘记被双十一支配的恐惧。

而且算优惠的难点在于更广泛的推理：单纯的加减，犯不着找一个 AI 来做，电商平台自己会帮用户算好，购物车里一勾就是了。

真正烧脑的，就是「规划」一个最优惠的路线，这涉及到很多问题：

同一时期哪家电商在做优惠？用户是否具备参与优惠活动的资格？外部补贴的能否作用在这家电商？例如这次的国家补贴，是要看用户领取资格的，在京东用了就不能在天猫用。

甚至，一些线下店也参与补贴活动，但是前提是在线上领取之后线下使用。

说实话，这种繁琐场景特别需要一个助理，可需要的是一个脑筋灵活的真·智能助手，而不是一个僵板的做题家。

「考试」总结：做题虽好，仍要走入现实

不管是我们自己做的测评，还是许多网友都已经有的测评，甚至包括官方的演示文档，都有非常强烈的「做题」感。

做数学题、做阅读理解题、做填空题。

这世界还是变成了大家想要的样子：新的模型降临人间，第一件事是做题。

做题当然是很好的摸底模型能力的方式，然而做题的毛病也非常明显：很真空，不知道这么强的做题能力，到底有啥用。

甚至在自媒体赛博禅心的技术面测评中，API 端口的表现也非常差强人意，进一步限制了实际应用。他认为这次更新，比较像是工程上的优化，而非底层能力的迭代。

像极了专四专六级考高分，出国却依然寸步难行、开不了口的我（不是）。

老实说，这是一个用户预期的问题，切记：OpenAI 眼中的推理，并不只是计算能力。

计算的确是「推理」里重要的一部分，但不是全部，尤其是当谈到真正介入实际应用的推理能力，计算就仅仅是非常小的一部分。

这也是为什么在这次的官方文档里，有一个小节在解释「思维链」：通过模拟人类的思维过程，帮助模型逐步分解复杂问题。

这项能力的提升，在 o1-preview 应对数学和推理题的过程中，都得到了体现。

只是，要说它能全面模仿人类的思维过程，暂时还称不上：人类不仅会拆分步骤来思考，更会综合性、全局性的来思考。

走向 AGI 的道路，已有曙光，但仍然漫长。

本文来自微信公众号“APPSO”，作者：发现明日产品的，36氪经授权发布。

近期资讯

小米金凡微博主页公布：米粉集体去留言

快科技9月16日消息，小米产品总监金凡重新公开了自己的微博主页。在评论区，大量米粉给金凡留言，不过金凡尚未更新微博内容。此前在今年8月份，网友发现金凡“清空”了微博，其微博个人主页显示为“暂无内容”，当时还传闻金凡将离开小米，不再负责MIUI（澎湃OS）的业务。

驱动之家 2024-09-16

量子计算与人工智能的交汇：未来科技的融合

引言Introduction量子计算和人工智能（AI）是现代科技的两个前沿领域。量子计算通过量子力学原理提供了强大的计算能力，而人工智能则利用机器学习和数据分析技术模拟智能行为。随着技术的发展，这两个领域的交汇点逐渐显现，带来了许多激动人心的可能性。

新报观察 2024-09-14

台风“贝碧嘉”即将于早晨登陆上海浦东南汇新城

16日5时，贝碧嘉中心距离上海浦东南汇约54公里，也就1小时车程，“贝碧嘉”即将于早晨登陆浦东南汇新城，登陆时强度为强台风级。贝碧嘉将是1949年以来第11个登陆上海的台风，目前上海正受台风主体覆盖，进入风雨最强时段。

澎湃新闻 2024-09-16

服贸会“朋友圈”再扩容

9月12日至16日，2024年中国国际服务贸易交易会在北京举行。80余个国家和国际组织设展办会，400余家世界500强企业和行业龙头企业线下参展，现场举行上百场活动。这是一个大模型通用具身机器人，可以在消费者线上下单后及时拣出药品，未来有望与连锁药房合作，帮助其提升经营效率。

经济日报 2024-09-16

妈妈原来你就是我的妈妈

不正常人类研究中心 2024-09-16

Redmi机皇来了！K80系列入网：骁龙8 Gen4极致性价比旗舰

快科技9月16日消息，今天，RedmiK80系列获得入网许可，包含K80和K80Pro两款机型，型号分别是24122RKC7C和24117RK2CC。据悉，RedmiK80标准版搭载高通骁龙8Gen3平台，K80Pro搭载骁龙8Gen4平台，二者标配最新一代华星2K直屏，同档罕见。

快科技 2024-09-16

外媒称iOS 18 Repair Assistant强制用户配对部件

【CNMO科技消息】苹果即将在iOS18中推出一个新的工具叫做RepairAssistant，它可以帮助用户正确配置新买的或是二手的苹果原装配件。这个过程通常被称为“零件配对”，可以让你换上的新零件发挥出最佳性能。

手机中国 2024-09-16

“求新”与“求质”（新媒视点）

前两天，一位在广告行业工作十多年的朋友告诉我，他报了一个AI培训班。课程列表里，AI基础知识、办公应用、图片和视频制作……拉了一条长长的清单。工作已经很忙了，为什么还要去学这个？他的回答是：现在广告行业已经进入转型期，再不“求新”，就要被竞争者甩在身后了。变化真有这么大吗？作为消费者，似乎没有太明显的感受。

金台资讯 2024-09-16

河北建设取得一种建筑工程用升降平台专利，可有效保护建筑工程施工人员的安全

金融界2024年9月15日消息，天眼查知识产权信息显示，河北建设集团股份有限公司取得一项名为“一种建筑工程用升降平台“，授权公告号CN221680735U，申请日期为2023年12月。”

金融界 2024-09-16

荣耀Magic6Pro，跌价1563元，那是非常值得体验的！

荣耀Magic6Pro凭借出色的视觉体验、强大的影像系统、强劲的性能表现以及丰富的创新功能成为了一款备受瞩目的旗舰级智能手机。如今，荣耀Magic6Pro的起步价直接是被下调到了4266元，原本6699元的16GB+1TB顶配版目前也才5136元，整整跌价了1563元。

大话百科天地 2024-09-16

实测 OpenAI 新模型 o1 ：做题王者，实战青铜

热身：数学与逻辑能力强，速度还不慢

进阶考验：情景推理慢于GPT-4o，但更准确

压轴大题：自作主张教人剁手，上得厅堂下不了厨房

「考试」总结：做题虽好，仍要走入现实

推荐体验

相关资讯

文心一言正式对标GPT-4，是青铜还是王者？

OpenAI发布新模型GPT-4o

OpenAI新模型GPT-4o“炸裂登场”

Google“绝地反击”OpenAI新模型GPT-4o

LangChain 实战: Model I/O

近期资讯

小米金凡微博主页公布：米粉集体去留言

量子计算与人工智能的交汇：未来科技的融合

台风“贝碧嘉”即将于早晨登陆上海浦东南汇新城

服贸会“朋友圈”再扩容

妈妈原来你就是我的妈妈

Redmi机皇来了！K80系列入网：骁龙8 Gen4极致性价比旗舰

外媒称iOS 18 Repair Assistant强制用户配对部件

“求新”与“求质”（新媒视点）

河北建设取得一种建筑工程用升降平台专利，可有效保护建筑工程施工人员的安全

荣耀Magic6Pro，跌价1563元，那是非常值得体验的！

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响