新V观海外：OpenAI o1模型实测的惊艳感不足

作者：经济观察报发布时间：2024-09-14

经济观察报社论陈沛/文 OpenAI刚刚推出了全新的o1系列模型，包括o1-preview和o1-mini，被认为是OpenAI最近持续放风的代号为strawberry的模型项目，重点提升了模型高级推理能力。可是根据我对o1-preview模型的实测体验，惊艳感低于预期。

先思考，后回答

o1-preview模型收到问题后会先思考一段时间，自动选择必要的推理过程，然后生成结果。这是新模型最显著的特点。

例如，我先测试了一个简单的示例问题“向幼儿园小朋友解释什么是怀旧”，o1-preview模型执行了4个推理步骤：理解问题要求、生成一个简单的比喻、描述怀旧的感受、整体理解怀旧的概念。执行这4个推理步骤共思考了7秒，然后生成了答案。

之后我换了推理难度更高的“两根电线杆之间80米电缆”问题。这个问题我使用之前各个版本的GPT从来没有做出来过。而这次o1模型对这个问题足足思考了74秒，反复执行了28个推理步骤，最终得到了经过反复验证的正确答案。

初步测试下来，能明显感觉到o1-preview模型与之前模型的差异。之前的GPT系列模型的设定是无论如何先快速生成一些看上去非常自然的内容，但是其中的逻辑是否合理、是否正确则不会过多验证。而o1-preview模型则是会自行选择合适的分析逻辑，并且谨慎验证思路是否合理，避免快速给出不负责任的答案。

奥赛数学题依然做不对

由于OpenAI官方发布o1系列模型时，重点强调了新模型在数学竞赛和编码相关的测试基准方面的能力提升。因此我继续采用一道中国数学奥林匹克竞赛题“56元集合和15个子集求解最小正整数”进行测试。

这道题的正确答案应该是41。在我的测试中，o1-preview模型思考了64秒，反复执行了30个推理步骤，然后给出了50的答案。虽然没有做对，但是整体解题思路已经接近，如果在正常的考试判卷中，相信o1-preview给出的证明过程也能得到部分分数。

但是，这个测试并没有让我感到o1-preview模型的高级推理能力非常惊艳。因为就在不久前，DeepMind也发布过Alpha Proof和Alpha Geometry 2在国际奥数竞赛中的结果，虽然那个测试结果也有一定的取巧成分，但已表明这种通过模型自我对弈实现高级推理能力的做法，并不是OpenAI的最新突破。

仓促发布产品的毛坯感十足

除了奥赛数学题方面的惊艳感不足之外，这次o1-preview模型的整体用户体验还不完整。目前仅支持纯文本输入，这也限制了进一步测试新模型在处理几何问题等方面的高级推理能力。

特别是对于已经习惯GPT-4o的图片、语音、文档多模态处理能力的用户来说，就像是回到了ChatGPT刚发布时的感觉，没有数据分析功能，也不能访问网页内容。

而在这一版o1-preview用户体验中的最大亮点——自动思考和推理过程，其实也在之前其他AI Agent应用中出现过，似乎给用户带来的惊艳感也并不强烈。

总而言之，就像o1-preview名称所预示的含义，这版模型目前还只是预览版，后续正式发布时应该还会加上更多常见的产品功能。也许这次的新模型发布预示OpenAI开始模仿人类思考习惯，从“系统1”进军“系统2”踏上新的智能研究方向，但是o1-preview模型本身将注定只是一个过程产品。

新V观海外：OpenAI o1模型实测的惊艳感不足

推荐体验

相关资讯

新V观海外：OpenAI o1模型实测的惊艳感不足

新V观海外：o1模型的开源复现和智商测试

新V观海外：OpenAI Sora模型背后的架构创新

实测 OpenAI 新模型 o1 ：做题王者，实战青铜

新V观海外：ChatGPT搜索出现功能重叠

近期资讯

售价3.38万！《黑神话》天命人1/1雕像截单全球限量780体

男子驾车冲进鱼塘好心钓友用鱼竿把车拉回岸边成功救援

抖音电商：2024全年销售154亿单 830个产业带销售额过亿

老外评选2024年优化最差的PC游戏：《黑神话》竟上榜

CPU之王！高通最激进的Soc现身：4.47GHz频率史无前例

瑞航迫降客机一机组成员送医一周后去世：机舱曾布满浓烟

交警查车发现一车四人都喝了酒：谁喝得少谁开车

你赚钱没！中国版英伟达夺今年股王称号四大行均涨超40%

极越07高速上被奔驰追尾网友：还有配件吗

SU7璀璨洋红亮相：与小米15定制版胭脂红绝配

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响