OpenAI o1全方位SOTA登顶lmsys排行榜，数学能力碾压Claude和谷歌模型，o1-mini并列第一

作者：新智元发布时间：2024-09-19

OpenAI 谷歌 Claude

【导读】o1模型发布1周，lmsys的6k+投票就将o1-preview送上了排行榜榜首。同时，为了满足大家对模型「IOI金牌水平」的好奇心，OpenAI放出了o1测评时提交的所有代码。

万众瞩目的最新模型OpenAI o1，终于迎来了lmsys竞技场的测评结果。

不出意外，o1-preview在各种领域绝对登顶，超过了最新版的GPT-4o，在数学、困难提示和编码领域表现出色；

而o1-mini虽然名字中自带「mini」，但也和最新版的GPT-4o并列综合排名第二，困难提示、编码、数学等领域和o1-preview同样登顶第一。

果然，o1模型不愧是通用推理领域的新王。

lmsys社区官方发推表示，这项测试结果收集了6k+社区投票，并将OpenAI这次取得的进展描述为「令人难以置信的里程碑」。

单纯看排行榜的排名可能不够具有说服力，于是lmsys特意统计了总榜上前25名模型的1v1胜率。

可以看到，o1-preview对所有模型的胜率都超过了50%，对比04-09版GPT-4-Turbo的胜率最高，达到了88%。

o1-mini如果对战o1-preview，胜率为46%，对09-03版GPT-4o的胜率为48%，可以说是大体平手、稍逊一筹的状态。

值得注意的是，虽然Grok-2-mini和Claude 3.5 Sonnet都排在比较靠后的位置，但o1-preview对这两个模型的胜率并不高，分别是58%和57%，大大小于排名第四的Gemini 1.5 Pro的69%。

如果看到细分领域的排行榜，尤其是数学/推理领域，效果则更加惊艳。

o1-preview和o1-mini不仅是登顶数学排行榜，而且是体现出了绝对的领先优势。

排在第三、第四的Claude 3.5 Sonnet、Gemini 1.5 Pro和08-08版ChatGPT-4o的均分都在1275左右，不相上下；o1-preview和o1-mini则一骑绝尘，分数飙到1360附近，直接碾压。

o1推理团队的领导者之一William Fedus看到这张图也是相当开心，他表示这张图「很好地用视觉表达了范式转换」。

看来最新的o1模型在STEM学科和通用推理方面的确又达到了新高度，用实际测评结果回应了「AI遇冷」、「OpenAI碰壁」的质疑声。

「那就继续期待OpenAI接下来的发布吧！」

但一些人感叹「未来可期」的同时，另一些人想到了自己不多的智商和头发。

「模型搞得这么好了，测试就不适合我这种蠢人了。」

同时，也有一些人表达了对lmsys排行榜结果的质疑。

比如，众所周知的o1模型推理时间长，因而回答的延时也长，和其他模型都有明显差别；而且不同于各类基准测试的客观标准，lmsys社区中完全基于用户的主观评分，难说这里面是否存在「安慰剂效应」。

也有人不服o1在编码排行榜上的第一，认为虽然o1-mini非常适合进行项目规划，但在Cursor这类编码助手中还是Claude模型的表现最佳。

排行榜的结果当然不是全部，o1模型能否继续赢得口碑，同时保持住智力水平不变蠢，还要看接下来的一段时间。

IOI金牌代码全公开

说到o1模型的编码能力，不知道你还是否记得，刚发布时OpenAI提到了这样一个指标：如果放宽提交约束到每个问题允许1万次提交，o1可以达到高于IOI金牌门槛的分数。

在模拟进行的Codeforces编程竞赛中，使用相同的规则进行评估，o1-preview可以打败62%的人类选手，正式版o1则上升到超越89%的对手。

专门微调过的o1-ioi模型，表现优于93%的竞争对手。

此外，前段时间有用户在实时的Codeforces比赛中使用了o1模型，结果是超越了99.8%的人类选手。

由于o1在编程竞赛领域的表现如此突出，引起了AI社区强烈的兴趣和好奇，OpenAI于是选择发布o1模型提交的代码内容，包括6个问题的全部C++代码以及注释。

发文的yummy是o1模型的核心贡献者Alexander Wei

对于o1的惊艳表现，Alexander Wei自己都很惊讶。

他本人在9年前曾参加IOI竞赛，但从未想到自己这么快就需要和AI竞争，模型展现出的推理过程的复杂程度令人印象深刻。

博文表示，虽然o1模型距离人类的顶级表现还有很长的一段路要走，但我们期待有一天能实现这个目标。

这个发展轨迹让人想起了AlphaGo——从水平高超，到能和人类顶级高手不分胜负，再到5-0完全碾压李世石。

OpenAI想要达成的，估计就是究极进化的、能在编程上碾压人类顶级高手的AlphaZero。

此处公布代码的6个问题具体如下：

有网友指出，其中最令人印象深刻的应该是象形文字（hieroglyphs）问题，o1模型总共得到44分，在现场的所有选手中排名第四。这表明，模型或许可以破译一些人类无法解决的子任务。

前几天，一位目前在NASA工作的天体物理学博士就尝试让o1复现自己论文中的代码，结果一试吓一跳——自己读博时花了1年写出的代码，o1只用了一小时就写完了。

这还只是裸模型，如果加上代码解释器、网络实时搜索等各种工具，效果想必更加惊艳。

而且，Reddit网友还送来了温馨提示：这只是o1预览版哦，可以狠狠期待一下不到一个月就即将问世的正式版o1了。

此外，这位网友还表示，o1基本沿用了GPT-4的架构；那你想，改换架构后的GPT-5（也就是传说中的猎户座）能达到什么高度。

参考资料：

https://x.com/lmsysorg/status/1836443278033719631

https://codeforces.com/blog/entry/134091

本文来自微信公众号“新智元”，编辑：乔杨，36氪经授权发布。

近期资讯

如何通过U盘轻松安装操作系统的详细步骤与技巧

在现代的电脑使用中，U盘已经成为了一个不可或缺的工具。无论是用来存储文件，还是用来安装操作系统，U盘的便捷性都让人爱不释手。今天，我们就来聊聊如何通过U盘来安装操作系统。这个过程其实并不复杂，只要你按照步骤来，就能顺利完成。在开始之前，咱们得先准备一些东西。首先，你需要一个容量足够大的U盘，通常8GB以上的U盘就可以了。

新报观察 2024-12-31

Meta 计划为 Facebook 引入 AI 角色机器人，可与用户互动对话

IT之家12月31日消息，外媒《金融时报》采访Meta的AI产品副总裁ConnorHayes获悉，Meta计划将AI生成的角色整合到Facebook社交平台中，IT之家参考报道获悉，Meta将通过提示词打造这些AI角色，相关角色将拥有独立个人资料卡，能够与用户进行互动评论，有点类似微博平台的“评论罗伯特”。

IT之家 2024-12-31

SpaceX与乌克兰最大移动运营商达成合作将推出卫星直连手机服务

当地时间周一，乌克兰最大的移动运营商Kyivstar的母公司VEON宣布，已经与马斯克旗下SpaceX签署了一项合作协议，将为这个处于战争中的国家提供星链卫星直连手机(DTC，DirecttoCell)的服务。不过，该服务预计最快要到明年第四季度才能开通，最初将支持短信和OTT消息，后期将扩展至语音和数据业务，该公司并未透露双方协议细节。

金融界 2024-12-31

如何顺利打开和使用远程桌面连接另一台电脑的详细指南

无论你是因为工作需要，还是想要在家里访问公司电脑，远程桌面都能为你提供很大的便利。首先，要确保你要连接的那台电脑是支持远程桌面的。

新报观察 2024-12-31

如何轻松加入微信群及提升互动技巧的实用指南

无论是为了工作、学习，还是为了兴趣爱好，微信群都能让我们与志同道合的人聚在一起，分享信息、传递感情。那么，如何加入微信群呢？

新报观察 2024-12-31

掌握插耳机技巧，轻松享受音乐与听觉盛宴的秘诀

耳机主要分为两种，一种是插头式的，也就是我们常见的3.5mm插头耳机；另一种是蓝牙耳机。在插耳机之前，建议先观察一下耳机的插头。

新报观察 2024-12-31

手机照片误删除后如何有效恢复的实用指南与方法解析

手机照片删除了，心里那个慌啊！谁没经历过这样的情况呢？明明是想清理一下存储空间，结果一不小心就把那些珍贵的回忆给删掉了。别担心，虽然删除了照片，但并不意味着它们就永远消失了。今天就和大家聊聊，手机照片删除了怎么恢复。首先，得搞清楚你用的是哪种手机。不同品牌和操作系统的手机在照片恢复方面的策略可能不一样。

新报观察 2024-12-31

古尔曼称苹果探索妙控鼠标未来形态：重点支持人体工学和手势

IT之家12月31日消息，彭博社记者马克・古尔曼（MarkGurman）今天（12月31日）在X平台发布推文，表示虽然目前没有听到相关的曝料线索，但认为苹果为妙控鼠标加入AI语音控制功能“合情合理”，引发了对苹果下一代鼠标的热议。

IT之家 2024-12-31

如何轻松格式化U盘：步骤详解与注意事项

格式化U盘其实是个很简单的过程，但很多人可能对这个操作不太熟悉。没关系，今天我就来详细说说怎么格式化U盘，帮助你顺利完成这个操作。无论是为了释放空间，还是为了更好地管理文件，格式化都是一个不错的选择。在我们深入操作之前，先聊聊为什么有时候需要格式化U盘。

新报观察 2024-12-31

掌握五笔输入法的技巧与方法，提升打字速度与效率

振五笔是一种非常实用的输入法，尤其是在中文输入中，熟练掌握五笔字型可以大大提高打字的速度和效率。首先，我们来简单了解一下五笔字型的基本原理。只要你坚持不懈，勤加练习，最终一定能够掌握这门技能，享受中文输入带来的乐趣。

新报观察 2024-12-31

OpenAI o1全方位SOTA登顶lmsys排行榜，数学能力碾压Claude和谷歌模型，o1-mini并列第一

IOI金牌代码全公开

推荐体验

相关资讯