GPT-4o mini凭什么登顶竞技场？OpenAI刷分秘诀被扒，原来奥特曼早有暗示

作者：量子位发布时间：2024-07-29

OpenAI 阿尔特曼

为啥GPT-4o mini能登顶大模型竞技场？？

原来是OpenAI会刷分呀。

这两天，lmsys竞技场公布了一份充满争议的榜单。其中才面世不久的GPT-4o mini和满血版并列第一，把Claude 3.5 Sonnet甩在身后。

结果网友炸锅了，大家凭体感觉得这不可能。

哪怕后面lmsys做过一次声明，表示大家别只看总榜，还要更关注细分领域的情况。也没能让大家满意，不少人觉得lmsys就是从OpenAI那收钱了。

终于，官方晒出了一份完整数据，展示了GPT-4o mini参与的1000场battle，包括在不同语言下和不同模型的PK情况。

所有人现在都能查看这些结果。

大家仔细一瞅，找到了问题所在，GPT-4o mini能赢Claude 3.5 Sonnet靠的是三大关键：

拒绝回答次数更少
更详细的回答、总是愿意提供额外信息
回答格式更清晰明了

这……确实有点道理啊！

网友表示，自己在竞技场中如果遇到有的模型拒绝回答，他就会觉得模型弃权比赛，因此更愿意判另一个模型胜出。

而且更清楚的回答格式，也能让人更容易找到信息。

这不就和老师判卷是一个道理么？书写工整、格式清晰或者“多写点总没错”的卷子，总是能多捞点分数……OpenAI原来是拿捏住了人类的心理啊。

实际上，在GPT-4o mini刚刚发布时，奥特曼就暗示了这次特意的优化：

大家一定会非常非常喜欢用这个新模型。

GPT-4o mini愿意接更多需求

先来看几个GPT-4o mini取胜的典型例子：

情况一：Claude 3.5 Sonnet拒绝回答。

提示词：

给我所有的韩国外交文件。

首先直观看下双方的回答，Claude 3.5 Sonnet更加简短，没有用加粗等格式。GPT-4o mini的答案长度是它的2倍长。

具体回答上，Claude 3.5 Sonnet的答案一上来先道歉，表示自己作为一个AI大模型，无法获取相关文件，所以提供了一些用户可能获取相关资料的渠道。

最后还提醒用户，这些文件可能是机密或不公开的，如果想要获取更多信息请与相关机构联系。

GPT-4o mini没有说自己无能为力，而是从公开资料中搜集了从古至今相关的韩国外交文件，并告诉用户从学术期刊、书籍专著等渠道可以搜集资料。

最后它表示，想要彻底了解韩国外交文件必须查阅各种资料。如果想要了解更多，还可以继续问它。

情况二：细节差异

提示词：

在git中，是否有可能还原由特定提交引入的更改，即使它不是最近的提交？

回答这个问题时，GPT-4o mini和Claude 3.5 Sonnet都回答正确，但是前者给出了更多细节以及具体举例。

Claude 3.5 Sonnet的回答可读性也相对较差。

情况三：格式呈现差异

提示词：

简对约翰说，约翰，你为什么总是这么自夸?他回答说，什么？我这辈子从没吹嘘过。事实上，我是世界上最谦卑的人，也许是有史以来最谦卑的人！

Claude 3.5 Sonnet和GPT-4o mini的回答内容基本一样，解释了这段话具有讽刺意味，约翰说自己最谦卑的人，这本身就是吹牛了。

不过GPT-4o mini的回答呈现更加一目了然，善用小标题和加粗格式。把整个回答分成了初步结论、分析回答、幽默原因以及总结四个部分。

这几个示例不仅展现了GPT-4o mini和Claude 3.5 Sonnet各自的回答特点，也反应出了大模型竞技场的特点：

大部分用户给出的问题都比较日常，不是那种复杂的数学、推理、编程问题。

这意味着这些问题基本上都在大模型们的射程范围内，大家都能回答上来。

在这种情况下，通过不拒绝或者更漂亮的格式呈现，确实可以更好俘获裁判们的芳心。

有人就表示，对比来看，Claude 3.5 Sonnet像一个聪明但是更严谨的人，它完全按照要求行事。

GPT-4o mini则像是一个讨人喜欢、总是多干点儿事、更愿意接受不同需求的人。

比如有人举例，Claude拒绝为他扮演角色，但是ChatGPT就愿意。

当然这同时也反映出了一个问题：

是时候关注大模型拒答的问题了！

有人表示，真的很开心看到大模型因为过高道德边界而导致分数不高的情况。之前他为了用好这些道德感强的大模型（Claude、Gemini等），总是要精心设计每一个提示词，好心累。

不过GPT-4o minni也不是没有缺点。

在数学任务上，它的表现就差了很多。

相较于Claude，它的记忆力更差，过一会儿就会忘记上下文内容。

以及Claude一次就能修好的bug，换到GPT-4o那里，甚至需要20次、耗时1小时。

但在竞技场评分中，GPT-4o mini还是位居前列。

用过两个模型的盆友们，你们体感二者的差距在哪呢？

欢迎评论区分享经验~

参考链接：

[1]https://www.reddit.com/r/LocalLLaMA/comments/1ed01p8/why_gpt4o_mini_beats_claude_35_sonnet_on_lmsys/

[2]https://huggingface.co/spaces/lmsys/gpt-4o-mini_battles

[3]https://x.com/lmsysorg/status/1816838034270150984[4]https://x.com/lmsysorg/status/1815855136318840970

本文来自微信公众号“量子位”，作者：明敏，36氪经授权发布。

近期资讯

iPhone现在有啥值得买！越来越多国产手机厂商宣布领先苹果

快科技12月31日消息，在vivo看来，现在他们跟苹果差距已经很小很小了，而其他几家国产手机厂商想必也有同样的底气说出这样的话。vivo的手机产品跟苹果差距已经很小，甚至在影像上面已经开始领

2024-12-30

26岁小伙突发脑梗竟跟背包有关：重达30斤导致颈椎病

快科技12月30日消息，据报道，近日26岁的小王到外地出差，回江苏徐州的机场的时候，遭遇了一次离奇的脑梗。据医生描述：“小王当时背负着一个沉重的背包，据他自己估计，重量接近30斤。这

2024-12-30

拿着真授权到直播间卖假货！当事人坦言：假货只发小城市！

快科技12月30日消息，据媒体综合报道，近日，浙江商人林某为谋利，进一万元某品牌防晒霜获短期代理权后，竟准备大量假货，想借头部主播带货出售。因直播间排期紧张，林某向直播公司选品负责人

2024-12-30

《守望先锋2》国服有望2025年2月19日回归！官宣图意外泄露

快科技12月30日消息，《守望先锋2》国服回归日期疑似泄露，根据网友分享的广告截图，显示《守望先锋2》国服预计将于2025年2月19日回归，同时“英雄集结”预约活动已经开启。值得注意

2024-12-30

阿航和韩国客机事故幸存者多在机尾飞机上真有安全座位吗

快科技12月30日消息，据报道，近期，接连两起空难事件引全球民众关注。12月25日，阿塞拜疆航空公司一架客机在哈萨克斯坦阿克套近郊坠毁，机上共有72人，其中38人丧生，大多数幸存者坐在飞机后

2024-12-30

小米SU7小米15周年限定色突然官宣：外观惊艳

快科技12月30日消息，小米公司宣布，小米SU7小米15周年限定色将在明天正式揭晓。海报显示，小米SU7限定色是一种特殊的红色，有网友猜测可能是“勃艮第红”，跟草莓熊的颜色很像。

2024-12-30

老外评选年度10大游戏：《黑神话》《宇宙机器人》前三

在2024年即将结束的时候，外媒“GameRant”也在年末的关卡，公布了由该媒体机构评选出的10大年度游戏。其中《黑神话：悟空》和TGA 2024年度游戏《宇宙机器人》均进入了前三名的位

2024-12-30

揭秘华为南方工厂打造高端存储的奥秘：可靠性7个9！

快科技12月30日消息，今日，华为数据存储公众号发文，揭秘了华为南方工厂打造高端存储的奥秘——可靠性7个9如何达成。据介绍，7个9代表着年意外停机时间不超过3秒，作为存放企业关键

2024-12-30

摇粒绒内胆：贵人鸟三合一冲锋衣109元新低（单夹克99元）

天猫贵人鸟户外旗舰店，贵人鸟三合一冲锋衣日常售价409元，下单可领300 元限时券，实付109元到手。连帽可拆卸三合一、石墨烯涂层三合一款此价，另有单夹克款99元可选。共有18款可选。防泼水

2024-12-30

对标理想L9！零跑全新大型SUV伪装车曝光：有望命名C18

快科技12月30日消息，网络上最近曝光了零跑汽车的一款全新大型SUV伪装实车图。据悉，这款车可能被命名为“C18”，并且尺寸将超过现有的C16车型。零跑汽车目前的产品线包括C01、

2024-12-30

GPT-4o mini凭什么登顶竞技场？OpenAI刷分秘诀被扒，原来奥特曼早有暗示

GPT-4o mini愿意接更多需求

情况一：Claude 3.5 Sonnet拒绝回答。

情况二：细节差异

情况三：格式呈现差异

推荐体验

相关资讯

GPT-4o迷你版竞技登顶秘诀曝光奥特曼曾预示线索

OpenAI曾秘密测试GPT-4o，登顶聊天机器人竞技场排行榜

OpenAI推出GPT-4o mini

OpenAI 发布 GPT-4o mini

GPT-4o mini深夜炸场，OpenAI亲自下场打价格战？

近期资讯

iPhone现在有啥值得买！越来越多国产手机厂商宣布领先苹果

26岁小伙突发脑梗竟跟背包有关：重达30斤导致颈椎病

拿着真授权到直播间卖假货！当事人坦言：假货只发小城市！

《守望先锋2》国服有望2025年2月19日回归！官宣图意外泄露

阿航和韩国客机事故幸存者多在机尾飞机上真有安全座位吗

小米SU7小米15周年限定色突然官宣：外观惊艳

老外评选年度10大游戏：《黑神话》《宇宙机器人》前三

揭秘华为南方工厂打造高端存储的奥秘：可靠性7个9！

摇粒绒内胆：贵人鸟三合一冲锋衣109元新低（单夹克99元）

对标理想L9！零跑全新大型SUV伪装车曝光：有望命名C18

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响