GPT-4升级被曝引入Q*，推理/数学更强废话更少，竞技场重夺王位

作者：量子位发布时间：2024-04-12

GPT-4

啥？

新版GPT-4是在Q*的输出上微调的？

在竞技场重回榜一的新版GPT-4 Turbo，成功再次踩中大家嗨点。

它此次的性能提升体现在数学、推理、代码上，而且输出内容废话更少。

最让大家感到兴奋的是其数学/推理能力，现在可以在一些问题上完胜其他大模型。

比如“求y=x^4-5x^2-x+4和y=x^2-3x交点的y坐标之和。”只有最新版GPT-4 Turbo能测出来。

这条推特被公开承认自己参与过Q*的Lukasz Kaiser转发。

Noam Brown也发推表示新版GPT-4 Turbo在推理能力上大幅提升——要知道，这位OpenAI科学家一直被外界认为正在研究Q*。

各方信息汇总后，网友们一拍脑袋反应过来，这其中会不会就引入了Q*啊？

数学方面的提升意味着其中可能包含了一个数学模型，可能是Q*。

（以及他的数学题测试推特被OpenAI的人转发了）

好家伙，难道OpenAI在悄悄搞大事？

新GPT-4的“新马脚”？

OpenAI官方公告表示，最新版本的GPT-4 Turbo全方位大提升，现在ChatGPT用户可直接体验。

网友立马冲去实测，有人给出评估结果，特别是数学/推理能力有了重大提升。

实际问题测试中，在多个数学推理题上，GPT-4 Turbo都没有翻车，但是如Command-R plus、Clauede-3 Opus等都有失误。

比如一道乘电梯的推理题。陷阱在于这部神奇电梯无论坐几层，最后都会停在一层。GPT-4 Turbo理解了这层逻辑，最后给出了正确答案。

还有在修改二叉树问题上，GPT-4 Turbo不仅回答正确，而且过程清晰完整。

同时在“大海捞针”能力上，与之前版本对比，最新GPT-4 Turbo已经是出版GPT-4能力的4.3倍。

竞技场的结果表明，在代码能力方面，GPT-4 Turbo也更强了。

文本输出方面变得更加简洁。

生成代码也少了很多废话（下图右侧为新版本）。

有人补充说，生成速度上也更快了。

**神秘Q*：OpenAI的最大秘密？**

现在Q*已经成了OpenAI的流量密码了，只要出现这个关键字，网友们都会兴奋不已。

毕竟当初奥特曼宫斗大戏就和它有关联，还有人发出警告，Q*预示着AGI即将出现。

不过官方一直没有公开承认过这个项目的存在，奥特曼拒绝回答，Transformer作者公开承认参与Q*也被OpenAI公关跳起来捂嘴。

从目前各方透露的信息来看，Q*专注于逻辑和数学推理能力，数学能力突出。

Transformer作者之一Lukasz Kaiser承认自己参与了这个项目。

德扑AI之父、前FAIR（Meta）研究科学家Noam Brown也被视为是Q*项目的重要成员（推测来自LeCun）。

他加入OpenAI的动作也被外界视为分析Q*的一个线索，“有理由怀疑Q是将LLM和AlphaGo结合起来，并用强化学习进行训练”。

Noam Brown开发出了第一个在打扑克牌上超越人类的AI，后来加入Meta致力于让AI学会玩Diplomacy（外交游戏）。

目前，关于Q*的准确信息还是非常少。

可能奥特曼还在等一个合适的时机来回应外界。

One More Thing

btw，网友们意外捉到总裁Brockman转发的一个视频演示里的提示词是：

创建一个python脚本，使用pytube库从YouTube下载视频。

看来大家拿GPT-4干的事也都差不多嘛（doge）。

参考链接：

[1]https://twitter.com/lukaszkaiser

[2]https://twitter.com/skirano/status/1778122305471705489

[3]https://twitter.com/7oponaut/status/1777971159478194256

[4]https://twitter.com/ai_for_success/status/1778073765748064678

[5]https://www.understandingai.org/p/how-to-think-about-the-openai-q-rumors

本文来自微信公众号“量子位”（ID:QbitAI），作者：明敏，36氪经授权发布。

相关资讯

OpenAI重夺竞技场第一，但这波靠的是4o

Gemini刚在竞技场头把交椅上坐了不到一周，最新版ChatGPT轻轻一更新，第一再次易主。对，还不是o1满血版，而是新版4o。模型能完成更自然、更有吸引力、更具针对性的写作，文本相关性和可读性更强。还可以更好地处理上传的文件，提供更深入的见解和更全面的响应。

OpenAI ChatGPT

量子位 2024-11-21

OpenAI推出GPT-4升级版GPT-4 Turbo：功能更强大且更便宜

当地时间周一，美国人工智能研究公司OpenAI推出了GPT-4 Turbo，这是其大语言模型GPT-4的升级版本。

OpenAI GPT-4 人工智能大语言模型

2023-11-07

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

Cohere的机器学习总监NilsReimers还表示，这还不是CommandR+的真实实力，它的优势区间是RAG和工具使用的能力，而这些外挂能力在LLM竞技场中没有用到。上面左图展示了Azure上可用的模型…

GPT-4 机器学习

IT之家 2024-04-21

开源模型首胜GPT-4！大模型竞技场最新战报引热议

GPT-4

量子位 2024-04-10

GPT-4王冠没掉！Claude 3竞技场人类投票成绩出炉：仅居第三

GPT-4王冠没掉！Claude 3竞技场人类投票成绩出炉：仅居第三丰色发自凹非寺量子位公众号 QbitAI Claude 3的竞技场排名终于来了：短短3天内，20000张

GPT-4 Claude

量子位 2024-03-08

近期资讯

贵圈必修“番位学”，到底利好了谁？

撕番、开机换导演……贵圈戏外比戏内精彩。

文娱Talk 2024-12-27

餐饮难做，都怪社区小店太多？

餐饮成功三要素：产品力、单店盈利模型、扩张节奏。

红餐网 2024-12-27

消费纪 2024-12-27

热度与口碑倒挂，《冬至》做错了啥？

《冬至》这波扑得不冤

犀牛娱乐 2024-12-27

75亿，深圳福田杀出一个智驾明星IPO

花落深圳福田。

融资中国 2024-12-27

普通人看见普通人：当探店博主走上台前

人民的米其林

远川研究所 2024-12-27

华夏大悦城商业REIT：魏学问接替田维龙出任大悦城运管董事长

因其内部工作需要，魏学问先生接替田维龙先生出任大悦城运管董事长兼董事、经理及法定代表人。

未来城不落 2024-12-27

2025年怎么走，这份报告让家居企业更早抄到答案

理解人群，才能找到解法

家居新范式 2024-12-27

GPT-4升级被曝引入Q*，推理/数学更强废话更少，竞技场重夺王位

新GPT-4的“新马脚”？

**神秘Q*：OpenAI的最大秘密？**

One More Thing

推荐体验

相关资讯

OpenAI重夺竞技场第一，但这波靠的是4o

OpenAI推出GPT-4升级版GPT-4 Turbo：功能更强大且更便宜

开源模型打败 GPT-4：LLM 竞技场最新战报，Cohere Command R + 上线

开源模型首胜GPT-4！大模型竞技场最新战报引热议

GPT-4王冠没掉！Claude 3竞技场人类投票成绩出炉：仅居第三

近期资讯

贵圈必修“番位学”，到底利好了谁？

餐饮难做，都怪社区小店太多？

厦门国贸“退房”，终于走到尾声了

台湾年轻人，疯抢泡泡玛特

不只是恋爱，女性向游戏开始洗牌

热度与口碑倒挂，《冬至》做错了啥？

75亿，深圳福田杀出一个智驾明星IPO

普通人看见普通人：当探店博主走上台前

华夏大悦城商业REIT：魏学问接替田维龙出任大悦城运管董事长

2025年怎么走，这份报告让家居企业更早抄到答案

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响