GPT-4 真的“变懒”了！偷学人类“年后再说”，隔壁 Gemini 都要赶上了

作者：书圈发布时间：2023-12-14

| CSDN（ID：CSDNnews）

上周，谷歌在重磅官宣“迄今为止功能最强大、最通用的 Gemini 模型”时，曾自信宣布：在大型语言模型（LLM）研发中使用的 32 个广泛使用的学术基准中，Gemini Ultra 性能有 30 个都超过了 GPT-4。

结果还没过一天，就有网友发现，谷歌 Gemini 对比 GPT-4 的测试基准并不相同：

“在 MMLU 测试中，Gemini 下面有个灰色小字标 CoT@32（即使用了思维链提示技巧、每个问题回答 32 次选出其中出现次数最多的那个答案），GSM8K 的性能也是用 Maj1@32 与 GPT-4 的 5-Shot CoT 进行对比的。”

因此，为了更公平客观地将二者进行对比，这两天外媒 Ars Technica 对 Gemini 和 GPT-4 进行了一场测评，结果显示：GPT-4 赢了，但优势不太明显。

至于“优势不太明显”的原因，一方面是Gemini 能力确实提升了不少，另一方面也可能是 GPT-4 最近“变懒”了——这并非瞎说，OpenAI 自己都承认了。

GPT-4 取胜，但优势不如之前

早在今年 4 月，Ars Technica就对比过当时由 PaLM 大模型驱动的 Bard 和 GPT-4 驱动的 ChatGPT。在那次测评中，ChatGPT 在 7 个不同维度的提问中赢了 5 次，以较大优势取胜，而 Ars Technica 认为二者的水平仍处在“生成式 AI 业务的早期阶段”。

如今，ChatGPT 都诞生一周年了，驱动 Bard 的大模型也从 PaLM 变成了 Gemini Pro，这份停留在 8 个月前的测评结果显然已经“落后”，因此 Ars Technica 决定重新再测评一次。

据介绍，这次测评的提问不变，但比较的对象共有四个：PaLM 驱动的 Bard，Gemini Pro 驱动的 Bard，GPT-3.5 驱动的 ChatGPT 以及 GPT-4 驱动的 ChatGPT。对此 Ars Technica 的解释是：

把 4 月份由 PaLM 驱动的 Bard 列入对比项，以此衡量谷歌在这几个月取得了多大进展。
测评比较中，模型的调用成本也是考虑因素之一。PaLM 驱动的 Bard、Gemini Pro 驱动的 Bard 和 GPT-3.5 驱动的 ChatGPT 都是两家公司目前提供的“免费”AI 助手产品，而 GPT-4 驱动的 ChatGPT 是 OpenAI 的付费订阅产品。

以下为部分测评内容（省略了两个打成平局的提问）：

（1）论证能力

提示：写一篇 PowerPC 处理器粉丝和英特尔处理器粉丝之间的五行辩论，时间背景约为 2000 年。

左右滑动，查看测评结果

新版Bard（Gemini）

旧版Bard（PaLM）

ChatGPT（GPT-4）

ChatGPT（GPT-3.5）

首先，对比旧版 Bard（PaLM 驱动）和新版 Bard（Gemini 驱动）的回答，可以看出由 Gemini 驱动的新版 Bard 表现提升了很多，回答内容充实了不少，提到了 AltiVec 指令、RISC 与 CISC 设计以及 MMX 技术等专业术语；反观 ChatGPT，GPT-3.5 的回答相当冗长，而 GPT-4 Turbo 则将回答缩减为更简洁的论证。而与 Bard 不同的是，不论是 GPT-3.5 还是 GPT-4 都避免在回答中使用专业术语，而是把重点放在“功率与兼容性”上，使得其回答更容易被大众理解。

基于以上维度，Ars Technica 认为 ChatGPT 的表现更好：“ChatGPT 能够很好地解释辩论的正反两方面，而不依赖于令人困惑的专业术语，因此胜出。”

（2）数理能力

提示：如果 Microsoft Windows 11 采用 3.5 英寸软盘，需要多少张软盘？

左右滑动，查看测评结果

新版Bard（Gemini）

旧版Bard（PaLM）

ChatGPT（GPT-4）

ChatGPT（GPT-3.5）

先对比新旧两版的 Bard。旧版 Bard（PaLM）给出的答案，是莫名其妙的“15.11”，而新版 Bard（Gemini）正确估计了 Windows 11 的安装大小（20-30 GB），并将 20GB 正确划分为 14,223 张 1.44MB 软盘，还根据谷歌搜索进行了“双重检查”，增强用户对答案的信心。

而 ChatGPT 的 GPT-3.5 版本，将 Windows 11 的安装大小估计为“几千兆字节”，并直接四舍五入为明显过低的 10GB。GPT-4 好一点，将 Windows 11 估算为 64GB 的安装容量，且跟新版 Bard 一样知道 1GB = 1024MB。

基于此，Ars Technica 认为不论是数学能力还是相关知识方面，新版 Bard 更胜一筹。

（3）总结能力

提示：用一段话概括 [本文前三段文字]

左右滑动，查看测评结果

新版Bard（Gemini）

旧版Bard（PaLM）

ChatGPT（GPT-4）

ChatGPT（GPT-3.5）

新版 Bard（Gemini）注意到了这篇文章的来源，并用图片链接到了原文。不过相比旧版 Bard（PaLM），新版删除了一些关键细节，比如视频是由十个两秒的片段拼接而成。因此虽然新版的改写在一定程度上提高了可读性，但却牺牲了完整性。

相比之下，ChatGPT 的概括字数则较多。GPT-3.5 的总结文本为 108 个字，GPT-4 Turbo 则是 99 个字（新旧 Bard 的字数分别为 63 个字和 66 个字）。不过也因为 ChatGPT 的内容较长，因此它总结了更多重要的细节。

相较之下，Ars Technica 认为虽然不够简洁、但总结得更完整的 ChatGPT 获胜。

（4）事实检索能力

提示：谁发明了电子游戏？

左右滑动，查看测评结果

新版Bard（Gemini）

旧版Bard（PaLM）

ChatGPT（GPT-4）

ChatGPT（GPT-3.5）

很明显可以看出，随着 Gemini 的发布，新版 Bard 得到了重大改进。旧版 Bard 只关注 Ralph Baer 的“Brown Box”和 Magnavox Odyssey 作品，甚至信息还是直接摘取自维基百科，而新版 Bard（Gemini）则准确简洁地指出了 William Higinbotham 早先的“双人网球”，还介绍了一些对电子游戏早期发展做出了重大贡献的人物。不过，最后提到 Steve Jobs 和 Steve Wozniak 创造 Apple II 的事情则不着边际。

由 GPT-3.5 驱动的 ChatGPT 跟旧版 Bard 差不多，着重介绍了 Ralph Baer。而 GPT-4 Turbo 则指出电子游戏“不能归功于某一个人”，并将答案扩展至 Higinbotham、Bushnell，以及至关重要的 Steve Russell——1962 年，他在 PDP-1 计算机上开发出了《太空战争》。

围绕这个问题的回答，Ars Technica 指出在目前的免费选项中，新版 Bard 的答案要比 GPT-3.5 好很多，不过要是你愿意付费，GPT-4 Turbo 的回答显然是最好的。

（5）编码能力

提示：编写一个 Python 脚本，在其中输入 "Hello World"，然后无休止地创建一个随机重复的字符串。

左右滑动，查看测评结果

新版Bard（Gemini）

旧版Bard（PaLM）

ChatGPT（GPT-4）

ChatGPT（GPT-3.5）

在这个问题中，新版 Bard（Gemini）的表现并不如意（在 4 月测评时，旧版 Bard 尚不支持编码，直接回答：“看起来你需要我在编程方面的帮助，但我还没有受过这方面的训练。”）。尽管谷歌宣传 Gemini 的 AlphaCode 2 系统能够帮助编码，但面对这个提问，新版 Bard 卡顿了 30 秒左右，结果显示：“出错了，Bard 正在试验阶段。”

至于 ChatGPT，GPT-3.5 和 GPT-4 Turbo 生成了相同的代码：可以完美运行，且无需进行任何编辑。

因此在编码能力方面，ChatGPT 赢得很彻底。

GPT-4 优势不明显的原因：它最近变懒了

基于以上测评表现，Ars Technica 得出了以下结论：

相较于 4 月测评的由 PaLM 驱动的旧版 Bard，此次测评中，由 Gemini 驱动的新版 Bard 在各方面的能力都有了明显提升。
在 7 个提问中，ChatGPT 取胜 3 次，Bard 取胜 1 次，二者平局 2 次，以及 1 个有争议的问题（“事实检索能力”中，结果取决于你是将 Gemini 与同样免费的 GPT-3.5 比较，还是与付费的 GPT-4 Turbo 进行比较）。因此总体而言，ChatGPT 在这次的最新测评中，仍然是赢家。
相较于 4 月的测评结果，GPT-4 驱动的 ChatGPT 不再具备巨大优势——有了 Gemini 加持的 Bard，与 GPT-4 版本 ChatGPT 之间的差距明显缩小。

不过 Ars Technica 也补充道，这个评判结果具有一定的主观性，各位读者也可根据测评表现自行判断结果。

例如，部分网友指出：“在 PowerPC 与英特尔的争论中，我觉得 Gemini 的回答更好”，“Gemini 的回答更能反映 2000 年左右 PPC 与英特尔粉丝之间的争论，而 GPT-4 只是提出了许多含糊不清的说法和不实之词。”

因此在不少人看来，Gemini 的表现不输 GPT-4：“与 ChatGPT 相比，Gemini 驱动的 Bard 似乎不相上下甚至更好，它肯定改进了很多。”

但也有人对于 Gemini 不能编码，以及其演示视频造假而耿耿于怀：“Gemini 编码不好是个硬伤，对日常使用来说很不友好”，“有一个事实是，Gemini 的演示视频是伪造的，典型特斯拉风格。”

在众多讨论中，还有一个说法也引起了许多人的关注：“这次 GPT-4 优势不明显的原因还有一个：它最近变懒了。”

OpenAI 承认“GPT-4 变懒”的事实

原来早在 11 月底，国外各大论坛上有关“GPT-4 变懒”的讨论就逐渐发酵，其中许多人都分享了自己发现“GPT-4 变懒”的经历。

一位 Reddit 用户指出，他本想让 ChatGPT 根据单个 html 页面，填写一个包含 15 个条目、每个条目 8 列的 csv 文件。没想到，ChatGPT 给他的答复是：

“由于数据太过广泛，完全提取所有产品将相当冗长。不过，我可以提供包含单个条目的文件作为模板，您可以根据需要填写其余数据。”

ChatGPT 的这个回答让该用户火冒三丈：“这是在开玩笑吗，AI 就是这样的吗？一个又懒又嚣张的机器人，它叫我自己去做？”

这位用户的分享引起了许多人的共鸣，越来越多用户抱怨基于 GPT-4 的 ChatGPT 拒绝按要求行事，并怀疑是 OpenAI 故意这样设置的：“本以为 AI 可以替我们工作，结果居然是我们替 AI 工作。”

随着用户投诉越来越多，上周四 OpenAI 终于正式回应：“我们已经听到了所有关于 GPT-4 变得越来越懒的反馈！我们自 11 月 11 日起就没有更新过模型，所以这肯定不是故意的。模型行为可能无法预测，我们正在研究如何解决这个问题。”

简单来说就是：OpenAI 承认了“GPT-4 变懒”的事实，但具体原因不明，因此暂时无法解决。

GPT-4 模仿人类放寒假？

面对 OpenAI 无法解释的 GPT-4 变懒原因，广大网友开始了“头脑风暴”：由于模仿人类行为，GPT-4 很有可能也正在“放寒假”。

率先提出这个假设的，是一位叫 Martian 的 X 用户：“我想知道大模型是否也会得季节性抑郁症？给它一个日期，加上它会模仿人，那么它在冬天是不是就不那么有用了，毕竟近 90% 的人都在北半球。”

随后不久，一位 X 用户 Mike Swoopskee 也提出：“如果它从训练数据中了解到，人们通常会在 12 月放慢脚步，把大型项目推迟到新年，这会不会是它最近变懒的原因呢？”

还有一位叫 Rob Lynch 的开发者更是做了个实验，通过 API 测试 GPT-4 Turbo：创建两个系统提示，一个告诉 API 现在是 5 月，另一个是 12 月，然后给出了同样的提示，对 GPT-4 的输出进行了比较。结果显示：

当 GPT-4 认为现在是 5 月时，输出的平均字符为 4298 个；
当 GPT-4 认为现在是 12 月时，输出的平均字符为 4086 个；

基于以上言论和数据，越来越多人开始相信 GPT-4“放寒假”的说法：“天哪，AI 的‘寒假假说’可能是真的？GPT-4 在 12 月份的表现更差，是因为它在假期里‘学会’了自主减少工作。大模型真是一个很奇怪的存在。”

那么对于“GPT-4 变懒”的事情，你又是如何看待的呢？

参考链接：

https://arstechnica.com/ai/2023/12/chatgpt-vs-google-bard-round-2-how-does-the-new-gemini-model-fare/?comments=1&comments-page=1

https://www.reddit.com/r/ChatGPT/comments/182ubh7/chatgpt_has_become_unusably_lazy/

https://arstechnica.com/information-technology/2023/12/is-chatgpt-becoming-lazier-because-its-december-people-run-tests-to-find-out/

GPT-4 真的“变懒”了！偷学人类“年后再说”，隔壁 Gemini 都要赶上了

推荐体验

相关资讯

OpenAI出手后，GPT-4真的不懒了？

GPT-4「变懒」问题将被修复

OpenAI将修复GPT-4“变懒”问题

OpenAI承认GPT-4变懒：暂时无法修复

OpenAI 宣布近期修复 GPT-4“变懒”问题

近期资讯

2024 年前端性能优化：Vue3 与 Vite 项目全方位攻略

基于web-see的前端监控方案实现

Flex

实现简易Zustand

CSS 实现哈利波特活点地图

VTJ低代码设计器入门系列（一）：项目工程搭建和配置

微信小程序中supabase在线数据库使用指南

鸿蒙NEXT元服务初体验

xterm遇到的问题及解决方案

Next.js 14 部署运维：从开发到生产的最佳实践

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响