| CSDN(ID:CSDNnews)
上周,谷歌在重磅官宣“迄今为止功能最强大、最通用的 Gemini 模型”时,曾自信宣布:在大型语言模型(LLM)研发中使用的 32 个广泛使用的学术基准中,Gemini Ultra 性能有 30 个都超过了 GPT-4。
结果还没过一天,就有网友发现,谷歌 Gemini 对比 GPT-4 的测试基准并不相同:
“在 MMLU 测试中,Gemini 下面有个灰色小字标 CoT@32(即使用了思维链提示技巧、每个问题回答 32 次选出其中出现次数最多的那个答案),GSM8K 的性能也是用 Maj1@32 与 GPT-4 的 5-Shot CoT 进行对比的。”
因此,为了更公平客观地将二者进行对比,这两天外媒 Ars Technica 对 Gemini 和 GPT-4 进行了一场测评,结果显示:GPT-4 赢了,但优势不太明显。
至于“优势不太明显”的原因,一方面是Gemini 能力确实提升了不少,另一方面也可能是 GPT-4 最近“变懒”了——这并非瞎说,OpenAI 自己都承认了。
GPT-4 取胜,但优势不如之前
早在今年 4 月,Ars Technica就对比过当时由 PaLM 大模型驱动的 Bard 和 GPT-4 驱动的 ChatGPT。在那次测评中,ChatGPT 在 7 个不同维度的提问中赢了 5 次,以较大优势取胜,而 Ars Technica 认为二者的水平仍处在“生成式 AI 业务的早期阶段”。
如今,ChatGPT 都诞生一周年了,驱动 Bard 的大模型也从 PaLM 变成了 Gemini Pro,这份停留在 8 个月前的测评结果显然已经“落后”,因此 Ars Technica 决定重新再测评一次。
据介绍,这次测评的提问不变,但比较的对象共有四个:PaLM 驱动的 Bard,Gemini Pro 驱动的 Bard,GPT-3.5 驱动的 ChatGPT 以及 GPT-4 驱动的 ChatGPT。对此 Ars Technica 的解释是:
以下为部分测评内容(省略了两个打成平局的提问):
(1)论证能力
提示:写一篇 PowerPC 处理器粉丝和英特尔处理器粉丝之间的五行辩论,时间背景约为 2000 年。
左右滑动,查看测评结果
新版Bard(Gemini)
旧版Bard(PaLM)
ChatGPT(GPT-4)
ChatGPT(GPT-3.5)
首先,对比旧版 Bard(PaLM 驱动)和新版 Bard(Gemini 驱动)的回答,可以看出由 Gemini 驱动的新版 Bard 表现提升了很多,回答内容充实了不少,提到了 AltiVec 指令、RISC 与 CISC 设计以及 MMX 技术等专业术语;反观 ChatGPT,GPT-3.5 的回答相当冗长,而 GPT-4 Turbo 则将回答缩减为更简洁的论证。而与 Bard 不同的是,不论是 GPT-3.5 还是 GPT-4 都避免在回答中使用专业术语,而是把重点放在“功率与兼容性”上,使得其回答更容易被大众理解。
基于以上维度,Ars Technica 认为 ChatGPT 的表现更好:“ChatGPT 能够很好地解释辩论的正反两方面,而不依赖于令人困惑的专业术语,因此胜出。”
(2)数理能力
提示:如果 Microsoft Windows 11 采用 3.5 英寸软盘,需要多少张软盘?
左右滑动,查看测评结果
新版Bard(Gemini)
旧版Bard(PaLM)
ChatGPT(GPT-4)
ChatGPT(GPT-3.5)
先对比新旧两版的 Bard。旧版 Bard(PaLM)给出的答案,是莫名其妙的“15.11”,而新版 Bard(Gemini)正确估计了 Windows 11 的安装大小(20-30 GB),并将 20GB 正确划分为 14,223 张 1.44MB 软盘,还根据谷歌搜索进行了“双重检查”,增强用户对答案的信心。
而 ChatGPT 的 GPT-3.5 版本,将 Windows 11 的安装大小估计为“几千兆字节”,并直接四舍五入为明显过低的 10GB。GPT-4 好一点,将 Windows 11 估算为 64GB 的安装容量,且跟新版 Bard 一样知道 1GB = 1024MB。
基于此,Ars Technica 认为不论是数学能力还是相关知识方面,新版 Bard 更胜一筹。
(3)总结能力
提示:用一段话概括 [本文前三段文字]
左右滑动,查看测评结果
新版Bard(Gemini)
旧版Bard(PaLM)
ChatGPT(GPT-4)
ChatGPT(GPT-3.5)
新版 Bard(Gemini)注意到了这篇文章的来源,并用图片链接到了原文。不过相比旧版 Bard(PaLM),新版删除了一些关键细节,比如视频是由十个两秒的片段拼接而成。因此虽然新版的改写在一定程度上提高了可读性,但却牺牲了完整性。
相比之下,ChatGPT 的概括字数则较多。GPT-3.5 的总结文本为 108 个字,GPT-4 Turbo 则是 99 个字(新旧 Bard 的字数分别为 63 个字和 66 个字)。不过也因为 ChatGPT 的内容较长,因此它总结了更多重要的细节。
相较之下,Ars Technica 认为虽然不够简洁、但总结得更完整的 ChatGPT 获胜。
(4)事实检索能力
提示:谁发明了电子游戏?
左右滑动,查看测评结果
新版Bard(Gemini)
旧版Bard(PaLM)
ChatGPT(GPT-4)
ChatGPT(GPT-3.5)
很明显可以看出,随着 Gemini 的发布,新版 Bard 得到了重大改进。旧版 Bard 只关注 Ralph Baer 的“Brown Box”和 Magnavox Odyssey 作品,甚至信息还是直接摘取自维基百科,而新版 Bard(Gemini)则准确简洁地指出了 William Higinbotham 早先的“双人网球”,还介绍了一些对电子游戏早期发展做出了重大贡献的人物。不过,最后提到 Steve Jobs 和 Steve Wozniak 创造 Apple II 的事情则不着边际。
由 GPT-3.5 驱动的 ChatGPT 跟旧版 Bard 差不多,着重介绍了 Ralph Baer。而 GPT-4 Turbo 则指出电子游戏“不能归功于某一个人”,并将答案扩展至 Higinbotham、Bushnell,以及至关重要的 Steve Russell——1962 年,他在 PDP-1 计算机上开发出了《太空战争》。
围绕这个问题的回答,Ars Technica 指出在目前的免费选项中,新版 Bard 的答案要比 GPT-3.5 好很多,不过要是你愿意付费,GPT-4 Turbo 的回答显然是最好的。
(5)编码能力
提示:编写一个 Python 脚本,在其中输入 "Hello World",然后无休止地创建一个随机重复的字符串。
左右滑动,查看测评结果
新版Bard(Gemini)
旧版Bard(PaLM)
ChatGPT(GPT-4)
ChatGPT(GPT-3.5)
在这个问题中,新版 Bard(Gemini)的表现并不如意(在 4 月测评时,旧版 Bard 尚不支持编码,直接回答:“看起来你需要我在编程方面的帮助,但我还没有受过这方面的训练。”)。尽管谷歌宣传 Gemini 的 AlphaCode 2 系统能够帮助编码,但面对这个提问,新版 Bard 卡顿了 30 秒左右,结果显示:“出错了,Bard 正在试验阶段。”
至于 ChatGPT,GPT-3.5 和 GPT-4 Turbo 生成了相同的代码:可以完美运行,且无需进行任何编辑。
因此在编码能力方面,ChatGPT 赢得很彻底。
GPT-4 优势不明显的原因:它最近变懒了
基于以上测评表现,Ars Technica 得出了以下结论:
不过 Ars Technica 也补充道,这个评判结果具有一定的主观性,各位读者也可根据测评表现自行判断结果。
例如,部分网友指出:“在 PowerPC 与英特尔的争论中,我觉得 Gemini 的回答更好”,“Gemini 的回答更能反映 2000 年左右 PPC 与英特尔粉丝之间的争论,而 GPT-4 只是提出了许多含糊不清的说法和不实之词。”
因此在不少人看来,Gemini 的表现不输 GPT-4:“与 ChatGPT 相比,Gemini 驱动的 Bard 似乎不相上下甚至更好,它肯定改进了很多。”
但也有人对于 Gemini 不能编码,以及其演示视频造假而耿耿于怀:“Gemini 编码不好是个硬伤,对日常使用来说很不友好”,“有一个事实是,Gemini 的演示视频是伪造的,典型特斯拉风格。”
在众多讨论中,还有一个说法也引起了许多人的关注:“这次 GPT-4 优势不明显的原因还有一个:它最近变懒了。”
OpenAI 承认“GPT-4 变懒”的事实
原来早在 11 月底,国外各大论坛上有关“GPT-4 变懒”的讨论就逐渐发酵,其中许多人都分享了自己发现“GPT-4 变懒”的经历。
一位 Reddit 用户指出,他本想让 ChatGPT 根据单个 html 页面,填写一个包含 15 个条目、每个条目 8 列的 csv 文件。没想到,ChatGPT 给他的答复是:
“由于数据太过广泛,完全提取所有产品将相当冗长。不过,我可以提供包含单个条目的文件作为模板,您可以根据需要填写其余数据。”
ChatGPT 的这个回答让该用户火冒三丈:“这是在开玩笑吗,AI 就是这样的吗?一个又懒又嚣张的机器人,它叫我自己去做?”
这位用户的分享引起了许多人的共鸣,越来越多用户抱怨基于 GPT-4 的 ChatGPT 拒绝按要求行事,并怀疑是 OpenAI 故意这样设置的:“本以为 AI 可以替我们工作,结果居然是我们替 AI 工作。”
随着用户投诉越来越多,上周四 OpenAI 终于正式回应:“我们已经听到了所有关于 GPT-4 变得越来越懒的反馈!我们自 11 月 11 日起就没有更新过模型,所以这肯定不是故意的。模型行为可能无法预测,我们正在研究如何解决这个问题。”
简单来说就是:OpenAI 承认了“GPT-4 变懒”的事实,但具体原因不明,因此暂时无法解决。
GPT-4 模仿人类放寒假?
面对 OpenAI 无法解释的 GPT-4 变懒原因,广大网友开始了“头脑风暴”:由于模仿人类行为,GPT-4 很有可能也正在“放寒假”。
率先提出这个假设的,是一位叫 Martian 的 X 用户:“我想知道大模型是否也会得季节性抑郁症?给它一个日期,加上它会模仿人,那么它在冬天是不是就不那么有用了,毕竟近 90% 的人都在北半球。”
随后不久,一位 X 用户 Mike Swoopskee 也提出:“如果它从训练数据中了解到,人们通常会在 12 月放慢脚步,把大型项目推迟到新年,这会不会是它最近变懒的原因呢?”
还有一位叫 Rob Lynch 的开发者更是做了个实验,通过 API 测试 GPT-4 Turbo:创建两个系统提示,一个告诉 API 现在是 5 月,另一个是 12 月,然后给出了同样的提示,对 GPT-4 的输出进行了比较。结果显示:
基于以上言论和数据,越来越多人开始相信 GPT-4“放寒假”的说法:“天哪,AI 的‘寒假假说’可能是真的?GPT-4 在 12 月份的表现更差,是因为它在假期里‘学会’了自主减少工作。大模型真是一个很奇怪的存在。”
那么对于“GPT-4 变懒”的事情, 你又是如何看待的呢?
参考链接:
https://arstechnica.com/ai/2023/12/chatgpt-vs-google-bard-round-2-how-does-the-new-gemini-model-fare/?comments=1&comments-page=1
https://www.reddit.com/r/ChatGPT/comments/182ubh7/chatgpt_has_become_unusably_lazy/
https://arstechnica.com/information-technology/2023/12/is-chatgpt-becoming-lazier-because-its-december-people-run-tests-to-find-out/