AI发展越来越迅速，GPT-4 却变笨了？

作者：凯莉彭发布时间：2023-07-27

GPT-4

GPT-4 是不是真的变笨了？

在 Twitter 和 OpenAI 的在线开发者论坛的评论中，用户们表达了对 GPT-4 变笨性能下降的不满，例如 GPT-4 的逻辑能力减弱、错误回答增多、对提供的信息失去追踪能力……

许多用户发现，GPT-4 回复“对不起，我无法回答”的次数越来越多。有网友甚至把 3 小时 25 条消息额度一口气用完，也没有解决问题，无奈切换到 GPT-3.5，反倒解决了。

用户称这个模型与其几个月前的版本，在推理能力和其他输出上都变得懒惰和愚笨。

针对 GPT-4 变笨问题，网友给出了不同的判断和分析。

有传言表明，OpenAI 可能正在使用更小、更专门的 GPT-4 模型来更高效地处理用户查询，并根据成本和速度考虑将查询发送给哪个模型。

Keras 创始人 François Chollet 在 6 月份的推特中表示：“我对这个说法非常怀疑。很有可能模型性能与 2 月份相比差不多甚至表现得更好。

但人们已经花了大量时间与其互动，并且对它能做什么不能做什么有了更现实的期望——它已经失去了最初的神秘感。”

Keras 创始人的看法

Hacker News 上也有网友持此类观点：“我认为，我们没有注意到我们的期望已经提高了，也没有注意到我们记住了成功的部分，进而期待所有都是成功的。

一开始我们没有注意到失败，因为这和预期相符合，我们特别注意到了成功，因为这些是意料之外的。现在我们注意到了失败，并期待成功。”

部分人认为，当最初的惊艳期过去，大家对 AI 回答问题的能力期待变高了，关注点发生了变化，对 GPT 失误有了更高敏感度，因此会认为 GPT-4 变笨了。

ChatGPT 于 2022 年 11 月发布后，上线 5 天后已有 100 万用户，上线两个月后已有上亿用户。最初 ChatGPT 运行在 GPT-3 和 GPT-3.5 之上。3 月中旬，GPT-4 发布，并迅速成为开发者和其他科技行业人士的首选模型。

OpenAI 声称模型从 2023 年 3 月就没有改动过，公开层面确实没有相关记录。

ChatGPT 的更新日志中，分别在 1 月 9 日、1 月 30 日、2 月 13 日提到了对模型本身的更新，涉及改进事实准确性和数学能力等。

但自从 3 月 14 日 GPT-4 发布之后就没提到模型更新了，只有网页 APP 功能调整和添加联网模式、插件模式、苹果 APP 等方面的变化。

关于大量用户反馈 GPT-4 大模型的回答质量下降问题，OpenAI 于 7 月14 日澄清：“我们没有把 GPT-4 弄笨。相反，我们让 GPT-4 的每个新版本都比之前更聪明了。”

OpenAI于 7 月 14 日的回应

为了验证 OpenAI 的说法，斯坦福大学和加利福尼亚大学伯克利分校的研究者，针对 ChatGPT 行为随时间发生的变化，调查了 2023 年 3 月至 6 月期间 ChatGPT 性能的变化。

该论文评估了 GPT-3.5 和 GPT-4 的三月版和六月版的表现。

论文链接：https://arxiv.org/pdf/2307.09009.pdf

评估基于四大任务：

1) 求解数学问题

2) 回答敏感 / 危险问题

3) 生成代码

4) 视觉推理

论文图片

调查结论是：GPT-4 性能确实变差了。

例如：GPT-4 一步步思考并回答“17077 是质数吗”这个数学问题，准确率直接从 97.6% 降到了 2.4%，而 GPT-3.5 的准确率则从 7.4% 上升到 86.8%。此外，GPT-4 的回答更简洁，GPT-3.5 的回答则更长。

论文概要提到：“相同”的 LLM 服务的行为可以在相对短的时间内发生显著变化，突显了对 LLM 质量的持续监控的必要性。

OpenAI 开发者推广大使 Logan Kilpatrick 于 7 月 19 日在推特回应：

“向所有分享 GPT-4 模型性能体验的人表示感谢， @OpenAI 的所有人都希望推出最好的模型，帮助用户更多地投入到他们感兴趣的事情上。我们正在积极调查大家分享的报告。 ”

OpenAI于 7 月 19 日的回应

同时他也表示，自 3月14日发布 GPT-4 以来，大模型的本体一直处于静态，不存在大量外部数据污染模型的情况。他也承认由于大模型本身存在不稳定性，对于某些提示词的表现不一致。

对如此科学实验下的证据，OpenAI 在博客“Function calling and other API updates”中更新回应到：“确实在某些任务上的性能变差了。”

OpenAI 官方博客

目前学术界有个观点是，后来的 RLHF 训练虽然让 GPT-4 更与人类对齐——也就更听从人类指示和符合人类价值观——但也让其自身的推理等能力变差。

因为大语言模型有时会输出有毒内容，产生幻觉，从而带来的社会偏见问题。OpenAI 公司十分关注安全问题，并对此做了大量的对齐工作。这也使得后续版本在安全性上有所提升，在推理能力上变得越来越糟糕。

与人类的价值观对齐、同时不降低AI自身能力上限的训练方法，也成了现在很多团队的研究方向，但还在起步阶段。

以下是改善 ChatGPT 体验的几种方法：

提升 prompt 提示技能和写作技能；
ChatGPT 反应缓慢或无响应时，使用 Claude 或 Bing Chat 等替代方法。

关于ChatGPT性能降低的笑话（挺真实）

参考资料

https://twitter.com/fchollet/status/1664036777416597505

https://twitter.com/OfficialLoganK/status/1681658410507354113

https://twitter.com/npew/status/1679538687854661637

https://openai.com/blog/function-calling-and-other-api-updates

https://arxiv.org/pdf/2307.09009.pdf

本文来自微信公众号“凯莉彭”（ID:kai-li-peng），作者：凯莉彭，36氪经授权发布。

近期资讯

【java毕设 python毕设大数据毕设】基于web的快递物流信息查询系统的设计与实现

计算机编程指导师计算机编程指导师个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！获取源码主页-->：计算机编程指导师基于web的快递物流信息查询系统-研究背景一、课题背景随着电子商务的迅猛发展，快递物流行业在我国经济中的地位日益凸显。人们对快递物流信息查询的需求越来越高，传统的查询方式已无法满足用户对便捷、实时信息获取的需求。基于此，开发一款基于web的快递物流信息查询

计算机编程指导师 2024-12-27

览邦Watch Ultra智能腕表设计太炸裂，网友：彻底放飞了！

万万没想到，览邦Watch Ultra可以说，这款智能腕表这样设计太炸裂，网友纷纷直呼“彻底放飞了”，完全颠覆了以往的设计风格。单看外观就够吸睛的，独树一帜的“黑金”配色规划，将优雅而又沉稳的奢华气质同前卫的酷感无缝衔接。那黑色的电镀合金表圈散射出上乘的质感，与金色的金属细微之处相互映衬，塑造出极具个性魅力与张力的视觉效应。整体的设计不单突显了卓越非凡的工艺层级，还令人不禁联想起未来科技感爆棚的“钢铁侠”风范。现在竟然下放到了览邦Watch Ultra机上，难免让人浮想联翩。说实话，越看越顺眼，确实挺好看

江诗一墨 2024-12-27

AI发展越来越迅速，GPT-4 却变笨了？

参考资料

推荐体验

相关资讯

为什么现在的AI技术越来越先进，而我们却越来越焦虑了呢？

每周AI大事件|苹果开发Apple GPT、OpenAI用合成数据训AI、GPT-4变得越来越笨

越来越聪明，越来越年轻！AI大模型鸿蒙4正式发布

GPT-4正在变笨

GPT-4变笨了？！文本、代码质量急剧下滑

近期资讯

【java毕设 python毕设大数据毕设】基于web的快递物流信息查询系统的设计与实现

览邦Watch Ultra智能腕表设计太炸裂，网友：彻底放飞了！

【计算机毕业设计选题推荐】基于web的域名管理系统的设计与实现

公网全双工对讲机与普通公网对讲机的区别

电动缸螺杆直径对负载要求的适应性分析

安全应急救援防护装备-深国安便携式六合一气体检测仪

科技控们的新宠，几乎零差评的4款功能丰富的智能手表全方位测评

过年送礼送什么合适？2024年春节必备送礼清单！

浅析工业内窥镜图像传感器的功能、分类以及成像效果的差异

苔米传媒海外发稿：精准对接日本最大加密货币媒体《CoinPost》

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响