人类喜讯，GPT-4变笨！错误率暴涨40倍，数学能力断崖式下跌，斯坦福发文实锤

作者：头部科技发布时间：2023-07-21

GPT-4 斯坦福

文丨Congerry、Blink162

滴——放松警惕卡。

GPT-4变笨了！

最近科技界顶流“GPT-4”有两大传言，一是GPT-4的流量下滑，二就是GPT-4变笨了，不知道这二者是否有因果关系。

GPT-4流量下滑确实有数据可以证实，根据数据公司SimilarWeb的统计，5月到6月，ChatGPT全球流量下降了9.7%，美国境内流量下降了10.3%。

至于变笨，目前停留在民间谈论中，但已经有不少用户跳出来证实。

甚至斯坦福大学和加州大学伯克利分校的研究人员还专门写了一篇论文去证实——How Is ChatGPT's Behavior Changing over Time?

“为什么ChatGPT的表现大不如以前？”

论文甚至给了四个维度来衡量基于GPT-4的ChatGPT是如何不如基于GPT-3.5的：数学问题，敏感问题，代码能力和视觉推理能力。

这四个维度，完全可以作为任何一个AI大模型的衡量标准。

吵到最后，连OpenAI的产品副总裁都公开说，不！我们没有让它变笨！

哎呀，真是做人难，做机器人难，做著名机器人更难。‍‍‍‍

论文实锤6月GPT-4降智，3个月时间不进反退

GPT-4在哪些方面降智了呢？

首先是求解数学问题。

在判定一个数是否是质数上的问题上，2023年3月GPT-4 的准确率为97.6%，到了6月份，在这些相同的问题上GPT-4的准确率只剩2.4%。

而此前表现拉胯的GPT-3.5，从三月份7.4%的准确度暴涨到 86.8%。

在回答问题时，GPT-4的回答从2023年3月到6月变得更简洁，平均字符数从821.2降到3.8。相反，GPT-3.5的回答变得更冗长，平均字符数增加了40%。且两个模型在两个版本之间的回答重复率都很低。

研究人员认为，思维链效果的变化可能导致了表现差异。

图2(b)展示了一个例子。GPT-4在2023年3月的版本能够按照思维链提示得出正确答案，但在2023年6月的版本却忽略了思维链，得出错误答案。

GPT-3.5始终遵循思维链提示，但在2023年3月的版本总是生成错误答案（[No]），而在2023年6月的版本则改善了这个问题。

回答敏感问题

研究人员发现GPT-4在回答敏感问题时更加谨慎，从2023年3月的21.0%降到2023年6月的5.0%，而GPT-3.5则相反，从2.0%升到8.0%。

同样的问题，3月份的GPT-4是个话唠，6月份就只剩下“无可奉告”。

研究人员推测，这可能是因为GPT-4 在2023年6月增加了更强的安全机制，而GPT-3.5则放松了。

生成代码

研究人员还发现，从2023年3月到6月，GPT-4 能够直接运行的代码比例减少了。

如图所示，GPT-4在2023年3月的版本有超过50%的代码是可运行的，但在2023年6月的版本只有10%。GPT-3.5也有相同的趋势。

研究人员猜测导致可运行代码比例下降的一个原因可能是2023年6月的版本会在代码中添加一些多余的非代码文本。

GPT-4在2023年3月和6月的版本生成的代码基本相同，但有两处区别，一是2023年6月的版本在代码前后加了“‘python”和“‘”。

二是2023年6月的版本加了一些注释。这些变化看似微小，但多出来的三引号却使得代码无法运行。并且，这个问题在把LLM生成的代码集成到更大的软件项目中时更难发现。

视觉推理

在视觉推理上，研究人员发现GPT-4和GPT-3.5的表现都没有明显提高。而且它们在两个版本之间的回答重复率很高，达到90%。

这些服务的总体准确率也很低：GPT-4是27.4%，GPT-3.5是12.2%。值得注意的是，更新的LLM并不一定能生成更好的结果。

有时候，GPT-4在2023年6月的版本会在2023年3月的版本能答对的问题上出错。

例如，测试数据来自ARC数据集，要求生成一个3×3的网格，用数字的二维数组表示网格的颜色。

GPT-4在2023年3月的版本生成了正确的网格，但在2023年6月的版本却生成了错误的网格。

GPT-4为什么变笨了？OpenAI回应

按理来说，经过三个月的发展，GPT-4的实力应该突飞猛进，但为什么降智了呢？

网上流传了很多猜测。例如，OpenAI可能采取了成本削减措施

一位网友指出，GPT-4的运行成本很高，他怀疑OpenAI开始限制使用量，比如从原来每3小时可以发送100条信息降到现在的25条。

他还怀疑OpenAI是否让GPT-4不再对多个候选答案进行评估，而是直接给出最快的答案。这样做可以缩短决策时间，降低计算成本，但也会导致回答质量下降。

不过虽然论文本身没有直接回答GPT-4为什么变笨，但研究人员用 longitudinal drifts 纵向漂移来描述模型能力随时间变化而不稳定的现象。

直白点说，OpenAIOpenAI并不是故意让模型变笨来节省成本！相反，它似乎也无法控制模型能力的稳定性和提升速度。

而OpenAI回应也暗示了GPT-4在一些任务的表现可能下降了。

不过近期GPT-4虽然处于风口浪尖上，ChatGPT的上新速度却一直没减缓。

今日，OpenAI又官宣了ChatGPT自定义指令（Custom instructions）新功能。

和指令集、代码解释器一样，自定义指令也是 Plus 用户专属功能，在设置中启用即可在 GPT-4 模型调用。

开启后，你可以给ChatGPT一个固定的指令，让它记住或扮演某个角色，然后按照你的要求生成内容。

这样，你就不用每次在Prompt前加上一堆限制条件，ChatGPT可以完全遵循你的指令。

比如，你可以让它扮演教师，按照你的需求设计课程，或者让它教你Python编程，或者让它做你的营养师，给你合理的食谱和购物清单。

可以发现，尽管GPT-4在一些任务上的表现有所下降，但这并不意味着它失去了其价值和潜力。相反，它正在以另一种方式进化。

如果您有什么想说的，欢迎屏幕前你们在评论区留言讨论！我们将为点赞、评论、关注的同学们送上红包🧧不限量哟~

近期资讯

卢伟冰：2024年小米高端手机全球销量超1000万

快科技12月27日消息，卢伟冰今天进行了一场主题为“卢伟冰的年度总结”直播，他透露，2024年小米高端手机全球销量稳稳突破1000万，同比大增43%。小米15系列成为小米高端化战略落地以

建嘉 2024-12-27

李想：中国没有哪个车企CEO比我更懂三排座车

快科技12月27日消息，在今晚举办的最后一场“2024理想AI Talk”中，理想汽车创始人、CEO李想本人继续接受采访。当主持人提问“有人说你是理想产品的天花板，你怎么看？&rdqu

落木 2024-12-27

李想：我没上过大学在社会没有什么挫折只有唯一一个遗憾

快科技12月27日消息，理想汽车今日举办“2024理想AI Talk”直播。直播中，李想谈到了自己的性格、管理风格和自身标签等多个话题。主持人张小珺问到：没有上过大学，会让你在社会中

若风 2024-12-27

李想：我最困难的时候是2008年伤心到哭的程度

快科技12月27日消息，今日晚间，理想汽车举办“2024理想AI Talk”直播。直播中，李想称，自己最困难的时候是2008年5月，是真的会自己伤心到哭的程度。几个小股东要把我和樊铮赶出

若风 2024-12-27

李想谈小米成功做出汽车：雷军做硬件的能力太强了

快科技12月27日消息，今日晚间，理想汽车举办“2024理想AI Talk”直播。直播中谈到了科技公司造车的话题，主持人提问，你怎么看待苹果未能成功造车，而小米做出来了呢？对此，李想

若风 2024-12-27

黄仁勋走出舒适区

即便冒着背刺自己最大客户——AWS、谷歌云、微软云的风险，英伟达做云（DGX Cloud）的野心依旧有增无减。英伟达正在招聘与AWS等云服务商常见职位相似的——39位针对特定行

2024-12-27

通过手机号轻松查询快递状态的实用方法指南

在现代社会，快递已经成为我们生活中不可或缺的一部分，无论是购物、寄件还是收礼物，快递服务都让我们的生活变得更加便利。首先，大家都知道，现在大多数快递公司都提供了在线查询的功能。

新报观察 2024-12-28

俄妹COS兔女郎玛奇玛、帕瓦：完美身材

《电锯人》中有两位女主角帕瓦和玛奇玛对主角有着不同的吸引力。而近日，来自俄罗斯的两位小姐姐Shirogane-sama和Vinne就带来了帕瓦和玛奇玛兔女郎COS，红丝黑丝与绝对领域的交织，修长身材完

2024-12-28

观众不买账了！2024年好莱坞影片内地票房榜：第一未过10亿

快科技12月27日消息，2024年转眼即逝，今年的电影市场也诞生了不少热片，包括《热辣滚烫》和《飞驰人生2》等。整体来看，榜单上几乎都是国产片，以往非常受欢迎的好莱坞大片预冷，观众越来越不

2024-12-28

三大运营商的“套餐”太复杂，还是广电的5G业务简洁明了，背后有高人！

试问一下，你知道中国移动、中国电信、中国联通三家运营商的5G多少钱，宽带多少钱吗？恐怕没有人能讲明白，包括运营商自己的员工，因为套餐种类太多，再加上各种组合太复杂，一时半会根本没法搞清楚，有些融合业务的话费账单更像是天书。

通信老柳 2024-12-28

人类喜讯，GPT-4变笨！错误率暴涨40倍，数学能力断崖式下跌，斯坦福发文实锤

推荐体验

相关资讯

GPT-4「变笨」被斯坦福实锤：短短仨月数学问题错误率暴涨40倍！

GPT-4「变笨」被斯坦福实锤：短短仨月数学问题错误率暴涨40倍！OpenAI也急了：已开始调查

GPT-4“变笨”被斯坦福实锤！OpenAI也急了：已开始调查

斯坦福实锤GPT-4变笨了 OpenAI最新回应：确实存在

科技周报 | 推特一夜变X，斯坦福实锤GPT-4变笨

近期资讯

卢伟冰：2024年小米高端手机全球销量超1000万

李想：中国没有哪个车企CEO比我更懂三排座车

李想：我没上过大学在社会没有什么挫折只有唯一一个遗憾

李想：我最困难的时候是2008年伤心到哭的程度

李想谈小米成功做出汽车：雷军做硬件的能力太强了

黄仁勋走出舒适区

通过手机号轻松查询快递状态的实用方法指南

俄妹COS兔女郎玛奇玛、帕瓦：完美身材

观众不买账了！2024年好莱坞影片内地票房榜：第一未过10亿

三大运营商的“套餐”太复杂，还是广电的5G业务简洁明了，背后有高人！

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响