“智力”下降！研究报告称GPT-4能力明显下降

作者：科技美学发布时间：2023-07-20

作为开发市面上热度最高的AI聊天机器人的公司——OpenAI可以说在最近倍受关注。

在此前Open-AI公布了其大型语言模型的最新版本——GPT-4，用来替代之前在使用的GPT-3.5。

据官方介绍，GPT-4 是一个超大的多模态模型，也就是说，它的输入可以是文字，还可以是图像。

GPT-4比以前的版本“更大”，这意味着它已经借助比之前版本的模型进行了更多数据的训练，并且在模型文件中有更多的权重，从而使得它的运行成本更高。

就任务而言，GPT-4的表现比之前版本的模型更好，它可以遵循自然语言的复杂指令并生成技术或创意内容，而且它可以还更深入地做到这一点：它支持生成和处理多达32768个标记（约25000个文本单词），从而实现比前辈更长的内容创建或文本分析。

OpenAI表示，GPT-4错误答案更少，而且也会减少偏离话题的可能，也尽可能不会再谈论禁忌话题，甚至在许多标准化测试中比人类表现得都要更好一些。

例如，GPT-4在模拟律师考试的成绩在考生中排名前10%左右，在SAT阅读考试中排名前7%左右，在SAT数学考试中排名前11%左右。相比之下，GPT-3.5在律师考试中的得分一般都是倒数10%左右。

但在最近，不少用户反映称最近使用GPT-4的ChatGPT好像不如之前聪明了。

今日消息，来自斯坦福大学和加州大学伯克利分校的研究团队近日对 GPT-4 进行了深入研究，对比了今年 3 月和 6 月在处理数学问题、生成执行代码和完成视觉推理任务上的差异，发现 “智力”显著下降。

以评估GPT-4 数学能力的“17077 是质数吗？”问题为例，6月的GPT-4产生了错误的答案，认为该数字并非质数。而且GPT-4并没有提供相关解释，准确率从97.6%下降到2.4%。

相比之下，GPT-3.5确实有所改善，最初在3月份产生了错误的答案，在6月份产生了正确的答案。

GPT-4的能力在编码区域也有所下降。研究人员构建了一个新的代码生成数据集，其中包含了LeetCode“容易”类别中的 50 个问题，并评估了AI模型生成的可直接执行程度。

与3月份相比，GPT-4的直接可执行版本从52%下降到10%。这些代在代码前后添加了额外的引号，让其变为注释状态，不可执行。

据之前相关媒体介绍称，有网友表示最近 OpenAI 采用 MOE 重新设计了架构，导致性能受到影响，最终使得ChatGPT的“智力”下降，但是官方一直没有明确答复。

目前相关的讨论仍在继续，感兴趣的小伙伴可以保持关注。

精选：

二季度智能手机出货TOP5都有谁？手机市场复苏在望

华为、三星、苹果新平板待发布，你期待哪款？

苹果A17、M3芯片量产良率仅55%？iPad Air 6开发中

白嫖用户网络？爱奇艺TV客户端被曝电视休眠时在后台满速上传

小米8月新机全部入网，手机+平板组合，小米、Redmi都有

华为Mate 60系列渲染图再曝，影像升级、全新外观

商务合作 kejimeixue@163.com

近期资讯

佰师网：公务员备考冲刺阶段，如何高效巩固与提升

公务员备考之路，对于每一位考生而言，都是一场漫长而艰辛的旅程。尤其是在冲刺阶段，时间紧迫，任务繁重，如何高效巩固已学知识，并在此基础上实现进一步提升，成为了每位考生亟需解决的关键问题。以下是一些实用的策略和建议，希望能为你的冲刺之路点亮一盏明灯。一、明确目标，制定详细计划冲刺阶段的首要任务是明确自己的备考目标，包括目标职位、所需分数等。基于这些目标，制定一个详细且切实可行的复习计划。计划应具体到每天的学习内容、时间分配、复习资料和模拟测试安排。记得要留出适当的休息时间，避免过度疲劳影响学习效率。二、

佰师网 2024-12-27

vivo S20好不好用？2K价位段的高颜值实力派

在当下智能手机市场竞争激烈的背景下，vivo S20以其独特的东方美学设计和强大的人像拍摄能力吸引了众多年轻消费者的目光。作为轻薄人像手机的代表，它究竟有着怎样的实际使用表现呢？下面让我们来看看它的全面测评报告。这款手机的外观美学设计让人眼前一亮，融入东方美学元素的同时，借助优秀的工艺技术处理后盖，使得颜值、质感和触感都达到高水准。特别是凤羽金配色，简直是令人一眼心动。它的轻薄机身设计也让人印象深刻，流线型的机身，轻盈如翼，仅有7.19mm和187g，无论是手感还是视觉感受都达到了极致。这种轻薄之美不仅让

科技命脉 2024-12-27

巨富金业 2024-12-27

OPPO A5 Pro已正式开售，最低1999元到手，抗摔耐用还防水耐寒

有一说一，今年剩这么点时间OPPO的脚步是一点不慢，反而以一连串的惊喜让人眼前一亮。先是ColorOS 15系统的全新升级，现在又是OPPO A5 Pro的亮相，对于大家来说，精彩也才刚刚开始。OPPO的A系列，历来都是以耐用著称，而A5 Pro无疑延续了这一优良传统。然而，关于这款新机的实际使用体验，大家还是没有直观的感受。今天，就跟大家分享一下OPPO A5 Pro给我带来的感受。（OPPO A5 Pro真机体验）提及耐用，续航无疑是首要考量。OPPO A5 Pro内置了一块惊人的6000mAh大容量

八月长安果 2024-12-27

AI做PPT有多神奇？一次体验彻底改变我的认知

[图片] 提到PPT制作，许多人可能会感到头疼。设计费时，排版耗力，尤其是当灵感枯竭时，那种看着空白页面的无力感更是让人崩溃。但现在有一种新趋势正在悄然兴起，那就是利用AI技术来制作PPT。不夸张地说，这种方式简直颠覆了传统PPT制作的认知~~ 从零到完美，只需几分钟以前我们制作PPT时，需要在标题设计、配色方案、内容排版等细节上绞尽脑汁，常常一忙就是好几个小时。现在，有了AI制作PPT工具，这些问题正在被快速解决。只需输入你的主题和一些核心内容，系统就能快速生成PPT模板，甚至连页面的逻辑和配色都经

HUIPPT 2024-12-27

不锈钢冲压护套用LD模具钢5000次开裂，改用8566模具钢寿命翻倍

今天收到老客户的咨询，问8566模具钢有没有没淬火的软料板材？他想粗加工好造型，再回来热处理。【誉辉模具钢黄子鹏日记第895篇】老板是在去年11月份认识的。当时，他帮下游客户做加工，有一个用于不锈钢冲压模具的冲头护套，用LD模具钢时，做了3千-5千次出现崩裂。这个护套外径35毫米，不是很大，所以推荐老板用抗崩裂性能更好的8566模具钢，直接切一条8566的圆钢淬火加硬了，回去再做加工。今天老板打电话时告诉我，去年做的8566冲头护套，冲了5-6万次了，还是好好的，都不用修模。因为效果好，今年有方形的护套要

誉辉模具钢黄子鹏 2024-12-27

谁敢重演银河号事件？中方强势发声后，中国货船复航，瑞首相改口

谁敢重演银河号事件？中方强势发声后，中方货船“伊鹏3号”复航，瑞首相改口，变相承认了自己的错误，乖乖放行，这一次，中方再次让全世界看到了自己捍卫国家利益的坚定决心！大家都知道，前段时间，中方商船“伊鹏3号”路过波罗的海区域的时候，却被德国、芬兰、丹麦和瑞典等西方国家污蔑，宣称怀疑“伊鹏3号”破坏了波罗的海的海底电缆，“事发时伊鹏3号正在光缆上方航行”，瑞典等四国直接出动了大量的军舰和船只围堵，不仅是试图扣留“伊鹏3号”，甚至还想对船只和船员都进行调查。明眼人都能看出，波罗的海那片海域，每天不知道

兵说 2024-12-27

SOLIDWORKS 和 Rhino犀牛之间的主要区别有哪些？哪个更好用？

目前市场上有多种 3D CAD设计软件，了解它们的差异对于个人和企业明确使用的方向以及对于设计需求非常重要。硕迪科技分析了 SOLIDWORKS 和 Rhino犀牛之间的主要差异，以便您了解两种软件与您的工作流程的契合之处。目录： ★ 1 SOLIDWORKS 和 Rhino犀牛分别是什么软件？ ★ 2使用 SOLIDWORKS 和犀牛Rhino 的行业分别是哪些？ ★ 3 基于节点的编程 ★ 4 SOLIDWORKS和Rhino犀牛两款软件的建模技术 ★ 5 SOLIDWORKS 超越 Rhino

SOLIDWORKS硕迪科技 2024-12-27

“智力”下降！研究报告称GPT-4能力明显下降

推荐体验

相关资讯

研究报告称 GPT-4 “智力”明显下降

GPT-4智力下降明显 6月错误率下降

不会数学了！ GPT-4“智力”大幅下降

研究实锤GPT-4真变笨了：3个月内数学能力雪崩式下降，代码能力也变差

斯坦福大学实锤GPT-4变笨了，OpenAI最新回应：确实存在“智力下降”

近期资讯

佰师网：公务员备考冲刺阶段，如何高效巩固与提升

vivo S20好不好用？2K价位段的高颜值实力派

400G ZR光模块-高速长距离传输解决方案

深度解析《我国电力市场建设发展及有关思考》

美联储平衡被打破？利率与政策的拉扯！

OPPO A5 Pro已正式开售，最低1999元到手，抗摔耐用还防水耐寒

AI做PPT有多神奇？一次体验彻底改变我的认知

不锈钢冲压护套用LD模具钢5000次开裂，改用8566模具钢寿命翻倍

谁敢重演银河号事件？中方强势发声后，中国货船复航，瑞首相改口

SOLIDWORKS 和 Rhino犀牛之间的主要区别有哪些？哪个更好用？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响