当前位置：首页|资讯|GPT-4

研究表明：GPT-4 在图形推理任务上表现不佳，准确率仅 33%

作者：AI新智界发布时间：2023-11-21

研究表明：GPT-4 在图形推理任务上表现不佳，准确率仅 33%

据站长之家 11 月 21 日报道，美国圣塔菲研究所的研究显示，GPT-4 在图形推理任务上的准确率仅为 33%，而多模态版本 GPT-4v 的表现更差，只有 25%。通过使用 ConceptARC 数据集，作者对 451 名人类受试者进行了图形推理任务测试，结果显示人类的平均正确率为 91%，远高于 GPT-4。

但是研究者招募受试者的方式和 GPT-4 的输入方式引发了质疑，包括入门测试不足以筛选高质量受试者，样本的随机性受到争议，以及图像转换为数字矩阵可能改变概念等。

推荐体验

相关资讯

GPT-4不会图形推理？“放水”后准确率依然只有33%

GPT-4的图形推理能力，竟然连人类的一半都不到？美国圣塔菲研究所的一项研究显示，GPT-4做图形推理题的准确率仅有33%。而具有多模态能力的GPT-4v表现更糟糕，只能做对25%的题目。这项实验结果发表后，迅速在YC上引发了广泛热议。赞同这项结果的网友表示，GPT确实不擅长抽象图形处理，“位置”“旋转”等概念理解起来更加困难。

量子位 2023-11-20

研究：GPT-4 在儿科疾病诊断中准确率仅为 17%

AI新智界 2024-01-06

谷歌让大模型更具“心智”，GPT-4任务准确率大增

谷歌联合多所高校的一项最新研究，让大模型开始拥有了人类的“心智”。具体来说，研究人员发现，现在的大模型，已经具备了在对话中推测人类“在想啥”的能力。那么，有了FaR的大模型，究竟拥有什么样的“心智”呢？

量子位 2023-10-14

GPT-4准确率飙升64%，还当起了“老板”

GPT-4准确率飙升64%，还当起了“老板” 【新智元导读】大模型幻觉问题还有另一种解法？斯坦福联手OpenAI研究人员提出「元提示」新方法，能够让大模型成为全能「指挥家」，汇聚不同专家模型精华

GPT-4 斯坦福 OpenAI

新智元 2024-01-29

ChatGPT 诊断儿科疾病？新研究泼冷水：准确率仅 17%

IT之家 2024-01-04

近期资讯

武隆高山生态肉牛全产业链项目动工修建

12月24日，重庆武隆高山生态肉牛全产业链项目在沧沟乡正式开建。据介绍，该项目总投资额3亿元，建成后将辐射渝东南及云贵川地区，形成集肉牛繁育、养殖、屠宰、加工、商贸、物流、进出口为一体的智慧、智能、生态高山肉牛全产业链，为区域经济发展注入强劲动力。

央广网 2024-12-26

元旦启航！C919将执飞沪港定期航线，让更多香港市民乘搭

中国东方航空计划从2025年1月1日开始，安排其国产C919客机执飞每天往返香港和上海虹桥的定期航线。

南方都市报 2024-12-26

重庆空管顺利保障重庆江北机场第四跑道启用

“东方5428，重庆塔台，地面静风，跑道03R，可以起飞。”2024年12月26日，随着重庆空管分局塔台管制员发布指令，一架中国东方航空公司C919国产大飞机从重庆江北机场第四跑道起飞，开启了重庆江北机场四跑道运行新的时代。

金台资讯 2024-12-26

容声BCD-513WD12FPA：513升四开门冰箱，国补600元，性价比之选

#年货节好物集市#容声冰箱以其卓越的品质和创新技术在家电市场上赢得了良好的口碑。根据用户评价和产品评测，容声冰箱在满足日常冷藏和冷冻需求的同时，还提供了节能和低噪音的运行特性。特别是容声BCD-513WD12FPA型号，以其513升的总容积和十字双对开门设计，适合大家庭使用，用户普遍反映其耐用性出色，保鲜性能好，制冷效果佳。

小米地瓜 2024-12-26

欧普照明申请恒流驱动电路等专利，能计算恒流驱动电路输入功率

金融界2024年12月26日消息，国家知识产权局信息显示，欧普照明股份有限公司申请一项名为“恒流驱动电路、电路输入功率计算方法及灯具”的专利，公开号CN119183227A，申请日期为2023年6月。

金融界 2024-12-26

苹果手机如何设置电话不打扰的多种实用方法解析

在现代社会，手机已经成为我们生活中不可或缺的一部分。无论是工作、学习还是日常生活，手机都扮演着重要的角色。然而，有时候我们可能会希望在某些特定的时刻，能够暂时屏蔽掉电话的打扰。比如说，在开会、上课或者休息的时候，接到电话可能会让我们感到很烦躁。那么，苹果手机怎么设置电话打不进来呢？接下来，我就来和大家聊聊这个话题。

新报观察 2024-12-26

自主研制！“清航叁号”新型发动机成功测试飞行

快科技12月26日消息，据清华大学官网发文，由清华大学自主研制的“清航叁号”新型发动机圆满完成飞行试验任务，标志着我国自主研制的基于新型燃烧技术的发动机取得重要进展，进入工程实践阶段。据介绍，该新型发动机是清华大学研究团队在“清航壹号”研究基础上，针对宽速域应用条件持续自主研发的新型发动机，其具有经济性指标高、结构简单等优点。

驱动之家 2024-12-26

引领行业风向首个微短剧权威指数将在成都发布

从开启“繁星闪耀·微短剧年度盛典”系列活动报名通道以来，该活动得到了众多微短剧创作者、制作公司及相关行业人士的积极响应与高度关注，参与者们对能够加入这场高规格的行业盛典表示出浓厚的兴趣和期待。在诸多备受瞩目的系列活动中，尤为引人关注的是将在繁星盛典上首次发布的微短剧权威指数——“繁星指数”。

每日经济新闻 2024-12-26

OPPO 周意保：如果用户喜欢，后续会考虑加入钛色

【环球网科技综合报道】12月26日，OPPOFind系列产品负责人周意保今日发布视频，对海外独供钛色FindX8是不是“搞区别对待”进行了回应。周意保称，OPPO绝对没有对任何国家和地区的用户进行区别对待，国内上了四个颜色，国外上了三个颜色。

环球网科技 2024-12-26

红果短剧回应被广电约见：逐一排查平台所有剧集违规内容立即下线

快科技12月26日消息，今日，红果短剧官方发文称，红果短剧在接受广电主管部门约见后，高度重视，迅速响应，坚决落实好主管部门关于微短剧管理的有关规定和指导要求，进一步完善审核制度。即日起，红果短剧将对平台上所有剧集进行逐一排查，对于发现的违规内容，立即采取下线等措施。

快科技 2024-12-26

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1