当前位置：首页|资讯|GPT-4

研究表明：GPT-4 在图形推理任务上表现不佳，准确率仅 33%

作者：AI新智界发布时间：2023-11-21

研究表明：GPT-4 在图形推理任务上表现不佳，准确率仅 33%

据站长之家 11 月 21 日报道，美国圣塔菲研究所的研究显示，GPT-4 在图形推理任务上的准确率仅为 33%，而多模态版本 GPT-4v 的表现更差，只有 25%。通过使用 ConceptARC 数据集，作者对 451 名人类受试者进行了图形推理任务测试，结果显示人类的平均正确率为 91%，远高于 GPT-4。

但是研究者招募受试者的方式和 GPT-4 的输入方式引发了质疑，包括入门测试不足以筛选高质量受试者，样本的随机性受到争议，以及图像转换为数字矩阵可能改变概念等。

推荐体验

相关资讯

GPT-4不会图形推理？“放水”后准确率依然只有33%

GPT-4的图形推理能力，竟然连人类的一半都不到？美国圣塔菲研究所的一项研究显示，GPT-4做图形推理题的准确率仅有33%。而具有多模态能力的GPT-4v表现更糟糕，只能做对25%的题目。这项实验结果发表后，迅速在YC上引发了广泛热议。赞同这项结果的网友表示，GPT确实不擅长抽象图形处理，“位置”“旋转”等概念理解起来更加困难。

量子位 2023-11-20

研究：GPT-4 在儿科疾病诊断中准确率仅为 17%

AI新智界 2024-01-06

谷歌让大模型更具“心智”，GPT-4任务准确率大增

谷歌联合多所高校的一项最新研究，让大模型开始拥有了人类的“心智”。具体来说，研究人员发现，现在的大模型，已经具备了在对话中推测人类“在想啥”的能力。那么，有了FaR的大模型，究竟拥有什么样的“心智”呢？

量子位 2023-10-14

GPT-4准确率飙升64%，还当起了“老板”

GPT-4准确率飙升64%，还当起了“老板” 【新智元导读】大模型幻觉问题还有另一种解法？斯坦福联手OpenAI研究人员提出「元提示」新方法，能够让大模型成为全能「指挥家」，汇聚不同专家模型精华

GPT-4 斯坦福 OpenAI

新智元 2024-01-29

ChatGPT 诊断儿科疾病？新研究泼冷水：准确率仅 17%

IT之家 2024-01-04

近期资讯

React Native 中的 Text 组件：全面解析

在 React Native 中，Text 组件是用于显示文本内容的核心组件之一。无论是简单的标签还是复杂的富文本，Text 组件都扮演着至关重要的角色。

我是区块链小学生 2024-12-25

都别喷萤火虫了人家可能压根没想卖国内

要说这几天哪台新车心里最难受，那肯定是蔚来的 ET9 。在上周的 Nio Day 2024 上市，定价超过 80 万，身上集合了蔚来迄今为止所有最强的技术：主动悬架、线控转向、整车域控、 900

2024-12-26

不能摸也不能烧！这棵树全株有毒太魔性树下躲雨也会中毒

世界上最倒霉的事情是只在树下躲了个雨，4个学生的皮肤和眼睛就被莫名“灼伤”，出现不同程度的炎症，有的部位甚至还起了水泡。难道是下的雨有问题，里面含有害成分？正当纳闷之时

2024-12-26

华为：全球首个海拔5000米高原露天矿无人驾驶成果发布

快科技12月25日消息，华为中国发文宣布，与西部矿业、中铁十九局在西藏昌都玉龙铜矿三方共同建设的全球首个5000米高原露天矿无人驾驶项目成果交付，并展示了无人驾驶技术在极端环境中的适应性与

2024-12-26

00后整顿不了的职场它能

人类正在通过 AI 重塑文明。或许很多人还不大认可这个说法，但在前两天，差评君受邀参加了火山引擎 Force 原动力大会之后，突然觉得，至少对数据分析行业来说， &ld

2024-12-26

4999元起！华为Mate 60 Pro/RS官方翻新机开售

快科技12月26日消息，华为官方最新上架了Mate 60 Pro/RS官方翻新机，目前已经在华为商城和天猫官旗开售。具体来看：华为Mate 60 Pro12GB+256GB：4999元（原价6499元）12GB+512GB：5499元

2024-12-26

华为推出FreeBuds Pro 4蛇年典藏版：自带灵动小蛇

快科技12月26日消息，华为FreeBuds Pro 4蛇年典藏版已经在京东平台上架，目前尚未公布售价。从目前信息来看，这次FreeBuds Pro 4蛇年典藏版有云杉绿、曜石黑两种配色可选，比前代选择更丰富。

2024-12-26

春节档“神仙打架”！2025年五部大片定档前作票房都太牛

快科技12月26日消息，今年春节档可谓神仙打架，目前已有5部大片定档2025年春节档上映。分别为《封神第二部：战火西岐》《射雕英雄传：侠之大者》《哪吒之魔童闹海》《熊出没·重启未来》

2024-12-26

【OpenHarmony】鸿蒙 UI开发之CircleIndicator

简介 CircleIndicator是一款UI组件库，为Tabs/Swiper容器提供了多种自定义风格的指示器效果展示：圆形指示器: 长条指示器: 横幅指示器: 三角指示器: 图标指示器: 携带中

塞尔维亚大汉 2024-12-25

凯迪拉克女销售私收购车款“跑路” 有人转账26万无法提车

快科技12月26日消息，据报道，近日，有不少在江苏南京一凯迪拉克4S店购车的市民在网络上反映，自己购车时被店内一女销售陈某某忽悠，将购车款打入她个人账户，迟迟未进公司账户，导致他们无法提

2024-12-26

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1