据站长之家 11 月 21 日报道,美国圣塔菲研究所的研究显示,GPT-4 在图形推理任务上的准确率仅为 33%,而多模态版本 GPT-4v 的表现更差,只有 25%。通过使用 ConceptARC 数据集,作者对 451 名人类受试者进行了图形推理任务测试,结果显示人类的平均正确率为 91%,远高于 GPT-4。
但是研究者招募受试者的方式和 GPT-4 的输入方式引发了质疑,包括入门测试不足以筛选高质量受试者,样本的随机性受到争议,以及图像转换为数字矩阵可能改变概念等。
GPT-4的图形推理能力,竟然连人类的一半都不到?美国圣塔菲研究所的一项研究显示,GPT-4做图形推理题的准确率仅有33%。而具有多模态能力的GPT-4v表现更糟糕,只能做对25%的题目。这项实验结果发表后,迅速在YC上引发了广泛热议。赞同这项结果的网友表示,GPT确实不擅长抽象图形处理,“位置”“旋转”等概念理解起来更加困难。
GPT-4
量子位 2023-11-20
AI新智界 2024-01-06
谷歌联合多所高校的一项最新研究,让大模型开始拥有了人类的“心智”。具体来说,研究人员发现,现在的大模型,已经具备了在对话中推测人类“在想啥”的能力。那么,有了FaR的大模型,究竟拥有什么样的“心智”呢?
谷歌GPT-4
量子位 2023-10-14
GPT-4准确率飙升64%,还当起了“老板” 【新智元导读】大模型幻觉问题还有另一种解法?斯坦福联手OpenAI研究人员提出「元提示」新方法,能够让大模型成为全能「指挥家」,汇聚不同专家模型精华
GPT-4斯坦福OpenAI
新智元 2024-01-29
ChatGPT
IT之家 2024-01-04
快科技12月26日消息,随着年龄增大,很多人发现自己喝酒之后开始力不从心,喝完身体感觉很累,且第二天难以恢复。对此,营养学家解释,是因为老化的身体代谢减慢,体内水分降低,导致酒精的负
朝晖 2024-12-26
快科技12月26日消息,小鹏汽车智能驾驶负责人李力耘透露,公司正处于无人驾驶技术突破的前夜,并预计在明年将为Max车型提供类似无人驾驶的能力。他强调,小鹏汽车基于AI鹰眼的纯视觉方案,能在
王略 2024-12-26
快科技12月26日消息,美国人力资源顾问公司Challenger Gray的最新报告显示,今年美国企业CEO离职人数创下历史新高,企业越来越偏好任命临时领导者。数据显示,截至11月美国企业共有1991名CEO离
黑白 2024-12-26
快科技12月26日消息,不怎么靠谱的法国人又搞出了令人震惊的大新闻。媒体报道,当地时间本月24日平安夜,400名乘客登上了巴黎开往圣艾蒂安的TGVInoui 6689次高速列车,按计划,列车于19点发车
落木 2024-12-26
12月26日消息,据媒体报道,李女士自述5天前食用了一大串山楂冰糖葫芦,后来就一直觉得肠胃不适。经诊断发现,其胃内有7cm、4cm大的两颗巨大结石,并且结石磨损胃黏膜,形成两处溃疡灶。医生
振亭 2024-12-26
快科技12月26日消息,据TrendForce报告,2024年上半年全球电视出货量达到了9071.7万台,按年增长了0.8%。出货量前五大品牌分别是三星电子、海信、TCL、LG和小米。据Notebookcheck报道,TCL在8
鹿角 2024-12-26
不知道你坐高铁的时候有没有遇到这种情况:上了车,发现走错了,8号车厢的票上了9号车厢,但两节车厢之间竟然不通!这是怎么回事?这种情况学名叫“重(chóng)联”,就是两
上方文Q 2024-12-26
快科技12月26日,近日,有媒体报道称“巴西劳工部解救比亚迪工地奴役劳工”,此事引起网友关注热议。今日,比亚迪集团-品牌及公关处总经理李云飞发文回应称:欲加之罪,何患无辞。
若风 2024-12-26
12月23日,在中央广播电视总台央视新闻与农业农村中心推出的《“智领农业慧未来”——农业科创荣耀时刻》特别节目中,8项取得重大突破的农业科创成果亮相。
新京报 2024-12-26
在现代社会,手机已经成为我们生活中不可或缺的一部分。无论是用来联系朋友,还是浏览社交媒体,抑或是进行网上购物,手机都扮演着重要的角色。
新报观察 2024-12-26
Copyright © 2025 aigcdaily.cn 北京智识时代科技有限公司 版权所有 京ICP备2023006237号-1