据站长之家 11 月 21 日报道,美国圣塔菲研究所的研究显示,GPT-4 在图形推理任务上的准确率仅为 33%,而多模态版本 GPT-4v 的表现更差,只有 25%。通过使用 ConceptARC 数据集,作者对 451 名人类受试者进行了图形推理任务测试,结果显示人类的平均正确率为 91%,远高于 GPT-4。
但是研究者招募受试者的方式和 GPT-4 的输入方式引发了质疑,包括入门测试不足以筛选高质量受试者,样本的随机性受到争议,以及图像转换为数字矩阵可能改变概念等。
GPT-4的图形推理能力,竟然连人类的一半都不到?美国圣塔菲研究所的一项研究显示,GPT-4做图形推理题的准确率仅有33%。而具有多模态能力的GPT-4v表现更糟糕,只能做对25%的题目。这项实验结果发表后,迅速在YC上引发了广泛热议。赞同这项结果的网友表示,GPT确实不擅长抽象图形处理,“位置”“旋转”等概念理解起来更加困难。
GPT-4
量子位 2023-11-20
AI新智界 2024-01-06
谷歌联合多所高校的一项最新研究,让大模型开始拥有了人类的“心智”。具体来说,研究人员发现,现在的大模型,已经具备了在对话中推测人类“在想啥”的能力。那么,有了FaR的大模型,究竟拥有什么样的“心智”呢?
谷歌GPT-4
量子位 2023-10-14
GPT-4准确率飙升64%,还当起了“老板” 【新智元导读】大模型幻觉问题还有另一种解法?斯坦福联手OpenAI研究人员提出「元提示」新方法,能够让大模型成为全能「指挥家」,汇聚不同专家模型精华
GPT-4斯坦福OpenAI
新智元 2024-01-29
ChatGPT
IT之家 2024-01-04
将“要使用本计算机,用户必须输入用户名和密码”这一项关掉。这样以后启动就可以直接进入桌面,不需要输入密码了。
Vic_wkx 2024-12-30
仿写一个简易版本的auto-animate auto-animate可以自动给所配置元素的直接子元素的新增、删除、移动加上动画,使用非常简便,下面是如何仿写一个简单的此库
拖懒之人 2024-12-30
学子不才,初学useEffect ,写了篇文章进行总结useEffect执行机制+清理副作用。如果有理解不当,还请大佬轻声指点。 先聊聊副作用....
ys指风不买醉 2024-12-30
“程序怎么运行不了,不应该啊?” “程序怎么能运行了,不应该啊!” 这句话是不是让程序员朋友们的 DNA 动了呢?
程序员鱼皮 2024-12-30
体育产业嘉年华在京举办,探讨体育未来。
未来一氪 2024-12-30
聚焦科技新品、传统节日消费、食品安全。
世研大消费指数 2024-12-30
在3D数据处理和计算机视觉领域,点云技术扮演着至关重要的角色。Point Cloud Library (PCL) 作为最广泛使用的开源C++库之一,提供丰富的算法和工具来处理大规模的3D点云数据。
小码编匠 2024-12-30
2024关键角色之消费盛典圆满落幕
ChangeSpeed类是Manim库中用于修改动画速度的类。 它提供了一种灵活的方式来控制动画的播放速度,使动画在不同时间段内以不同的速度播放,从而创造出更加丰富多样的动画效果。 比如,在创建包含多
databook 2024-12-30
在电子商务领域,用户评论是了解产品口碑和市场反馈的重要渠道。亚马逊作为全球领先的电商平台,拥有海量的商品评论数据。这些数据对于市场分析、产品改进和用户体验优化具有极高的价值。
onejason 2024-12-30
Copyright © 2025 aigcdaily.cn 北京智识时代科技有限公司 版权所有 京ICP备2023006237号-1