据站长之家 11 月 21 日报道,美国圣塔菲研究所的研究显示,GPT-4 在图形推理任务上的准确率仅为 33%,而多模态版本 GPT-4v 的表现更差,只有 25%。通过使用 ConceptARC 数据集,作者对 451 名人类受试者进行了图形推理任务测试,结果显示人类的平均正确率为 91%,远高于 GPT-4。
但是研究者招募受试者的方式和 GPT-4 的输入方式引发了质疑,包括入门测试不足以筛选高质量受试者,样本的随机性受到争议,以及图像转换为数字矩阵可能改变概念等。
GPT-4的图形推理能力,竟然连人类的一半都不到?美国圣塔菲研究所的一项研究显示,GPT-4做图形推理题的准确率仅有33%。而具有多模态能力的GPT-4v表现更糟糕,只能做对25%的题目。这项实验结果发表后,迅速在YC上引发了广泛热议。赞同这项结果的网友表示,GPT确实不擅长抽象图形处理,“位置”“旋转”等概念理解起来更加困难。
GPT-4
量子位 2023-11-20
AI新智界 2024-01-06
谷歌联合多所高校的一项最新研究,让大模型开始拥有了人类的“心智”。具体来说,研究人员发现,现在的大模型,已经具备了在对话中推测人类“在想啥”的能力。那么,有了FaR的大模型,究竟拥有什么样的“心智”呢?
谷歌GPT-4
量子位 2023-10-14
GPT-4准确率飙升64%,还当起了“老板” 【新智元导读】大模型幻觉问题还有另一种解法?斯坦福联手OpenAI研究人员提出「元提示」新方法,能够让大模型成为全能「指挥家」,汇聚不同专家模型精华
GPT-4斯坦福OpenAI
新智元 2024-01-29
ChatGPT
IT之家 2024-01-04
通义灵码真的是跨语言学习神器!显著提升了程序员的工作效率,减少了重复性工作,让程序员可以将更多时间和精力投入到更有创造性和挑战性的工作中,从而减轻工作压力,实现“去班味”。
阿里云云原生 2024-12-31
前言 在这里,我假设大家已经有了一定的基础,假设你没有基础. 那么我们学习fastapi,先学习什么呢? 肯定是先学习fastapi的基础. 安装fastapi 首先, 我们安装国产化的fastapi
Python私教 2024-12-31
一、Network Policy 是什么,在云原生领域有和作用 Network Policy 是 Kubernetes 官方提出来的一种网络策略的规范,用户通过编写符合对应规范的规则来控制 k8s 集
萌萌酱 2024-12-31
本文将从时区数据库出发,探究时区和夏令时的原理,结合 Python 内建 datetime 模块的代码实例,尝试说清楚时区和夏令时到底是什么。
VeSync技术 2024-12-31
在 Java 开发的日常中,大家想必都用过泛型。像创建一个只能存放字符串的集合:List list = new ArrayList();,这里的泛型让代码看起来就很 “靠谱”
J2K 2024-12-31
揭秘职场薪资秘密:用Python全面解读BOSS直聘招聘数据 前言 随着求职市场的数字化转型和数据分析的广泛应用,从招聘网站获取数据并进行分析已经成为个人职业发展和企业招聘的重要工具。 在本系列博客中
Java移动技术栈 2024-12-31
如果说收集算法是内存回收的方法论,那么垃圾收集器就是内存回收的具体实现。不同的虚拟机所提供的垃圾收集器可能会有很大差异,以 HotSpot 虚拟机为例,所包含的垃圾收集器可以用如下图来概括。
志哥聊技术 2024-12-31
大家好啊,我是summo,2024也接近尾声了,是时候需要总结和反思一下了。 今年发生了太多的事情,而且每一件都是人生大事,比如领证、买房、裁员、面试找工作等等,有些事情思考了很久才做如领证、买房,有
summo 2024-12-31
MyBatis执行sql语句的流程 加载配置文件 我们进入处的方法的: 我们发现一个陌生的对象classLoaderWrapper,看着像一个类加载器,我们进入这个类中查看: 发现这个对象包含两
轻浮j 2024-12-31
前言 一转眼日子已经来到 24 年 12 月份。 2024 年也到达了尾声,想的抽空写一篇年终总结吧,但是写好了标题后,迟迟没有行动。 直到今天是 27号的晚上,想的怎么也得在1号之前写完发布吧,让时
尖椒土豆sss 2024-12-31
Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司 版权所有 京ICP备2023006237号-1