据站长之家 11 月 21 日报道,美国圣塔菲研究所的研究显示,GPT-4 在图形推理任务上的准确率仅为 33%,而多模态版本 GPT-4v 的表现更差,只有 25%。通过使用 ConceptARC 数据集,作者对 451 名人类受试者进行了图形推理任务测试,结果显示人类的平均正确率为 91%,远高于 GPT-4。
但是研究者招募受试者的方式和 GPT-4 的输入方式引发了质疑,包括入门测试不足以筛选高质量受试者,样本的随机性受到争议,以及图像转换为数字矩阵可能改变概念等。
GPT-4的图形推理能力,竟然连人类的一半都不到?美国圣塔菲研究所的一项研究显示,GPT-4做图形推理题的准确率仅有33%。而具有多模态能力的GPT-4v表现更糟糕,只能做对25%的题目。这项实验结果发表后,迅速在YC上引发了广泛热议。赞同这项结果的网友表示,GPT确实不擅长抽象图形处理,“位置”“旋转”等概念理解起来更加困难。
GPT-4
量子位 2023-11-20
AI新智界 2024-01-06
谷歌联合多所高校的一项最新研究,让大模型开始拥有了人类的“心智”。具体来说,研究人员发现,现在的大模型,已经具备了在对话中推测人类“在想啥”的能力。那么,有了FaR的大模型,究竟拥有什么样的“心智”呢?
谷歌GPT-4
量子位 2023-10-14
GPT-4准确率飙升64%,还当起了“老板” 【新智元导读】大模型幻觉问题还有另一种解法?斯坦福联手OpenAI研究人员提出「元提示」新方法,能够让大模型成为全能「指挥家」,汇聚不同专家模型精华
GPT-4斯坦福OpenAI
新智元 2024-01-29
ChatGPT
IT之家 2024-01-04
今天咱们就聊聊苹果手机如何更新系统,确保你的设备始终保持在最佳状态。首先,手机系统更新的意义可不止是为了新花样。
新报观察 2024-12-29
在使用电脑的过程中,难免会遇到一些问题,比如系统变得越来越慢,或者出现了各种各样的错误。在开始之前,咱们先聊聊为什么要恢复出厂设置。
在当今这个智能家居的时代,电视早已不仅仅是用来观看节目那么简单。长虹电视作为国内知名的电视品牌,其强大的智能功能让我们可以享受到更多的娱乐体验,比如安装第三方软件。虽然长虹电视自带的应用商店里已经有很多常用的软件,但有时我们还是希望能安装一些特定的应用,以满足我们不同的需求。
无论你是为了升级硬件、排查故障,还是单纯想知道自己的电脑到底有多强,懂得如何查看配置信息都能带来不少帮助。
在使用Excel的时候,我们常常需要对数据进行排序。其实,Excel提供了一些简单的方法来实现随机排序,今天就来聊聊这些方法,帮助大家轻松搞定这个需求。
绑定手机在我们日常生活中已经变得越来越普遍了。无论是社交软件、银行应用,还是各种在线服务,绑定手机都成了一种必要的安全措施。
因为C盘是系统盘,如果空间不够,电脑的运行速度就会变得很慢,甚至可能影响到程序的正常使用。你可能还需要手动删除一些不再使用的文件和程序。
在这个科技飞速发展的时代,蓝牙耳机已经成为了我们生活中不可或缺的一部分。不过,很多安卓用户可能会问,AirPods能不能和安卓手机连接呢?
在日常使用电脑的时候,大家总会遇到一些让人烦恼的小问题,比如字体大小。今天,就来聊聊如何在电脑上调整字体大小,让你的阅读体验更佳。
在这个信息化的时代,微信已经成为人们生活中不可或缺的一部分。无论是聊天、购物,还是办公、社交,微信的功能都能很好的满足我们的需求。说到怎么弄微信,其实并不复杂,跟着我的步骤走,你也能轻松上手。首先,想要使用微信,得在你的手机上下载安装这个软件。无论你是安卓用户还是苹果用户,都可以在各自的应用商店中找到微信。
Copyright © 2025 aigcdaily.cn 北京智识时代科技有限公司 版权所有 京ICP备2023006237号-1