据站长之家 11 月 21 日报道,美国圣塔菲研究所的研究显示,GPT-4 在图形推理任务上的准确率仅为 33%,而多模态版本 GPT-4v 的表现更差,只有 25%。通过使用 ConceptARC 数据集,作者对 451 名人类受试者进行了图形推理任务测试,结果显示人类的平均正确率为 91%,远高于 GPT-4。
但是研究者招募受试者的方式和 GPT-4 的输入方式引发了质疑,包括入门测试不足以筛选高质量受试者,样本的随机性受到争议,以及图像转换为数字矩阵可能改变概念等。
GPT-4的图形推理能力,竟然连人类的一半都不到?美国圣塔菲研究所的一项研究显示,GPT-4做图形推理题的准确率仅有33%。而具有多模态能力的GPT-4v表现更糟糕,只能做对25%的题目。这项实验结果发表后,迅速在YC上引发了广泛热议。赞同这项结果的网友表示,GPT确实不擅长抽象图形处理,“位置”“旋转”等概念理解起来更加困难。
GPT-4
量子位 2023-11-20
AI新智界 2024-01-06
谷歌联合多所高校的一项最新研究,让大模型开始拥有了人类的“心智”。具体来说,研究人员发现,现在的大模型,已经具备了在对话中推测人类“在想啥”的能力。那么,有了FaR的大模型,究竟拥有什么样的“心智”呢?
谷歌GPT-4
量子位 2023-10-14
GPT-4准确率飙升64%,还当起了“老板” 【新智元导读】大模型幻觉问题还有另一种解法?斯坦福联手OpenAI研究人员提出「元提示」新方法,能够让大模型成为全能「指挥家」,汇聚不同专家模型精华
GPT-4斯坦福OpenAI
新智元 2024-01-29
ChatGPT
IT之家 2024-01-04
这里大都是执行层的程序员,我们经常遇到一个问题,就是领导作为决策层,他们经常拍脑袋想出个什么方向、方案,还要求短时间做出来,给结论。 他们觉得很简单,执行层却要做很久,可能做的还不符合执行层的心意,我
小兵张健 2024-12-25
肯德基涨价,不能只看一面。
新品略财经 2024-12-25
我们前面讲解了很多docker的操作命令,也使用了几个镜像,但是这些镜像都是我们从仓库里面下载的,具有通用性。如果要满足自己的业务需求,所以我们需要根据自己的需要制作自己的镜像,下面我将讲解下如何制作
dessler 2024-12-25
大家好!我实现了一个 bolt,成基本几乎免费,生成的质量还不错,这得益于我最近一些天的思考沉淀,想通了自然就好写了
老码小张 2024-12-26
用setTimeout模拟setInterVal到底隐藏了哪些知识点。 浏览器的事件循环机制。 什么是浏览器的事件循环机制(Event loop)呢?我们知道js是单线程的语言。如果是同步执行的话,那
jinzunqinjiu 2024-12-25
你体验过 Windows Copilot 了吗?
CSDN 2024-12-25
"这段代码谁写的?注释呢?文档呢?" 相信每个程序员都经历过这样的时刻:面对一个庞大的代码库,没有文档,没有注释,只有密密麻麻的代码行。更要命的是,项目老负责人已经离职,而你需要在最短时间内接手并理解
孟健的AI编程认知 2024-12-25
ps 命令用于查看当前系统中运行的进程。ps 命令有很多选项,不同的选项组合可以显示不同的进程信息。下面分别解释一下你提到的两种常用格式: 1. ps aux ps aux 是 BSD 风格的选项组合
超爱吃士力架 2024-12-25
在 Next.js 中实现 WebRTC 以进行实时聊天,视频共享,语音共享,该 API 需要在安全环境(HTTPS)下使用,并且需要用户授权。在实际项目中,要注意在不再需要停止屏幕。
Y11_推特同名 2024-12-26
精品化、多端化、更开放、更有活力。
手游矩阵 2024-12-25
Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司 版权所有 京ICP备2023006237号-1