据站长之家 11 月 21 日报道,美国圣塔菲研究所的研究显示,GPT-4 在图形推理任务上的准确率仅为 33%,而多模态版本 GPT-4v 的表现更差,只有 25%。通过使用 ConceptARC 数据集,作者对 451 名人类受试者进行了图形推理任务测试,结果显示人类的平均正确率为 91%,远高于 GPT-4。
但是研究者招募受试者的方式和 GPT-4 的输入方式引发了质疑,包括入门测试不足以筛选高质量受试者,样本的随机性受到争议,以及图像转换为数字矩阵可能改变概念等。
GPT-4的图形推理能力,竟然连人类的一半都不到?美国圣塔菲研究所的一项研究显示,GPT-4做图形推理题的准确率仅有33%。而具有多模态能力的GPT-4v表现更糟糕,只能做对25%的题目。这项实验结果发表后,迅速在YC上引发了广泛热议。赞同这项结果的网友表示,GPT确实不擅长抽象图形处理,“位置”“旋转”等概念理解起来更加困难。
GPT-4
量子位 2023-11-20
AI新智界 2024-01-06
谷歌联合多所高校的一项最新研究,让大模型开始拥有了人类的“心智”。具体来说,研究人员发现,现在的大模型,已经具备了在对话中推测人类“在想啥”的能力。那么,有了FaR的大模型,究竟拥有什么样的“心智”呢?
谷歌GPT-4
量子位 2023-10-14
GPT-4准确率飙升64%,还当起了“老板” 【新智元导读】大模型幻觉问题还有另一种解法?斯坦福联手OpenAI研究人员提出「元提示」新方法,能够让大模型成为全能「指挥家」,汇聚不同专家模型精华
GPT-4斯坦福OpenAI
新智元 2024-01-29
ChatGPT
IT之家 2024-01-04
这段代码创建了一个超级酷炫逼真的物理开关控件,用户可以通过点击开关来切换状态。当复选框被选中时,开关的样式会发生变化,包括背景色、边框和 SVG 图标的颜色。这种效果适用于创建美观的交互式开关,例如在
前端Hardy 2024-12-26
要将本地 JAR 包打包到 Spring Boot 项目中,并确保它位于生成的 JAR 文件的 BOOT-INF/lib 目录下,可以通过以下几种方法实现。Spring Boot 使用 BOOT-IN
马艳泽 2024-12-26
云计算编排的基本概念、好处、使用方法、注意事项,以及编排API的流程。 基于云计算编排实现基础设施即代码。
Paramita 2024-12-26
闭包(Closures)为开发者提供了一种灵活且高效的编程方式。闭包在 Rust 中被广泛应用于众多领域,如迭代器操作、异步编程、事件处理以及回调函数等。
受之以蒙 2024-12-26
Hello 大家好啊,今天给大家带来的是工厂模式,在 Go 中工厂模式可以说是和 wire 最搭配的助手了,如果你也想掌握 wire 这个酷酷的依赖注入工具,那不妨先从这篇文章开始,为依赖注入打好铺垫
憨憨睡不醒啊 2024-12-26
本文介绍了如何在项目中集成ESLint、Prettier、Husky、lint-staged和commitlint,以规范代码风格和提交流程,确保代码质量和提高开发效率。
慢知行 2024-12-26
程序日志是开发和运维过程中最常用的工具之一。日志不仅是调试和排查故障的关键依据,也是监控系统健康、分析系统性能和提升安全性的有效手段。本文将深入探讨如何设计优秀的程序日志系统,讨论优秀日志的特征。
乐予吕 2024-12-26
最近突然对 RabbitMQ 产生了兴趣。虽然以前了解过消息队列的原理,但毕业后一直没有在实际项目中应用。最近有空闲时间,于是决定重新学习并记录过程,方便日后查阅,也希望能为社区的小伙伴提供一些参考。
37_Tse 2024-12-26
圣诞节,今天刚过,忽然想到在这个各种单身狗孤单的节日里面,不如用代码实现一个简单的功能给大家娱乐下,那就是用 vue 进行一个简单的圣诞树演示! 要使用 Vue 3 实现一个优美的圣诞树效果,可以通过
moddy 2024-12-26
在Java编程中,理解抽象类和普通类的区别是非常重要的。它们虽然都是用来定义类的结构和行为的,但在设计模式和面向对象编程(OOP)中扮演着不同的角色。
Huooya 2024-12-26
Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司 版权所有 京ICP备2023006237号-1