据站长之家 11 月 21 日报道,美国圣塔菲研究所的研究显示,GPT-4 在图形推理任务上的准确率仅为 33%,而多模态版本 GPT-4v 的表现更差,只有 25%。通过使用 ConceptARC 数据集,作者对 451 名人类受试者进行了图形推理任务测试,结果显示人类的平均正确率为 91%,远高于 GPT-4。
但是研究者招募受试者的方式和 GPT-4 的输入方式引发了质疑,包括入门测试不足以筛选高质量受试者,样本的随机性受到争议,以及图像转换为数字矩阵可能改变概念等。
GPT-4的图形推理能力,竟然连人类的一半都不到?美国圣塔菲研究所的一项研究显示,GPT-4做图形推理题的准确率仅有33%。而具有多模态能力的GPT-4v表现更糟糕,只能做对25%的题目。这项实验结果发表后,迅速在YC上引发了广泛热议。赞同这项结果的网友表示,GPT确实不擅长抽象图形处理,“位置”“旋转”等概念理解起来更加困难。
GPT-4
量子位 2023-11-20
AI新智界 2024-01-06
谷歌联合多所高校的一项最新研究,让大模型开始拥有了人类的“心智”。具体来说,研究人员发现,现在的大模型,已经具备了在对话中推测人类“在想啥”的能力。那么,有了FaR的大模型,究竟拥有什么样的“心智”呢?
谷歌GPT-4
量子位 2023-10-14
GPT-4准确率飙升64%,还当起了“老板” 【新智元导读】大模型幻觉问题还有另一种解法?斯坦福联手OpenAI研究人员提出「元提示」新方法,能够让大模型成为全能「指挥家」,汇聚不同专家模型精华
GPT-4斯坦福OpenAI
新智元 2024-01-29
ChatGPT
IT之家 2024-01-04
JavaScript 的垃圾回收(Garbage Collection, GC) 常见的垃圾回收方法: 主要的 JavaScript 引擎中的 GC 策略:
fegnze_赵恒 2024-12-25
背景 之前整理过MySQL中的各种锁,这次整理下它的各种日志,不是全部的类型的日志,这次整理的是 binlog , redolog, undolog这三种
daiyunchao 2024-12-25
本文将通过CSS来实现老电影的复古风特效,满满的怀旧感。整个案例,主要依靠CSS的filter属性,配合keyframe帧动画来实现。本文案例演示完之后,希望能够让大家收货不少干货知识!
承冬 2024-12-25
- Leptos 是一个现代化的 **Rust** 前端框架,用于构建高效的 Web 应用程序。 - 它采用了类似于 React 的声明式编程模型,使得开发者能够用直观的方式创建复杂的用户界面
WITplus 2024-12-25
并发概述 并发是指在同一时间内,存在多个任务同时执行的情况。对于多核设备,这些任务可能同时在不同CPU上并行执行。对于单核设备,多个并发任务不会在同一时刻并行执行,但是CPU会在某个任务休眠或进行I/
如此风景 2024-12-25
基于 Next.js 14 和 Tailwind CSS 构建的现代化个人导航网站。利用 Microlink API 实现网站信息自动采集,支持实时预览和智能分类管理。特色功能包括响应式设计、渐变色卡
pikachu冲冲冲 2024-12-25
当寒冷的风中弥漫着姜饼的香气,霓虹灯在街道上忽明忽暗闪烁时,我们知道:圣诞节来了!🎅 对于程序员来说,庆祝节日的方式可以不止于挂彩灯、堆雪人。其实,节日气氛也能写进代码,用键盘敲出来...
bug菌 2024-12-25
创建彩色立方体 我们将使用WebGL来生成一个简单的彩色立方体。立方体由6个面组成,每个面都有不同的颜色。 1. HTML结构 首先,创建一个基本的HTML页面,并添加一个元素来显示渲
烛阴 2024-12-25
【ZY】重要优先项 【ZY-SX】顶层思想 【ZY-SX-001】确认展示信息是否有效 任何时候都要检验这里展示的内容有没有效果,不要因为用了自动生成的代码,就放一些Id字段在上面。 同时也要看给的查
前端GGBond 2024-12-25
在现代 Web 应用中,性能优化直接影响用户体验和业务转化。Next.js 14 提供了多种内置的性能优化特性,今天我们就来深入探讨如何充分利用这些特性,以及一些实用的优化技巧。 ## 图片和字体
技术出海录 2024-12-25
Copyright © 2025 aigcdaily.cn 北京智识时代科技有限公司 版权所有 京ICP备2023006237号-1