据站长之家 11 月 21 日报道,美国圣塔菲研究所的研究显示,GPT-4 在图形推理任务上的准确率仅为 33%,而多模态版本 GPT-4v 的表现更差,只有 25%。通过使用 ConceptARC 数据集,作者对 451 名人类受试者进行了图形推理任务测试,结果显示人类的平均正确率为 91%,远高于 GPT-4。
但是研究者招募受试者的方式和 GPT-4 的输入方式引发了质疑,包括入门测试不足以筛选高质量受试者,样本的随机性受到争议,以及图像转换为数字矩阵可能改变概念等。
GPT-4的图形推理能力,竟然连人类的一半都不到?美国圣塔菲研究所的一项研究显示,GPT-4做图形推理题的准确率仅有33%。而具有多模态能力的GPT-4v表现更糟糕,只能做对25%的题目。这项实验结果发表后,迅速在YC上引发了广泛热议。赞同这项结果的网友表示,GPT确实不擅长抽象图形处理,“位置”“旋转”等概念理解起来更加困难。
GPT-4
量子位 2023-11-20
AI新智界 2024-01-06
谷歌联合多所高校的一项最新研究,让大模型开始拥有了人类的“心智”。具体来说,研究人员发现,现在的大模型,已经具备了在对话中推测人类“在想啥”的能力。那么,有了FaR的大模型,究竟拥有什么样的“心智”呢?
谷歌GPT-4
量子位 2023-10-14
GPT-4准确率飙升64%,还当起了“老板” 【新智元导读】大模型幻觉问题还有另一种解法?斯坦福联手OpenAI研究人员提出「元提示」新方法,能够让大模型成为全能「指挥家」,汇聚不同专家模型精华
GPT-4斯坦福OpenAI
新智元 2024-01-29
ChatGPT
IT之家 2024-01-04
12月28日,搜狐创始人、董事局主席兼首席执行官、物理学博士张朝阳宣布将在12月31日以“生活在量子力学的世界里”为主题,从微观视角解析我们存在的世界,和大家一起硬核跨年、共同迎接2025的到来。
封面新闻 2024-12-28
你会看到什么?
星球研究所 2024-12-28
近日,中核集团所属核工业理化工程研究院(简称“核理化院”)经过数年集智攻关,首次制备出克量级丰度超过99%的镍-64同位素,标志着我国在新型稳定同位素研究领域达到世界领先水平。
环球网 2024-12-28
四大顶刊之一的《数学年刊》,正式接收北大袁新意独作论文。在困扰数学界多年的UniformBogomolov猜想问题上取得重要进展。值得一提的是,这篇论文还在预印版状态时就已获得一定引用,据称还在不同的学术会议中被讨论。
IT之家 2024-12-28
12月28日,第四代自升自航式风电安装船“铁建风电2000”在中集来福士山东烟台建造基地交付。12月28日,第四代自升自航式风电安装船“铁建风电2000”在中集来福士山东烟台建造基地交付。12月28日,第四代自升自航式风电安装船“铁建风电2000”在中集来福士山东烟台建造基地交付。
光明网 2024-12-28
去年,苏苏买电脑时又收到了一台智能音箱赠品,假期带回老家连妈妈都有了“怨言”:“别再往家带了,第三个了,真没啥用。”而几年前苏苏第一次给妈妈带回一台智能音箱时,一晚上妈妈跟音箱说的话比跟她说的都多,从问天气到听音乐、听戏曲,连着玩了两三个小时。
中国新闻周刊 2024-12-28
印度将于12月30日(下周一)举行关于空间对接试验的发射活动。
华尔街见闻 2024-12-28
该赛事于今年8月拉开帷幕,共吸引了来自国内外552位天文摄影家和爱好者参与,收到1261幅精心拍摄的图像作品,成为国内参与人数和投稿作品数量最高的专业天文摄影比赛之一。
深圳商报 2024-12-28
2025年1月7日-10日,被誉为“科技春晚”的CES全球消费电子展将在美国拉斯维加斯如约举行,海信将以“AIYourLife”为主题亮相,并在开幕前夕举行发布会,对外发布显示技术领域的重大突破。在追求极致观影的今天,高清细腻、色彩丰富且真实的画质已成为用户不可或缺的需求。
互联网分析师于斌 2024-12-28
人工智能是上海重点发展的三大先导产业之一,伴随着新一代人工智能的发展,大模型热潮掀起,上海正在着力建设“大模型之都”,探索大模型的新型开源和推广模式,推出更多标志性的应用场景,以牵引大模型在各大领域的垂直应用发展。在此背景下,东方智媒城近日携手百度正式签约共建“文心大模型(上海)数据生态中心”。
澎湃新闻 2024-12-28
Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司 版权所有 京ICP备2023006237号-1