当前位置：首页|资讯|GPT-4

研究表明：GPT-4 在图形推理任务上表现不佳，准确率仅 33%

作者：AI新智界发布时间：2023-11-21

研究表明：GPT-4 在图形推理任务上表现不佳，准确率仅 33%

据站长之家 11 月 21 日报道，美国圣塔菲研究所的研究显示，GPT-4 在图形推理任务上的准确率仅为 33%，而多模态版本 GPT-4v 的表现更差，只有 25%。通过使用 ConceptARC 数据集，作者对 451 名人类受试者进行了图形推理任务测试，结果显示人类的平均正确率为 91%，远高于 GPT-4。

但是研究者招募受试者的方式和 GPT-4 的输入方式引发了质疑，包括入门测试不足以筛选高质量受试者，样本的随机性受到争议，以及图像转换为数字矩阵可能改变概念等。

推荐体验

相关资讯

GPT-4不会图形推理？“放水”后准确率依然只有33%

GPT-4的图形推理能力，竟然连人类的一半都不到？美国圣塔菲研究所的一项研究显示，GPT-4做图形推理题的准确率仅有33%。而具有多模态能力的GPT-4v表现更糟糕，只能做对25%的题目。这项实验结果发表后，迅速在YC上引发了广泛热议。赞同这项结果的网友表示，GPT确实不擅长抽象图形处理，“位置”“旋转”等概念理解起来更加困难。

量子位 2023-11-20

研究：GPT-4 在儿科疾病诊断中准确率仅为 17%

AI新智界 2024-01-06

谷歌让大模型更具“心智”，GPT-4任务准确率大增

谷歌联合多所高校的一项最新研究，让大模型开始拥有了人类的“心智”。具体来说，研究人员发现，现在的大模型，已经具备了在对话中推测人类“在想啥”的能力。那么，有了FaR的大模型，究竟拥有什么样的“心智”呢？

量子位 2023-10-14

GPT-4准确率飙升64%，还当起了“老板”

GPT-4准确率飙升64%，还当起了“老板” 【新智元导读】大模型幻觉问题还有另一种解法？斯坦福联手OpenAI研究人员提出「元提示」新方法，能够让大模型成为全能「指挥家」，汇聚不同专家模型精华

GPT-4 斯坦福 OpenAI

新智元 2024-01-29

ChatGPT 诊断儿科疾病？新研究泼冷水：准确率仅 17%

IT之家 2024-01-04

近期资讯

无人机驾驶员的梦想起航：保华润天航空CAAC执照新疆考点等你来挑战！

随着科技的发展，无人机已经成为了我们生活中不可或缺的一部分。如果你对无人机有着浓厚的兴趣，那么新疆保华润天航空无人机培训就是你的最佳选择。在这里，你不仅可以学习到专业的无人机知识和技能，还可以获得CAAC执照，开启你的无人机职业生涯。让我们一起，用科技赋能，开启无人机的新纪元！新疆保华润天航空无人机培训，就是为了满足这个市场需求而设立的。我们提供专业的无人机知识和技能培训，让你在短时间内掌握无人机的操作技巧和理论知识。我们的培训课程涵盖了无人机的基本构造、飞行原理、操作技巧、安全知识等多个方面，让你全面了

新疆无人机保华润天 2024-12-25

苔米传媒：企业海外发稿至韩国综合媒体Korea Moyens提升影响力

企业如何有效地将自身信息传播至国际市场，已成为提升品牌影响力的核心要素。对于那些希望在韩国市场塑造品牌形象、传播企业理念的企业而言，苔米传媒作为全球媒体资源直供平台，与韩国知名在线期刊《Korea Moyens》携手合作，为企业提供了高效且精准的海外发布服务。自2020年创刊以来，《Korea Moyens》凭借其多元化的原创内容和独特的专业视角，迅速汇聚了一大批忠实读者。截至目前，该期刊的每月浏览量已攀升至420万次，并保持着持续增长的势头。其内容广泛涉猎日常计算机教程、科技新闻、软件评测以及

苔米传媒 2024-12-25

一路辛苦过来都是值得的呜呜呜

分享25级学长学姐的好消息，咱准备明年考研的同学一直也注视着卫灿、、正好心里有个底~公卫考研认准咱们的课程辅导，不会错哒[爱心]#公卫考研##353卫生综合##公共卫生考研##25考研##医学考研##公共卫生##26考研##卫灿公卫研习社#

公卫考研题库 2024-12-25

恶心但管用高中历史2小时背完保底90分

高中历史学习方法如下: 1.阅读与理解:每天抽出15-20分钟从第一页开始阅读知识点，反复地去读。 2.背诵与记忆:每天解决20道历史题。历史也是需要背大量的知识点的，背书的过程中建议理解性背诵。 3.做题与反思:选择高质量的题，低质量的题等于浪费时间。做完题，对完答案，要勤思考，善于归类。 4.整理与归纳:整理“阶段特征表”+“时间轴表”两个表格，把课本这几本书的知识打通整合到一起。 5.技巧与方法:使用5点记忆法，把课本上每节课所讲的每个事件按照事情发生的:背景、起因、经过、结果、影响这五点去整理

美女拒绝emo芽 2024-12-25

如何把GIF转换成视频？分享4种简单的转换方法

GIF格式因其适合创建简洁动画和表情符号而广受欢迎，但其固有的颜色深度和分辨率限制可能会牺牲图像质量。相比之下，将GIF转换成视频格式不仅能提升画质，还能优化文件大小。通常情况下，我们更多地见到将视频转换为GIF的操作，而对于如何将GIF转换为视频，许多朋友可能感到困惑。为此，我为大家整理了几种简便的转换方法，让我们一起来学习并掌握吧。 [图片] 方法一：迅捷图片转换器这是一款功能丰富、简单易用的图片处理工具，支持多种图片格式之间的快速转换，包括GIF转视频。同时，它还具备图片压缩、抠图、拼图、添加特效

技能分享君 2024-12-25

摩斯营销科技大模型方向论文被顶会AAAI录用

近日，国际人工智能顶级学术会议AAAI 2025放榜，摩斯团队在大模型隐私微调方向论文被该会议录用！要让大模型适应各不一样的下游任务，微调必不可少。常规的中心化微调过程需要模型和数据存在于同一位置 —— 要么需要数据所有者上传数据（这会威胁到数据所有者的数据隐私），要么模型所有者需要共享模型权重（这又可能泄露自己花费大量资源训练的模型）。此外，在第二种情况下，模型的参数可能暴露，这可能会增加其微调模型受到攻击的可能性。这些问题都可能阻碍 LLM 的长期发展。为了有效地保护模型所有权和数据隐私，浙江大学

摩斯隐私计算论坛 2024-12-25

新年换新机的绝佳选择，vivo S20 Pro综合产品力超强

东方美学“凤羽金”设计、全焦段影棚级人像摄影体验、两百万跑分旗舰芯片、AI蓝心大模型......此次的vivo S20 Pro 可谓是满身亮点，在3K档产品行列直接卷出了新高度，作为vivo的2024年底压轴大作，它正在全网热售中，值得关注。功能配置上，这款手机在轻薄的机身内放下了5500mAh大电池，续航强劲，电池还采用蓝科技，使用寿命长，且无惧严寒环境。它也支持90W有线闪充，即使手机没电了也能快速回血。处理器上，该机搭载的是天玑9300+旗舰平台，蓝科技的优化使其性能潜力全部激发，配合上高

知一数码 2024-12-25

天津统威金属有限公司发货

北京、上海、广州、深圳。成都、重庆、杭州、西安、武汉、苏州、郑州、南京、天津、长沙、东莞、宁波、佛山、合肥、青岛。昆明、沈阳、济南、无锡、厦门、福州、温州、金华、哈尔滨、大连、

统威金属-厂家老统威 2024-12-25

中国一汽：持续向上树立民族汽车品牌

2024年，对于中国一汽而言，是充满挑战与机遇的一年。这一年，中国一汽深入学习贯彻党的二十届三中全会精神，紧跟行业智能化、电动化转型趋势，在变革中寻求突破，在创新中焕发新动能，红旗、解放、奔腾等自主品牌同步发力，市场占有率持续提升，为汽车产业高质量发展作出积极贡献。“红旗”驭变突破推动品牌持续向上2024年是红旗品牌成立66周年。这一年，“红旗”做强节能车优势，加快新能源转型，品牌形象全面焕新，品牌价值和品牌影响力稳步提升。这一年，“红旗”勇担科技创新引领者的责任，实现对关键核心技术的“高质量掌控”。发

21CN车言车话 2024-12-25

喜报 | 迈维代谢荣获首届“德勤光谷生命健康之星”！

12月10日下午，2024年度“光谷高科技高成长20强”榜单颁奖典礼隆重举行。在这场盛会中，首届“德勤光谷生命健康之星”评选项目榜单也荣耀揭晓，武汉迈维代谢生物科技股份有限公司凭借其卓越的技术实力和行业影响力，成功跻身榜单之列！此次评选由武汉东湖新技术开发区管理委员会指导，德勤中国主办，旨在挖掘并表彰光谷地区生命健康细分领域内那些以创新为引领、展现强劲成长潜力的杰出企业。德勤中国武汉办公室主管合伙人范宏彬表示：“德勤光谷生命健康之星’上榜企业以创新为引领，以高水平人才、高能级资本为驱动，大部分为科学家+

迈维医学 2024-12-25

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1