GPT-4不会图形推理吗 “放水”后准确率依然只有33%

发布时间：2023-11-21

GPT-4的图形推理能力，竟然连人类的一半都不到？美国圣塔菲研究所的一项研究显示，GPT-4做图形推理题的准确率仅有33%。而具有多模态能力的GPT-4v表现更糟糕，只能做对25%的题目。△虚线...【查看原文】

相关资讯

GPT-4不会图形推理？“放水”后准确率依然只有33%

GPT-4的图形推理能力，竟然连人类的一半都不到？美国圣塔菲研究所的一项研究显示，GPT-4做图形推理题的准确率仅有33%。而具有多模态能力的GPT-4v表现更糟糕，只能做对25%的题目。这项实验结果发表后，迅速在YC上引发了广泛热议。赞同这项结果的网友表示，GPT确实不擅长抽象图形处理，“位置”“旋转”等概念理解起来更加困难。

GPT-4

量子位 2023-11-20

研究表明：GPT-4 在图形推理任务上表现不佳，准确率仅 33%

研究表明：GPT-4 在图形推理任务上表现不佳，准确率仅 33% 据站长之家 11 月 21 日报道，美国圣塔菲研究所的研究显示，GPT-4 在图形推理任务上的准确率仅为 33%，而多模态版本

GPT-4

AI新智界 2023-11-21

GPT-4准确率飙升64%，还当起了“老板”

GPT-4准确率飙升64%，还当起了“老板” 【新智元导读】大模型幻觉问题还有另一种解法？斯坦福联手OpenAI研究人员提出「元提示」新方法，能够让大模型成为全能「指挥家」，汇聚不同专家模型精华

GPT-4 斯坦福 OpenAI

新智元 2024-01-29

GPT-4准确率大跳水，从97.6%降至2.4%

出品 OSC开源社区（ID：oschina2013)斯坦福大学和加州大学伯克利分校合作进行的一项 “How Is ChatGPT's Behavior Changing Over Time?”

GPT-4 ChatGPT 斯坦福

OSC开源社区 2023-07-20

研究：GPT-4 在儿科疾病诊断中准确率仅为 17%

GPT-4

AI新智界 2024-01-06

近期资讯

“A股网红”川大智胜或借“低空计划”爆发？

能否为其带来新机会？

DoNews 2024-12-27

量子位 2024-12-27

4000万连接，卫星物联网连接数飙升的原因找到了...

卫星物联网在各个行业加速渗透，推动空天地一体化未来的到来。

物联网智库 2024-12-27

十大关键词，透视2024年新消费行业风向之变

2024年新消费领域大事记。

亿欧网 2024-12-27

大众汽车将削减3.5万个工作岗位，赫兹因电车大幅降价大量抛售特斯拉｜海外日报

12 月 26 日 EV Focus 海外日报

EV Focus 日报 2024-12-27

iPhone 被曝光的这个大更新，堪称手机摄影的「回锅肉」

除非物理学不存在了

爱范儿 2024-12-27

关于中国人工智能创业者，我们提出了10个问题并回答

关于中国人工智能创业者，我们提出了10个问题并回答｜IT桔子报告

IT桔子 2024-12-27

GPT-4不会图形推理吗 “放水”后准确率依然只有33%

推荐体验

相关资讯

GPT-4不会图形推理？“放水”后准确率依然只有33%

研究表明：GPT-4 在图形推理任务上表现不佳，准确率仅 33%

GPT-4准确率飙升64%，还当起了“老板”

GPT-4准确率大跳水，从97.6%降至2.4%

研究：GPT-4 在儿科疾病诊断中准确率仅为 17%

近期资讯

“A股网红”川大智胜或借“低空计划”爆发？

2025年，家族办公室最该关心些啥？

下一代存储器趋势：存内处理（PIM），商业化迎来新进展

氪星晚报｜东方甄选首次详细披露自营产品销售数据；特斯拉北京：Model 3试驾量周环比增长60%；我国首个国家级海上风电研究与试验检测传动链平台基地投运

北大开源首个针对视频编辑的新指标，与人类感知高度对齐

4000万连接，卫星物联网连接数飙升的原因找到了...

十大关键词，透视2024年新消费行业风向之变

大众汽车将削减3.5万个工作岗位，赫兹因电车大幅降价大量抛售特斯拉｜海外日报

iPhone 被曝光的这个大更新，堪称手机摄影的「回锅肉」

关于中国人工智能创业者，我们提出了10个问题并回答

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响