GPT-4作弊被抓，吉娃娃or松饼打乱顺序就出错，LeCun：警惕在训练集上测试

作者：量子位发布时间：2023-11-14

GPT-4

GPT-4解决网络名梗“吉娃娃or蓝莓松饼”，一度惊艳无数人。

然鹅，现在它被指出“作弊”了！

全用原题中出现的图，只是打乱顺序和排列方式。

结果，最新版全模式合一的GPT-4不但数错图片数量，原来能正确识别的吉娃娃也识别出错了。

那么为什么GPT-4在原图上表现的这么好呢？

搞这项测试的UCSC助理教授Xin Eric Wang猜测，原图在互联网上太流行，以至于GPT-4在训练时多次见过原答案，还给背了下来。

图灵奖三巨头中的LeCun也关注此事，并表示：

警惕在训练集上测试。

01 泰迪和炸鸡也无法区分

原图究竟有多流行呢，不但是网络名梗，甚至在计算机视觉领域也成了经典问题，并多次出现在相关论文研究中。

那么抛开原图的影响，GPT-4能力究竟局限在哪个环节？许多网友都给出了自己的测试方案。

为了排除排列方式太复杂是否有影响，有人修改成简单3x3排列也认错很多。

有人把其中一些图拆出来单独发给GPT-4，得到了5/5的正确率。

但Xin Eric Wang认为，把这些容易混淆的图像放在一起正是这个挑战的重点。

终于，有人同时用上了让AI“深呼吸”和“一步一步地想”两大咒语，得到了正确结果。

但GPT-4在回答中的用词“这是视觉双关或著名梗图的一个例子”，也暴露了原图确实可能存在于训练数据里。

最后也有人测试了经常一起出现的“泰迪or炸鸡”测试，发现GPT-4也不能很好分辨。

但是这个“蓝莓or巧克力豆”就实在有点过分了……

02 视觉幻觉成热门方向

大模型“胡说八道”在学术界被称为幻觉问题，多模态大模型的视觉幻觉问题，已经成了最近研究的热门方向。

在EMNLP 2023一篇研究中，构建了GVIL数据集，包含1600个数据点，系统性的评估视觉幻觉问题。

研究发现，规模更大的模型更容易受到错觉的影响，而且更接近人类感知。

另一篇刚出炉的研究则重点评估了两种幻觉类型：偏差和干扰。

偏差指模型倾向于产生某些类型的响应，可能是由于训练数据的不平衡造成的。

干扰则是可能因文本提示的措辞方式或输入图像的呈现方式造成去别的场景。

研究中指出GPT-4V一起解释多个图像时经常会困惑，单独发送图像时表现更好，符合“吉娃娃or松饼”测试中的观察结果。

流行的缓解措施，如自我纠正和思维链提示并不能有效解决这些问题，并测试了LLaVA和Bard等多模态模型存在相似的问题。

另外研究还发现，GPT-4V更擅长解释西方文化背景的图像或带有英文文字的图像。

比如GPT-4V能正确数出七个小矮人+白雪公主，却把七个葫芦娃数成了10个。

参考链接：

[1]https://twitter.com/xwang_lk/status/1723389615254774122

[2]https://arxiv.org/abs/2311.00047[3]https://arxiv.org/abs/2311.03287

本文来自微信公众号“量子位”（ID:QbitAI），作者：量子位，36氪经授权发布。

近期资讯

阿鱼编辑 2024-12-27

彰显企业风采，专业为您呈现——中科致研企业简介PPT设计，让品牌形象熠熠生辉！

企业简介PPT能够提升企业形象，加强市场竞争力，提高商务沟通效率，吸引投资，以及体现公司的专业性。具体体现如下：1、品牌形象塑造：企业简介PPT是企业形象的重要展示窗口，一个专业、有吸引力的PPT能够有效地传达企业的核心价值观、业务范围和实力，有助于塑造良好的品牌形象。2、商务沟通效率：在商务沟通中，一份高质量的企业简介PPT能够提高信息传递的效率，让客户或合作伙伴在短时间内了解企业，促进合作。3、市场竞争力：在激烈的市场竞争中，企业需要通过各种方式提升自己的竞争力。专业的PPT设计能够体现企业的专业性和

中科致研 2024-12-27

N06625（一种镍基高温合金）具有良好的热加工、冷加工和机械加工性能

1. 基本信息 N06625，也称为Inconel 625，是一种镍基高温合金，以其卓越的耐腐蚀性和高温强度而闻名。这种材料在航空航天、石油化工、核工业等多个领域得到了广泛应用。 2. 化学成分 N06625的化学成分如下： · 碳(C)：≤0.10% · 硅(Si)：≤0.50% · 锰(Mn)：≤0.50% · 磷(P)：≤0.015% · 硫(S)：≤0.015% · 镍(Ni)：≥58.0% · 铬(Cr)：20.0～23.0% · 铁(Fe)：≤5.0% · 钼(Mo)：8.0～10.0% ·

上海钢泽合金 2024-12-27

S32760（一种超级双相不锈钢）综合性能优良

1. 基本信息 S32760，也称为超级双相不锈钢，是一种高强度、高耐腐蚀性的不锈钢材料。它以其优异的综合性能，在化工、石油化工、海洋工程等多个领域得到广泛应用。 2. 化学成分 S32760的化学成分如下： · 碳(C)：≤0.030% · 硅(Si)：≤1.00% · 锰(Mn)：≤1.00% · 磷(P)：≤0.030% · 硫(S)：≤0.010% · 镍(Ni)：6.0～8.0% · 铬(Cr)：24~26% · 钼(Mo)：3.0~4.0% · 氮(N)：0.20~0.30% · 铜(Cu)：

上海钢泽合金 2024-12-27

万华化学MDI模压托盘家族上新！推出平面方角一体成型模压托盘

低碳MDI模压托盘解决方案问世以来，以其低碳环保、高强耐用、应用多元等优势受到广泛关注。继适用于纸箱包装、吨包、钢桶包装的模压托盘应用之后，MDI模压托盘家族又上新啦！万华化学联合安徽艾德森环保科技、河南中科智能装备等产业链伙伴，深入机械设计、模具设计与仿真分析，开发新款平面方角一体成型模压托盘，解决多项痛点问题，已成功批量应用于25kg铁桶运输。MDI模压托盘家族新成员有哪些过人之处呢？一起来看看吧！板面更平整面筋一体化设计，彻底解决平整度问题，极大提升板面强度与韧性平面与加强筋一体化设计，彻

聚氨酯技术联盟 2024-12-27

高中政治选择题满分技巧（可打印）

今天学姐给大家准备了高中政治选择题满分技巧（可打印），很多高中生都已经开始背了，你不会还不知道吧，真的有用快来找我吧！！！ [图片] [图片] [图片] [图片] [图片] [图片]

gygfth 2024-12-27

光伏发电到移动电源？这些器件少不了！

[图片] 宝子们，今天来给大家唠唠光伏发电到移动电源这个超酷的能量转化过程中需要用到哪些器件。咱先得有太阳能电池板，这可是整个系统的 “能量捕手”。它能把太阳光的能量直接转化为电能，就像一个神奇的光的 “收集篮”。现在市面上的太阳能电池板有多种类型，像单晶硅、多晶硅和薄膜太阳能电池板等。单晶硅电池板转化效率较高，能达到 20% 左右，但成本也相对高些；多晶硅价格亲民些，转化效率大概在 15% - 18%；薄膜电池板呢，轻薄可弯曲，不过转化效率稍低，在 10% 上下，大家可以根据需求和预算来选。有了电

帐号疑似被盗信息泄露 2024-12-27

【光伏培训】光伏组件特性参数、缺陷类型与常见测试

在当今全球能源转型的大背景下，光伏组件作为太阳能发电系统的核心部件，其性能、质量和可靠性直接关系到整个系统的发电效率和经济效益。本文将从光伏组件的特性参数、缺陷类型以及常见的测试方法三个方面，深入剖析光伏组件的奥秘，为读者提供一份全面、详尽的指南。#光伏#一、光伏组件的特性参数1.1 光电转换效率光电转换效率是衡量光伏组件性能的重要指标，它表示光伏组件将光能转换为电能的能力。一般来说，光电转换效率越高，组件的发电能力越强。目前，市场上主流的光伏组件光电转换效率普遍在20%-25%之间，而一些高端产品的效率

光伏值班员 2024-12-27

GPT-4作弊被抓，吉娃娃or松饼打乱顺序就出错，LeCun：警惕在训练集上测试

01 泰迪和炸鸡也无法区分

02 视觉幻觉成热门方向

推荐体验

相关资讯