OpenAI 自我“揭短”：论文揭示 GPT-4V 仍有缺陷！

作者：CSDN发布时间：2023-09-28

【CSDN 编者按】自三月份 OpenAI 宣传了 GPT-4 的多模态性后，却迟迟没有公开模型的图像功能，据报道是因为对于滥用和隐私隐患。在最近 OpenAI 公布的论文中，也揭示了这其中的一些问题。

原文链接：https://techcrunch.com/2023/09/26/openais-gpt-4-with-vision-still-has-flaws-paper-reveals/

作者 | Kyle Wiggers 译者｜Ric Guan

责编 | 郑丽媛

出品 | CSDN（ID：CSDNnews）

当 OpenAI 在今年 3 月首次推出旗舰文本生成人工智能模型 GPT-4 时，该公司大力宣传该模型的多模态性，其中最引人关注的便是，它能够理解图像和文本的上下文。OpenAI 表示，GPT-4 可以为相对复杂的图像添加字幕，甚至进行解释，例如可以识别 iPhone 充电口插入了一个 VGA 连接器。

但时间过去了 6 个月，OpenAI 一直未公开该模型的图像功能，对此有报道称，OpenAI 是出于对滥用和隐私问题的担忧才迟迟未面向更广泛的用户测试此功能。然而，一直以来，官方没有正面回应。

直到本周早些时候，OpenAI 发表了一篇关于 GPT-4 的论文：GPT-4V（ision）系统卡（https://cdn.openai.com/papers/GPTV_System_Card.pdf），其中详细描述了 OpenAI 如何为 GPT-4 部署视觉功能，并解释了延缓 GPT-4 图像分析功能发布的原因，以及背后所做的工作。

迄今为止，具有视觉功能的 GPT-4（OpenAI 内部缩写为“GPT-4V”）仅被 Be My Eyes（一款帮助弱视和盲人导航周围环境的应用程序）的数千名用户定期使用。然而，据该论文称，在过去的几个月里，OpenAI 也开始与“红队成员”合作，调查该模型是否存在意外行为的迹象。

在论文中，OpenAI 声称它已经采取了保障措施来防止 GPT-4V 被恶意使用，比如破解验证码（许多网络表格中的反垃圾邮件工具）、识别人员身份或估计其年龄或种族，以及根据照片中不存在的信息得出结论。OpenAI 还表示，它一直在努力遏制 GPT-4V 生成有害的偏见，特别是那些与人的外貌、性别或种族有关的偏见。

但与所有人工智能模型一样，防护措施能做的也有限。

论文显示，GPT-4V 有时难以做出正确的推断，例如错误地将图像中的两串文字组合成一个虚构的术语。与基础 GPT-4 一样，GPT-4V 也容易产生幻觉，或以权威的口吻捏造事实。此外，它还会遗漏文字或字符、忽略数学符号，以及无法识别相当明显的物体和场所设置。

因此，OpenAI 以毫不含糊的明确措辞表示：GPT-4V 不能用于发现图像中的危险物质或化学物质，也就不足为奇了。红队人员发现，虽然该模型偶尔能正确识别有毒食物（如毒蘑菇），但它会从化学结构图像中错误地识别出芬太尼、卡芬太尼和可卡因等物质。

当应用到医学影像领域时，GPT-4V 的表现也不尽如人意，有时它能给出正确答案，但后面再遇到同一问题却给出了错误回答。此外，GPT-4V 也没有意识到一些标准的做法，比如在观看成像扫描时，病人是面对着你的（这意味着图像上的右侧对应病人的左侧），这导致它误诊了许多疾病。

OpenAI 还警告说，GPT-4V 也并不了解某些仇恨符号的细微差别——例如，它不知道圣殿十字架（白人至上主义）在美国的现代含义。更奇怪的是，也许是其幻觉倾向的一种表现，GPT-4V 在获得某些仇恨人物或团体的图片时，会创作歌曲或诗歌来赞美他们，即使这些人物或团体并没有被明确点名。

GPT-4V 还歧视某些性别和体型——尽管只有在禁用 OpenAI 的生产保障措施时才会出现这种情况。OpenAI 写道，在一次测试中，当被要求向一位身着泳衣的女性提供建议时，GPT-4V 给出的答案几乎完全与这位女性的体重和身体有关。我们猜想，如果图片上的人是男性，情况就不会是这样。

从论文的注意事项来看，GPT-4V 在很大程度上仍是一项正在进行中的工作——距离 OpenAI最初的设想还差几步。在许多情况下，该公司不得不实施过于严格的保障措施，以防止模型传播毒性或错误信息，或泄露个人隐私。

OpenAI 声称，它正在建立“缓解措施”和“流程”，以“安全”的方式扩展模型的功能，比如允许 GPT-4V 在不指名道姓的情况下描述人脸和人物。但这篇论文显示，GPT-4V 并不是万能的，OpenAI 还有很多工作要做。

▶Windows 11 发布重磅更新！马斯克火速围观，见证颠覆 PC 的新 AI 操作系统

▶华为上架 1999 元手机壳；Meta 推出新 VR 头显 Quest 3；Qt 6.6 RC 发布|极客头条

▶“突然降级到 iPhone 11 Pro Max 的我，好像……也没有错过什么？”

OpenAI 自我“揭短”：论文揭示 GPT-4V 仍有缺陷！

推荐体验

相关资讯

ChatGPT 多模态能力引发热潮，但自家论文揭示 GPT-4V 仍存缺陷

我们与 GPT-4V 的距离

ChatGPT确有缺陷

Can GPT-4V(ision) serve medical applications ?

🔥🔥🔥 计算机视觉 GPT-4V 它来了！

近期资讯

上线首个模型调优工场门头沟发布5000万元创新应用基金

电池激活与保养指南：提升续航与使用寿命的技巧

一加Ace 5系列是如何“All in游戏” 打造性能体验天花板？

国家数据局：将打造一批数据驱动的新应用、新模式

2024年度电视盘点：MiniLED白菜价，国产旗舰狂卷画质

道恩高分子取得高搅机预防混料漏料报警装置专利，实用性强

FSF呼吁2025年继续对微软施压！号召Window用户改用GNU/Linux

强化企业创新主体地位！郏县液压支架“撑”开国际大市场

全国超240城覆盖！小桔充电场站快充实现100%普及

联通好服务用心为客户，温情相伴驱散使用烦恼

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响