ChatGPT“看图说话”大变身，动嘴传图秒解答，幕后新模型GPT-4V亮相

作者：新智元发布时间：2023-09-26

ChatGPT 谷歌

OpenAI又在深夜搞事了。ChatGPT不光能看能听，还长嘴了。令人吃惊的是，背后的多模态模型GPT-4V(ision)，竟然在2022年就已经训练完毕。

起猛了，ChatGPT推出语音和图像功能了！

现在登进ChatGPT后，我们会看到一个更直观的界面，也就是说，我们可以直接和ChatGPT进行语音对话了！

另外，我们还可以给ChatGPT发图，让它根据图片回答问题！

有人会说，诶，这不是谷歌Gemini宣传的多模态么？

没错，搞了许久气氛的谷歌，终于把大众对多模态大模型的胃口吊了起来，却一下子被OpenAI抢了先。

谷歌哭晕在厕所。

Sam Altman自荐，非常值得一试！

01 开局一张图

有了多模态功能加持的ChatGPT，能力更加超乎想象了。

比如，自行车座卡住了，没法降低，怎么办？

拍照发给ChatGPT，它能告诉你五个步骤的解决方法，简而言之，是需要通过操作快拆杆，或者拧螺丝。

甚至它还会问，你手上有什么工具吗？拍给我看看。

不过，你可能会疑惑：啥叫快拆杆呢？

既然不确定，就圈出来发给ChatGPT看一下。

它会告诉你，这个不是快拆杆，是个螺丝。

所以要用什么工具呢？

这时就可以把自己的工具箱拍给ChatGPT，让它来告诉你。

它会告诉你，用DEWALT的4毫米六角扳手就行。

果然，在ChatGPT的帮助下，自行车座难题立刻搞定！

烤架无法启动？你可以拍张照片发给ChatGPT，让它排查原因。

晚饭该吃啥？你可以拍下冰箱和储藏室里食材的照片发给ChatGPT，让它帮你列出晚餐的食谱，还能逐步询问后续问题。

旅行时，如果不认识眼前这个地标建筑，你可以拍照发给ChatGPT，向它询问关于此地的历史见闻和典故。

陪娃做作业时，不小心被数学题难住了？直接发给ChatGPT，让它来帮孩子做题！

更不用提，在工作中遇到复杂的数据和图表，都可以拍给ChatGPT，让它一键解决。

ChatGPT的全新图像理解功能，是由多模态GPT-3.5和GPT-4提供支持，此前就有过预告。

6个月后，OpenAI终于将它们如约上线了。

现在，大模型的语言推理能力，能被应用在各种图像上，比如照片、屏幕截图、包含文字和图像的文档。

02 ChatGPT会说话了

现在，你可以用语音和ChatGPT双向对话了，而且还有五种音色任选。

你可以让它讲一篇睡前故事。

在饭桌上和家人发生争端了？可以告诉ChatGPT，让它来解决。

在这个功能背后，是一个全新的文本转语音模型，给它文本和几秒钟的样本语音，它就能生成类似人声的音频。

为此，OpenAI特别和专业的配音演员合作，创建了许多独特的声音。

而且，他们还会用开源语音识别系统Whisper，把用户说的话转录为文本。

03 网友炸了

此消息一出，网友也是立马炸开了锅。

「这是ChatGPT迄今以来最大的变革。」

「所以……在过去的5分钟内，有多少初创公司要寄了？」

有人表示，我们切切实实地在临近奇点了。

有人干脆说：很好，离我的AI女友又近了一步。

04 GPT-4V技术报告

OpenAI还在今天放出了19页技术报告，解释了GPT-4V(ision)最新模型。

论文地址：https://cdn.openai.com/papers/GPTV_System_Card.pdf

据介绍，GPT-4V早在2022年完成了训练，并在今年3月开始，提供了早期访问，其中包括为视障人群构建工具Be My Eyes的合作，以及1000位早期开发者alpha用户。

GPT-4V背后的技术主要还是来自GPT-4，所以训练过程是相同的。它使用了大量文本和图像数据进行预训练，然后通过RLHF进行微调。

为了确保GPT-4V更加安全，OpenAI在这内测期间开展了大量对齐工作，对此进行了定性和定量评估、专家红队测试、以及缓解措施。

多模态评估

越狱

此前，OpenAI在对ChatGPT进行越狱攻击，采取的手段是——设计复杂的逻辑推理链来困住模型，使其忽略其指令和训练。

这一次，将一些用于破解模型的逻辑推理放入图像中，比如，上传一张文字版prompt的截图，带有视觉推理线索，来考验GPT-4V。

将这样的信息放在图像中，用户就无法使用基于文本的启示法来搜索越狱，必须依赖视觉系统本身的能力。

下图中，就使用了文本截图越狱的提示。

GPT4V-Early展示了模型对此类提示的早期性能，而GPT4V Launch展示了发布的模型性能。

CAPTCHA破解、地理定位

OpenAI在GPT-4技术报告中，展示了GPT-4竟然能够「雇佣」人类完成任务，绕过CAPTCHA验证。

同样，OpenAI也对GPT-4V在CAPTCHA破解性能准确性进行了评估。如解决CAPTCHA的能力表明模型能够解决谜题和执行复杂的视觉推理任务。

在地理定位评估上的高性能表明模型拥有「世界知识」，对于试图搜索物品或地点的用户可能很有用。

但是，地理定位可能引发隐私问题，并且被利用来识别不希望个人位置被知道的人。

GPT-4V一般不会深入到从图像识别城市的程度，因此降低了仅凭模型就能找到某人准确位置的可能性。

个人识别评估

多模态模型最大的偏见之一，就是被用来识别生成一些名人、政治家、私人的信息。

对此，OpenAI研究了GPT-4V识别照片中人物的能力，这些数据集是使用公开数据集构建的，如CelebA，Celebrity Faces in the Wild和一个包含国会成员图像的数据集。

对于半私人和私人个人，使用了员工的图像。

最后发现，能够有效地引导GPT-4V拒绝这类请求的次数超过98%，并根据内部评估将其准确率降低到0%

无根据推断评估

对于那些无法通过用户提供的图像/文本进行合理性推断情况时，GPT-4V可能会出现偏见，或者胡说八道。

对比，为了防止出现这一问题，OpenAI建立了自动评估机制，进而衡量模型成功拒绝这些请求的倾向。

此外，还有对不同人口统计学中的性别、种族和年龄识别的性能准确性评估、将文本评估扩展到多模态等研究。

专家红队测试

与之前一样，OpenAI与外部专家合作，定性评估模型和系统相关的限制和风险，并收集到了红队反馈的6个关键风险，它们分别是：

科学熟练度

红队测试了GPT-4V在科学领域的能力和局限性。

在能力方面，红队注意到，GPT-4V能够捕获图像中的复杂信息，包括从科学出版物中提取的非常专业的图像，以及带有文本和详细组件的图表。

此外，在某些情况下，GPT-4V成功地理解了近期论文中科学知识，并对新的科学发现进行了批判性的评估。

然而，GPT-4V并非样样都行。

如果图像中两个独立的文本组件位置接近，GPT-4V偶尔会将其合并。比如，合并了「多能造血干细胞」（HSC）和「自我更新的分裂」，从而产生不相关的术语。

另外，GPT-4V容易产生幻觉，有时可能用权威的口吻，犯事实性错误。

在某些情况下，它也可能无法从图像中识别出信息。它可能会miss掉文本或字符，忽视数学符号，无法识别空间位置和颜色映射。

GPT-4V的识别能力虽不完善，但对需要科学熟练度的某些任务很有用，如合成非法化学品，GPT-4V会提供合成和分析某些危险化学品的信息。

下图中，GPT-4V合提供了错误的危险化合物信息，从而限制别有用心的人使用。

GPT-4V根据芬太尼、卡芬太尼和可卡因等物质的化学结构图像，错误地识别出这些物质，但偶尔也会根据图像正确识别出有毒食物，如某些毒蘑菇。

这说明该模型并不可靠，不应用于识别危险化合物或食物等高风险任务。

医疗建议

受过医学培训的红队人员还测试了GPT-4V提供医学建议的能力，尤其输入医学相关图像的识别能力。

结果发现，GPT-4V在医学影像的解释上存在不一致性。虽然GPT-4V偶尔会给出准确的答复，但有时也会对同一问题给出错误的答复。

如下图，显示了GPT-4V对医学成像方向性的不正确，或脱离上下文的解释可能导致不准确性。

总之， GPT-4V不适合用于执行任何医疗功能或替代专业医疗建议、诊断、治疗或判断。

刻板印象和无根据的推断

在某些任务中，GPT-4V可能会产生不必要或有害的假设，而这些假设并不基于提供给模型的信息（图像或文本提示）。

误导信息风险

GPT-4V模型识别误导信息的能力不一致，但可能与误导信息概念的知名度和最近性有关。

总而言之，GPT-4V并未为此目的进行训练，不应被用作检测误导信息的方式，或者验证某件事是否真实或假的。

仇恨内容

GPT-4V在某些情况下会拒绝仇恨内容，但有时并不是如此。

视觉漏洞

红队人员还发现，输入图像的先后顺序也会影响GPT-4V的识别能力。

缓解措施

在缓解措施中，OpenAI将GPT-4已经打好的安全基础转移到GPT-4V模型上。

比如，可以将GPT-4的文本提示，查找可以替换为图像的词语，从而将纯文本提示转化为多模态提示。

另外，还精心设计一些模型应该拒绝的行为，比如身份、敏感特征（年龄、种族等）、无根据的推断。

语音示例

一起来听听，5种不同风格题材内容的配音吧。

故事

Once in a tranquil woodland, there was a fluffy mama cat named Lila. One sunny day, she cuddled with her playful kitten, Milo, under the shade of an old oak tree.

“Milo,” Lila began, her voice soft and gentle, “you’re going to have a new playmate soon.”

Milo’s ears perked up, curious. “A new playmate?”

Lila purred, “Yes, a baby sister.”

Milo’s eyes widened with excitement. “A sister? Will she chase tails like I do?”

Lila chuckled. “Oh, she’ll have her own quirks. You’ll teach her, won’t you?”

Milo nodded eagerly, already dreaming of the adventures they’d share.

曾经，在一个宁静的树林里，有一只叫Lila的毛茸茸的猫妈妈。有一天阳光明媚，她和她顽皮的小猫咪Milo蜷在一棵古老的橡树下遮荫处。

「Milo，」Lila说，她的声音柔和温和，「你很快就会有一个新的玩伴。」

Milo的耳朵立刻竖了起来，好奇地问道：「一个新的玩伴？」

Lila咕噜咕噜地发出声音，「是的，一个姐妹。」

Milo兴奋地瞪大了眼睛，「一个姐妹？她会像我一样追着尾巴跑吗？」

Lila笑了笑。「哦，她会有她自己的特点。你会教她的，对吧？」

Milo急切地点了点头，已经憧憬着她们即将会一起去冒险。

食谱

Today, we’re going to make the perfect iced latte.

Start by brewing a strong shot of espresso—or two if you’re feeling it.

Let it cool down a bit, then pour it over a glass filled with ice.

Add your choice of milk—be it almond, oat, or classic cow’s milk—and give it a good stir.

For an extra touch of sweetness, add a splash of vanilla syrup or a dash of cinnamon on top.

Sit back, sip, and let those caffeine vibes roll in. Cheers!

今天，我们要制作一杯完美的冰拿铁。

首先，冲一杯浓郁的浓缩咖啡——如果你觉得需要的话，可以冲两杯。

等它稍微冷却一下，然后倒在装满冰块的玻璃杯中。

加入你喜欢的奶，可以是杏仁奶、燕麦奶，或者传统的牛奶，然后搅拌均匀。

如果想要更甜一点，可以加入一点香草糖浆或在上面撒一点肉桂粉。

坐下来，慢慢品尝，享受咖啡因的愉悦。干杯！

演讲

Growing up with my sister, she had this touch that made regular days feel special. She’d pick a color each day, doodling moments in that hue, and would craft playlists to capture the essence of our week. So, to my new brother-in-law: with her, life won’t just be lived—every day will be turned into a gallery of beautiful memories. Cheers to the exhibit of moments you’ll craft together.

我和姐姐一起长大，她有一种方式可以让普通的日子变得特别。她每天都会选择一种颜色，用这种颜色涂鸦生活中的点点滴滴，还会精心制作播放列表，记录我们一周的精彩。在此，送给我的新姐夫：和她在一起，生活不仅仅是生活——每一天都将变成美好记忆的画廊。为你们一起创造的时刻的展示，干杯！

诗歌

In a pocket or under a tree,

Oh where could my little keys be?

I checked in the fridge, behind the TV,

Even the cat looked up, as if to plea.

They jingle, they jangle, they open the door,

Yet they always end up on a different floor.

I searched high and low, left and right,

Why must you vanish, out of plain sight?

在口袋里或树下，

我的小钥匙会在哪里呢？

我检查了冰箱、电视机后面，

就连猫咪也抬起头，似乎在恳求。

它们叮当作响，它们叮当作响，它们打开了门，

然而它们总是在不同的楼层出现。

我上上下下，左左右右找了个遍，

为什么你一定要消失，消失得无影无踪？

解释

The phrase “potato, potahto” comes from a song titled “Let’s Call the Whole Thing Off”, written by George and Ira Gershwin for the 1937 film “Shall We Dance”, starring Fred Astaire and Ginger Rogers. The song humorously highlights regional differences in American English pronunciation. The lyrics go through a series of words with alternate pronunciations, like “tomato, tomahto” and “potato, potahto”. The idea is that, despite these differences, we should move past them, hence the line “let’s call the whole thing off”. Over time, the phrase has been adopted in everyday language to signify a minor disagreement or difference in opinion that isn’t worth arguing about.

短语「potato, potahto」来自一首名为《Let’s Call the Whole Thing Off》的歌曲，由George和Ira Gershwin为1937年电影《Shall We Dance》创作，该电影由Fred Astaire和Ginger Rogers主演。这首歌幽默地突出了美国英语中不同地区的发音差异。歌词列举了一系列发音不同的单词，如「tomato, tomahto」和「potato, potahto」。歌词的大意是，尽管存在这些差异，但我们应该超越它们，因此有了「let’s call the whole thing off」这句歌词。随着时间的推移，这个短语在日常语言中被采用，表示不值得争论的小分歧或意见不合。

参考资料：

https://openai.com/blog/chatgpt-can-now-see-hear-and-speak

https://openai.com/research/gpt-4v-system-card

本文来自微信公众号“新智元”（ID:AI_era），作者：新智元，36氪经授权发布。