当前位置:首页|资讯|GPT-4|ChatGPT

【花师小哲】鉴定网络热门(?)AI(17)——GPT-4V

作者:花师小哲-中二发布时间:2023-10-08

今天我们来看下GPT-4Vision,简称GPT-4V,或者说,GPT-4终于开放多模态了,或者说开放视觉模态了。(以防大家不知道,在GPT-4刚出来的时候就已经说明GPT-4是多模态模型了,只不过视觉模态一直没开放给公众使用):

【花师小哲】当代炼金术(神经网络)前沿(25)——GPT-4:地表最强模型?

其实我个人一开始是不太想写的,因为前不久实在太忙,GPT-4V刚出来的时候没时间写,现在热度已经降了不小了。另一点是,我的ChatGPT还是免费版,所以GPT-4V是用不上的,没实测过还是有些虚无。

言归正传,本文主要分析两篇文章,一篇是OpenAI的官方报告(现在都不叫技术报告改叫Card了,跟Claude学坏了?),这篇比较短而且主要涉及到安全相关的分析,所以其实基本不分析它了;另一篇是微软针对GPT-4V的166页的定性研究报告,有大量的示例分析研究,读起来也不难理解,所以其实主要介绍这一篇,有兴趣的朋友也可以自己去读一下。

OpenAI的
微软的

1.GPT-4V作为多模态大模型的最大优势

这个优势在微软报告中多次提到,即通用性灵活性

多模态大模型(这里就仅仅讨论视觉和语言两种模态了)一般分为两种:(1)分开训练,然后对齐。其实更一般的来说,是我们首先有一个已经训练好的语言模型,例如ChatGPT,然后我们想办法把视觉信息当做是一门“外语”让语言模型去理解。当然,具体做法五花八门,但基本上可以看做是对一个已经完工的语言模型的魔改;(2)一开始就设计成多模态大模型,训练也可以一起训练。可惜,因为我们并不知道GPT-4V的训练细节,所以没法展开。但从之后的例子中大家可以体会下这种方式的优势

这里顺便说一句,GPT-4V的输入可以是图片或语言,但输出只有语言一种,但这并不意味着GPT-4V不能做一些图像任务。

我们先不抽象讲通用性和灵活性,等到后面具体来看

2.输入

虽然我不打算完全顺着微软166页报告来讲(毕竟这样会写很长,而且没必要),但GPT-4V的输入是一定要说一下的。

GPT-4V的输入模式有三种:纯文本、文本-图像对(文本可为空)、文本与图像交错。这样说比较官方,简单来说,就是输入可以是文本与图像的随意混合,可以在一段文本的多处地方插入多张图片(另外,GPT-4的可输入长度还是很长的),非常自由。

作为对比,很多“分开训练,然后对齐”的多模态模型,包括一些真的只能称作ChatGPT+的模型往往对图像的输入都有很多限制,例如图像只能放在输入的开头、一轮交互只能输入一张图像等。

这样一对比,“通用性和灵活性”都很清晰了

3.GPT-4V的一些能力

我相信很多人已经在脑海中想象出一些骚操作了,这时候我们来看看微软的报告中提到了哪些有趣的能力。

我这里就主要关注视觉模态的引入产生的新的连锁效应了(毕竟单纯语言能力这一块早就被研究烂了)。

(1)最基础能力——图像描述。这真的是很基本的能力了,如果模型都不能理解这张图片在说什么,那更复杂的任务就无从谈起了。这方面GPT-4V做的不错

(2)图像对象识别与定位。一张图片不一定只包含一个主要对象,往往是很多个的,这时候就更考验模型的能力了。比较著名的一个样例就是这个了:

当然,GPT-4V是不能输出图片的,所以下面的图片是根据输出文本的坐标再处理的。虽然圈的不是特别准确,但也很不错了,名人识别效果也还可以

(3)多模态常识。其中最有意思的就是可以理解meme了,这个在GPT-4的技术报告中就提过,这里不详细展开

(4)带文本的图片理解。类似于OCR,就是理解图片中的文字、表格等等。当然,GPT-4V是可以理解图片中的箭头的(这个没什么好奇怪的,网络图片中人们也喜欢在图片上做标记,这些图片都是被训练过了),所以你可以直接在图片上画圈来给GPT-4V“标重点”。

(5)时间序列与视频。当然视频我们不能直接放到GPT-4V的输入中,但是我们可以取关键帧送给GPT-4V进行理解,例如根据几张图片写配套菜谱、编故事,或者给几张图片排序(什么小学题)等

4.说点有意思的

(1)微软有多喜欢麻婆豆腐啊,据不完全统计,关于麻婆豆腐的测试样例至少有6个

(2)看到数苹果就让我想到维特根斯坦,是不是能针对GPT-4V做一个“像维特根斯坦一样思考”的研究(问:图中有几个红苹果,然后模型先找苹果,然后找红色的,然后记数,完成三个语言游戏)

什么?你说苹果让你联想到牛顿?emmm那就贪婪匹配嘛(

5.结语

当然,这篇文章还提到了很多的内容,包括很多神奇的应用场景、给GPT-4V测IQ和EQ等。虽然多模态大模型很强大,但安全问题还是很值得考虑的,实际上前不久就有一个著名研究团队发论文说多模态大模型比单纯的语言模型更容易“灾难性遗忘”,这也是为什么OpenAI的报告这么强调安全性(以前是谷歌对于大模型总是强调安全,也就是质疑谷歌,理解谷歌,成为谷歌)。

希望大家能用GPT-4V的帮我实际体验一下(



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1