一觉醒来就发现群里开始传GPT-4,当然,很多多媒体早就先我一步写出推文了(没办法,人家是团队,我就一个人)。不过我当然还是写一写我个人在意的一些点。其实干劲不是特别大吧,主要是看了几篇发现性能好像没有我想的那么好,主要是现在GPT已经大火了,不像我刚写ChatGPT论文那时,还是个AI圈子里的事情。
1.论文or报告?
我们来看论文题目:
非常直白。我之前还猜想过什么“语言模型是元学习者”“多模态模型是XXX”之类的标题,结果竟然是技术报告,只不过确实是论文的形式。
而且,这篇报告基本上是性能测试。也就是说,抱歉,网络结构不告诉你(主要是在意视觉模态是以怎么样的方式融合进去的,用的什么架构),网络参数量不告诉你,训练集也不告诉你(唯一有些透露的就是它是见过一些人类考试的试题的,但基本是没什么用的透露)。
甚至,目前开放的版本好像是不支持图像输入的,具体性能你甚至只能看论文。
2.目前GPT-4发布现状
(1)new bing早就再用GPT-4了
(2)ChatGPT有GPT-4版本的了,但是好像只有Plus用户可以用
(3)有些应用将会搭载GPT-4
(4)上文说了,目前大家能用到的应该是不支持多模态的
3.多模态or语言模型Plus?
虽然说是多模态,但从报告来看,目前的输入可以是图像和文本,输出是文本。而且,很可能输入是必须包含文本的(换言之,可以没有图像)。
虽然很多人在说CV结局了,但其实,连NLP目前还没有结束的迹象,这个倒不用担心。
虽然没有想象中的模态那么多(很多人也在吹第一个多模态大模型,这也是不准确的,PaLM-E和KOSMOS-1呢?)
从论文来看,我认为整个模型依然是语言模型为主体和绝对C位的的。可以参考下面这个表格:
这时用GPT-4参加人类考试的测试,可以发现,GPT-4的性能是强于GPT-3.5的,但是加上视觉模态并没有很大幅度地提升性能,甚至在一些考试中分数还会下降。
这表明:
(1)视觉模态可能没那么重要,且很多时候还会有负面影响;
(2)GPT-4的语言模型应该是比GPT-3.5要强的,但参数量不一定能达到1750亿(也有可能用了稀疏MoE),毕竟目前很多观点认为ChatGPT本身不是基于1750亿的模型来调的,而是更小的模型。
其他多模态大模型见:
4.涌现
似乎GPT-4也涌现出了新能力。关于涌现,见:
【花师小哲】当代炼金术(神经网络)前沿(23)——transformer涌现了傅里叶变换
证据就是下面这个:
这个任务我也不知道是什么,但从表现来看,GPT-4似乎真的学会了这个任务(准确率达到100%)
5.其他几个点
(1)完全不出意外,GPT-4用了RLHF做微调。RLHF见:
(2)它能解释梗图:
这是个比较好玩的东西,梗图的难度是比什么识别物体难多了,不过应该只能识别一些比较大众的梗图的。毕竟,梗图是需要知识积累的
(3)能一句话玩cosplay。简单来说,它的人格转换可以非常快的,要让ChatGPT玩扮演有时候就没那么轻松了。
(4)论文中塞论文,在附录中本论文塞了一个完整论文,关于安全性研究的。原来你们也怕啊(这里没有暗示某个Lamda的意思
(5)依然有GPT的老问题,这个理所当然是没有解决的
6.小结
就我来说,这篇论文或这次发布没有那么惊艳吧,特别是人家PaLM-E已经三个模态,KOSMOS-1已经能把其他模态当“外语”学的时候,GPT-4竟然只加了视觉模态?不过,从性能角度来讲,确实是一次很大的提高了。