当前位置:首页|资讯|GPT-4|ChatGPT

【花师小哲】当代炼金术(神经网络)前沿(25)——GPT-4:地表最强模型?

作者:花师小哲-中二发布时间:2023-03-15

一觉醒来就发现群里开始传GPT-4,当然,很多多媒体早就先我一步写出推文了(没办法,人家是团队,我就一个人)。不过我当然还是写一写我个人在意的一些点。其实干劲不是特别大吧,主要是看了几篇发现性能好像没有我想的那么好,主要是现在GPT已经大火了,不像我刚写ChatGPT论文那时,还是个AI圈子里的事情。

你就是地表最强模型?

1.论文or报告?

我们来看论文题目:

非常直白。我之前还猜想过什么“语言模型是元学习者”“多模态模型是XXX”之类的标题,结果竟然是技术报告,只不过确实是论文的形式。

而且,这篇报告基本上是性能测试。也就是说,抱歉,网络结构不告诉你(主要是在意视觉模态是以怎么样的方式融合进去的,用的什么架构),网络参数量不告诉你,训练集也不告诉你(唯一有些透露的就是它是见过一些人类考试的试题的,但基本是没什么用的透露)。

甚至,目前开放的版本好像是不支持图像输入的,具体性能你甚至只能看论文。

2.目前GPT-4发布现状

(1)new bing早就再用GPT-4了

(2)ChatGPT有GPT-4版本的了,但是好像只有Plus用户可以用

(3)有些应用将会搭载GPT-4

(4)上文说了,目前大家能用到的应该是不支持多模态的

3.多模态or语言模型Plus?

虽然说是多模态,但从报告来看,目前的输入可以是图像和文本,输出是文本。而且,很可能输入是必须包含文本的(换言之,可以没有图像)。

虽然很多人在说CV结局了,但其实,连NLP目前还没有结束的迹象,这个倒不用担心。

虽然没有想象中的模态那么多(很多人也在吹第一个多模态大模型,这也是不准确的,PaLM-EKOSMOS-1呢?)

从论文来看,我认为整个模型依然是语言模型为主体和绝对C位的的。可以参考下面这个表格:

这时用GPT-4参加人类考试的测试,可以发现,GPT-4的性能是强于GPT-3.5的,但是加上视觉模态并没有很大幅度地提升性能,甚至在一些考试中分数还会下降。

这表明:

(1)视觉模态可能没那么重要,且很多时候还会有负面影响;

(2)GPT-4的语言模型应该是比GPT-3.5要强的,但参数量不一定能达到1750亿(也有可能用了稀疏MoE),毕竟目前很多观点认为ChatGPT本身不是基于1750亿的模型来调的,而是更小的模型。

其他多模态大模型见:

【花师小哲】鉴定网络热门(?)AI(4)——多模态大模型

4.涌现

似乎GPT-4也涌现出了新能力。关于涌现,见:

【花师小哲】当代炼金术(神经网络)前沿(23)——transformer涌现了傅里叶变换

证据就是下面这个:

这个任务我也不知道是什么,但从表现来看,GPT-4似乎真的学会了这个任务(准确率达到100%)

梅开二度

5.其他几个点

(1)完全不出意外,GPT-4用了RLHF做微调。RLHF见:

【花师小哲】当代炼金术(神经网络)前沿(7)——GPT史

(2)它能解释梗图:

我特地选了个大家好理解的梗图例子,充电头那个我看不懂

这是个比较好玩的东西,梗图的难度是比什么识别物体难多了,不过应该只能识别一些比较大众的梗图的。毕竟,梗图是需要知识积累的

(3)能一句话玩cosplay。简单来说,它的人格转换可以非常快的,要让ChatGPT玩扮演有时候就没那么轻松了。

(4)论文中塞论文,在附录中本论文塞了一个完整论文,关于安全性研究的。原来你们也怕啊(这里没有暗示某个Lamda的意思

附录中塞的论文

(5)依然有GPT的老问题,这个理所当然是没有解决的

6.小结

就我来说,这篇论文或这次发布没有那么惊艳吧,特别是人家PaLM-E已经三个模态,KOSMOS-1已经能把其他模态当“外语”学的时候,GPT-4竟然只加了视觉模态?不过,从性能角度来讲,确实是一次很大的提高了。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1