五一这一天稍微有点空,再讲讲ChatGPT和大模型相关的一些东西。
其实最近我也在各个平台上看到很多言论,例如有些流传广度的“GPT-3/ChatGPT都开源几个月了,国内厂商才抄出来”这种甚至都懒得反驳的谣言。
不过这次主要还是把以前零零散散说过的东西整合一下,主要还是帮大家理解,也不能算是辟谣吧。
(1)前不久我发了一个专栏:
网传GPT-5已经看完所有人类视频?简单找了下这条消息的来源
其实这个推特原文中还提到了“它可以瞬间标记出所有它看过的视频中的一切声光信息。准确到每一秒都行”。有没有一种可能,做到这种事情不需要GPT?有没有一种可能,我只要写个简单的程序就可以了?不过1s确实有些麻烦,但做些索引啥的应该问题不大。而GPT这样的大模型想要1s推理实际上是很麻烦的。再往后就不展开了,就好像我要论证火箭发射不是用煤一样。
对了,一开始有人认为GPT-5已经开始训练了,主要是因为一位老哥在看GPT-4的技术报告的时候猜测出来的。
(2)当然,可能有朋友会问,万一里面说的“GPT-5”实际上不是OpenAI做的呢?毕竟OpenAI老总说他们其实没有在训练GPT-5,那么是不是其他人做了个模型,命名为GPT-5了呢?确实有这个可能。包括很多地方有很多实际上不是GPT的程序披着GPT的名号发布APP啥的,不过OpenAI最近想要给“GPT”做商标啥的(我对版权、商标啥的不是很熟,总之OpenAI的目的就是防止“GPT”被泛滥的使用,而且“想要”就是说明在写这篇专栏的时候,就我所知,还没做好),目的也是防止山寨货横行。
(3)回到一开始的那一条“GPT-3/ChatGPT都开源几个月了,国内厂商才抄出来”。首先,GPT-3就是没有开源的,有API调用和开源是两码事。开源主要指的是模型架构和参数的开源,再不济是开源训练数据和训练方法,包括超参啥的,让人能够不进行额外的探索就可以轻松复现。
GPT-3论文中只是简单说明一下模型参数量和一些架构细节,顺带提了下上下文学习啥的,远远称不上是开源。
ChatGPT更是连论文都没有,只是在网页上说明它用了RLHF等技术,你能找到的相似论文,或者说姐妹模型的论文是InstructGPT,然而很关键的一点,即ChatGPT的RLHF用了多少数据,用了什么样的数据,我们是不清楚的。
GPT-4更是只有技术报告,连有多少参数都不知道。
(4)有人会说可是GPT-2开源了啊,不是说GPT-3只是在GPT-2的基础上狂暴的增加参数而已吗?确实,很多人批评GPT-3的主要的一点就在于GPT-3完全没有创新。但是参数量从几亿增加到千亿级别,是需要相关资源全部配套到位才可以的,你需要更好的硬件、更好的优化策略、更好的处理分布式、更好的既懂得硬件有懂得软件的工程师、更好更多的数据以及更多的钱。整个工程难度不是GPT-2可以比的。
(5)GPT-3的复刻问题。其实并不是说我们之前就完全没有关注GPT的发展,GPT-3出来以后,就有很多复刻的尝试,但大都失败了,流传下来了很多复刻失败的经验。那么,有没有复刻成功的呢?有的,目前唯一已知公开宣布复刻成功的只有达摩院,而且达摩院也是从GPT-1(其实狭义上的GPT指的就是GPT-1,而且我们业界一般不说GPT-1的,就直接叫GPT,不过GPT-1毕竟简单易懂)开始就跟着复刻了,有不少相关经验
(6)其实ChatGPT刚开始火的时候,我就猜到有很多国内的人会很着急,当然我那时候也说了,大模型不是一两天就能训练出来的,至少要等几个月。到现在各种类GPT一个个冒出来也说明了ChatGPT出来之后,很多组织跟进的还是挺及时的,然而差距还是有的。这也侧面验证了GPT-3并不是GPT-2的简单扩大。
(7)这里提一下清华的ChatGLM。我看了论文才知道GLM实际上是双向的(GPT-3以及一系列模型都是单向的),双向的好处是对输入文本的理解能力更强,但是这样做会导致在同等参数量的情况下,双向模型会小很多,可能会影响能力涌现。
(8)接下来说说“抄”的问题。实际上也没必要那么在意,包括前不久有人说文心一言的文生图是中译英再文生图的。但是开源的目的就是让人用的,用开源的东西并不可耻。并且说白了现在大部分大模型不还是transformer架构吗,也没人整天说这些模型都抄袭“Attention is all you need”这篇论文啊。当然,文心一言的实际使用过程中确实可以看到很多值得吐槽的点,整体性能只能说是能用的程度。
(9)大家当然希望我们国家的一些技术能够自主创新一些,这也能理解,但是对于没有实际参与过大模型训练的人来说可能很难体会到这个东西到底有多么难做。我整个4月都在和大模型打交道,快把我逼疯了也没做出什么有价值的东西,我们实验室训练出的LLaMA模型性能,实话实说,也不怎么样。在我看来,能在几个月内搞出点东西,甚至敢发布,都可以说是很值得称赞了。
(10)说回Transformer,Transformer是编码器-解码器架构,Transformer出现之后,BERT和GPT就对其“肢解”了,BERT是纯编码器,GPT是纯解码器。我也说过很多次了,之前很多的研究主要走的是BERT这一支,毕竟BERT在当时给人的震撼是立竿见影的,这就导致即使GPT-3也同样惊艳、有很多神奇的现象的情况下,大模型的研究也主要是BERT这条线,直到ChatGPT的出现才让大部分人意识到事情的不对劲。
其实还有很多想说的,但也写了快一个小时了,就先这么多吧。
由于我个人比较忙,就不一一把相关的证据搬出来了,包括有些资料也不太好翻找。可能会有些错误,还请大家见谅。