没想到昨天调侃一句“ChatGPT罪大恶极”会被朋友误解,当然因为那个动态也说的比较模糊,也不能怪别人误解。可能是我个人有点太在意了,主要是昨天烦心事比较多,再加上这件事让我回想起了一些尘封的不太愉快的往事。哎,不过昨天由于影实第二季官宣了,好歹是中和了一下。
趁着今天的爆肝论文时间还没开始,讲一些阳光点的东西。
有一个话题最近也有很多人在问,即为什么中国做不出ChatGPT,这个问题其实很多大牛早就在各平台回答过了,不过既然说了要讲点阳光点的东西,就讲讲一些乐观的地方。
(1)GPT其实一直并不是特别被看好。很多人可能会问,GPT这种东西技术难度又不高,为什么我们没做呢?其实首先我们要明白一个前提,即GPT在之前并不是业界的主要研究方向。在OpenAI搞GPT的时候,业界主要在干什么呢?其实都主要在搞BERT和类BERT。就像GPT现在已经被很多领域拿过去用,诞生了一大堆XXXGPT的项目一样,BERT当时也是遍地开花。
为什么BERT之前的关注度比较高呢?GPT是单向Tramsformer,BERT是双向Tramsformer,看起来就更加高大上一些。另外,GPT是单独解码器架构,BERT是编码器架构,这意味着GPT天生是专注于预测下一个词,或者说语言生成的;而BERT的目的是把原始的“贫瘠”的输入转化成“富含信息”的输出,可以适应非常多的任务,这种思想也很容易被其他领域(非NLP领域)借鉴去。另外的原因还有很多,例如BERT实在是太惊艳、造成了后续的BERT狂热而忽略了GPT的发展(现在可能也是哦,大家都去关注ChatGPT了没准又会有新的技术异军突起)
所以ChatGPT火起来更像是OpenAI孤注一掷的结果,美国公司不也在做自己的ChatGPT,例如谷歌Bard,结果不也是一次失败的尝试(其实大语言对话模型出错很正常,只是在ChatGPT走红的现在,Bard的出现又带有一些对抗性的姿态,所以公开展示的一次小出错就显得严重了)
(2)还是老话,大语言模型不是说做就能做的。大模型就要大数据、大算力,这不是一般个人和小实验室负担的起的。即使是大厂,要搞出大模型也需要几个月的时间来训练模型,并且由于RLHF的训练强度至今没有公开,所以不可能出的那么快,早期出现的大都是蹭热度。更不要说中文语料库其实还是比较少的等一些现实问题。
现在一些朋友比较焦急我可以理解,但这玩意确实需要那么长的时间,不然出不来。
说好了只讲乐观的方面,其实不乐观的方面还是很多的,但是我个人还是希望中国的大模型能够发展起来