在读了《英伟达创始人对话OpenAI首席科学家:AI的今天和未来》这篇文章后(点击阅读原文),我被Ilya提到的侦探小说类比所震撼,原来GPT是这样生成文字的。这是什么天才的想法!
随后,查阅了一些资料。
越多了解,越发心潮澎湃。尽管很多人认为谷歌一直是人工智能领域的佼佼者,因此Bard迎头赶上并非难事。但实际情况是,短期内GPT的技术壁垒无法超越。
对于微软来说,即使是数月的时间也够了,2023年3月,GPT-4、Copilot、GPT插件相继发布,微软正快速进行市场布局。但对谷歌来说却是致命的。
不过更有可能的是,除非GPT路线遇到瓶颈,否则微软将一骑绝尘。
其原因有两个:技术路线与训练时间。
完型填空 VS 创作生成
尽管OpenAI的GPT和Google的Bard都是在2018年发布,且均基于Google的Transformer(即GPT中的T)架构,但GPT和Bard的语言生成思路却截然不同。
Bard的训练思路是完型填空。让其利用上下文猜被挖掉的词,技术上称为双向自编码。比如给模型一个题目如“翠花,___酸菜!”如果Bard猜出“上”,则这个训练完成。
GPT的训练思路是创作生成。要求其依靠前文猜测下一个词。模型一个题目“翠花,上___!”程序猜出“酸”,则生成了一个新文本“翠花,上酸___!”;程序猜出“菜”,则又生成了一个新文本“翠花,上酸菜!___”,技术上称为单向自回归。
Bard是在充分限定条件下做题,因为能够完型填空的词是有限的,上下文答案都有限制,这是解题的思路。做题技巧可以短期提升,在中国长大的你,对这个感觉一定不陌生。这就是为什么Bard在GPT2.0之前,各项参数表现全面领先GPT。
相比之下GPT的训练模型,仅仅根据“上文”猜测“下文”,蕴含无穷可能性,本身是一种开放条件下的创作。这之间的微妙差异,解释了GPT在用户体验上更擅长文本生成。
但GPT训练的缺点是进步缓慢,毕竟磨练技巧比背模版难多了,OpenAI全靠首席科学Ilya所说的“直觉”吊了一口气,然后凭借微软猛砸资金和英伟达数万张A100翻盘。在参数值堆到1750亿的时候,终于迎来了GPT从量变到质变的时点。
于是GPT-3.5成为了人工智能的iPhone时刻。
谷歌匆忙上线的Bard成为了硅谷做题家。
参数量与钞能力
技术路线在最初拉开了差距,这中间所需要的训练量,不是短期内可以完成的,这就是第二个GPT绝对领跑的原因。
这里要解释一下什么是参数量。以下是个简化类比。
已知有四个汉字:我、吃、饭、土;分别对应1、2、3、4。为程序设置两个变量x和y。
当程序生成自然语言“我吃饭”,就是变成了求x、y为何值使得1x+2y=3(我x+吃y=饭)。答:当x=1,y=1时,就是“我吃饭”,模型得到反馈这是人会说的话。
当程序生成自然语言“我吃土”,就是变成了求x、y为何值使得1x+2y=4(我x+吃y=屎)。答:当x=2,y=1时,就是“我吃土”,模型得到反馈这不是人会说的话。
这里的x和y就是GPT背后大语言模型的参数量。
GPT-3的参数量是1,750,000,000,000个。就冲这个数字长度,你也能感受到训练出这个数量的模型绝非一日之功。
训练的效率有两个影响要素:模型、金钱。
我们从了Ilya那里得知,模型的微调或者迭代对于参数量需求影响不大。
就是要等从量变到质变的过程了,大语言模型变成了个“纯烧钱”的事情了。
当然金钱能换时间。也就是谷歌可以发动钞能力来追赶,但问题是OpenAI傍上了微软,很显然微软也不差钱。今年微软又向英伟达订购了数万张当前最强芯片H100,搭建全新的超算平台,正在训练GPT-5。
所以只要OpenAI不出重大变故,或者GPT这条技术路线达到技术瓶颈,这个模型的版本差就会一直存在,也就是用户体验差异会一直存在。而这个时间差,足够微软建立垄断生态了。
最终从一开始技术路线的分歧,造就了今日之文本生成型AI的格局。
最后补充一点:百度“文心一言”的Ernie模型走的Bard的训练路线,Ernie在《芝麻街》里是Berd的好基友。
参考资料:B站视频-ChatGPT科普系列(三)难以逾越的ChatGPT的厚重壁垒
创作者列表:素材/卡片:葛仲然(全部文章、课程搜索同名公众号)
大纲/润色:ChatGPT-4&葛仲然
标题/摘要:ChatGPT-4
封面/内图:Midjourney & Jun
排版/视觉:Jun
所用卡片编码:1/11a1b1、1/11a1b2