“
GPT-3让我们见识到了AI的强大与可能,但无论在研究方向还是商业化落地层面,都还有太多问题值得我们去思考。
”
GPT-3是人工智能公司OpenAI发布的最新一代自然语言类AI模型。在今年5月发表论文之后,OpenAI于7月底向部分人员开放了模型的API供测试使用。
从目前看来,GPT-3已然是有史以来最为强大的AI语言模型。去年年初,OpenAI发布上一代GPT-2模型时,就曾表示为了防止被人滥用,该模型将不会开源给公众。
上一代GPT-2模型虽好,但实际测试的结果与OpenAI宣称的效果相比,只能算差强人意,而且这种闭源的选择亦与一直以来AI研究的风格相悖,所以彼时也有人挪揄:「我是不是不该公布我的MNIST参数,以防别有用心的人滥用?」
(MNIST数据集,通常是AI初学者的“Hello World”)
但GPT-3的出现,让人真正意识到了什么是量变带来的质变。GPT-2的神经网络参数值已有15亿,在去年看来亦是相当夸张的数字。然而现在GPT-3模型,则将这一数字提高到了天文数字般的1750亿。
(不同AI模型的参数数量。可以看到GPT-3不仅碾压上一代GPT-2,而且微软年初发布的Turing NLG模型在其面前也相形见绌)
在这一个多月以来,已经有许多开发者基于GPT-3模型创造出了让人拍案叫绝的应用。
首先基础的写文章、小说段落当然不在话下。有人让GPT-3以「上Twitter的重要性」为题写一篇文章,并且只给了文章标题和作者,剩下的内容则让GPT-3自行生成。
相对于其他AI模型生成的文章而言,GPT-3生成的文章有着很强的上下文逻辑,字里行间还充满着对现代人的讽刺意味。
除此以外,GPT-3还能完成各类代码的编写。例如你想要一个「像西瓜一样的按钮」,GPT-3就能为你生成一段前端代码(不知道有没有人试过「五彩斑斓的黑」)。
(GPT-3用于前端代码生成)
除了简单的前端代码以外,GPT-3还能生成一段深度学习的模型代码(用的是Keras框架)。此外像部署AWS服务器,使用SQL查询数据库之类,GPT-3亦是不在话下。
除了代码以外,GPT-3还能用于阅读理解,智能问答,财务处理等等。可以说限制模型使用范围的,更多只是人们的想象力而已。
(GPT-3生成深度学习模型)
GPT-3当然并非完美,模型在某些知识上亦存在缺陷。但让很多人担忧的,倒并非是模型本身的不完美,而是GPT-3这种发展AI的思路,能将我们带至何处。
从本质上看,GPT-3的原理依然是基于谷歌于2017年提出的Transformer模型,和其他同类模型相比,除了一些细节差异以外,差距主要是在数据量和参数数量上。上一代的GPT-2训练的数据量为40GB,而GPT-3的训练数据量则高达约4.6万GB。
如此天量的数据量和参数,换来的自然也是高昂的训练费用。根据估算,OpenAI训练GPT-3模型的费用已经超过了1000万美元,以至于即便研究者发现了模型中的一些BUG,他们也因为成本问题选择不去解决。
有人半开玩笑地做过估算,如果按照这种发展态势去训练下一代的GPT-4模型,成本将会高达数十亿美元,需要的显卡数量基本上相当于Nvidia一个季度的出货量。如果用一台超级计算机来计算,训练的时间将会超过40年。
无论如何,这些成本都不是学术研究,或者是缺少资金支持的小团队所能够承担的。所以有人会说,AI模型已经成为了普通人玩不起的游戏。
而在另一方面,GPT-3现在已经成为了科技圈内的一场狂欢。但在狂欢之后,有多少客户愿意拿出真金白银去使用模型,则是OpenAI后续需要考虑的问题。
目前OpenAI的计划是先让外部开发者帮助其探索GPT-3的功能与应用,然后在今年年底,OpenAI会将GPT-3打造为一款商业产品,为企业提供云的AI付费服务。
和普通用户式的尝鲜不同的是,B端的用户要求的是更为稳定可控的AI模型,以及面向场景的落地能力,而这除了技术实力以外,还需要更多经验的积累。
GPT-3让我们见识到了AI的强大与可能,但无论在研究方向还是商业化落地层面,都还有太多问题值得我们去思考。正如OpenAI的CEO山姆·奥特曼(Sam Altman)在社交网络的一片溢美声中所说:
「大家对GPT-3实在有些过誉,尽管它的确强大(感谢各位的称赞),但它仍有严重的弱点,有时还会犯非常愚蠢的错误。AI将会改变世界,但GPT-3只是非常早期的一瞥。未来还有很多问题,等着我们去解决。」
参考:
1、GPT-3: The New Mighty Language Model from OpenAI, Moiz Saifee
2、OpenAI’s new language generator GPT-3 is shockingly good—and completely mindless, MIT Technology Review
3、Crazy GPT-3 Use Cases, Przemek Chojecki
4、GPT-3 and A Typology of Hype, Page Street Labs