ChatGPT的热度正在一路狂飙。
“去年12月在机器学习圈曾持续热议过,但是没有现在每一个群都在交流和使用的状况。这是除了疫情,从未有过的现象。”有人如此感慨。
一位AI产品经理向「甲子光年」表示,或许若干年后回看AI行业的发展,会有两个标志:阿尔法狗代表AI在专业领域“干翻”人类的起点,ChatGPT代表AI在通用智能领域“干翻”人类的起点......
《财富》杂志则是这样描述的:
在一代人的时间中总有一种产品的出现,它将从工程系昏暗的地下室、书呆子们臭气熏天的青少年卧室和爱好者们孤独的洞穴中弹射出来,变成了你的祖母Edna都知道如何使用的东西。早在 1990 年就有网络浏览器,但直到 1994 年Netscape Navigator的出现,大多数人才发现了互联网。2001 年 iPod 问世之前就已经有了 MP3 播放器,但它们并没有引发数字音乐革命。在2007 年苹果推出iPhone之前,也有智能手机,但在 iPhone 之前,没有智能手机的应用程序。
2022年11月30日,人工智能迎来了Netscape Navigator时刻。
对于人工智能或者聊天机器人,我们并不陌生。从苹果Siri、微软小冰、智能音箱,这些人工智能产品已经融入到人们的生活中,但是基本都有一个特点——还比较笨,跟我们在《流浪地球2》中看到的MOSS相差十万八千里。
但这次的ChatGPT有点不一样。它不但可以实现多轮文本对话,也可以写代码、写营销文案、写诗歌、写商业计划书、写电影剧本。虽然并不完美、也会出错,但看起来无所不能。
连埃隆·马斯克都评价道:“ChatGPT好得吓人,我们离危险的强人工智能不远了。”
而且,ChatGPT也不仅仅是一个打发时间的聊天机器人,微软与谷歌此时此刻正在因为ChatGPT的出现筹备一场关乎未来的AI大战。而国内的科技公司,也在努力思考着如何搭上驶向未来的船票,无论是以蹭概念,还是真产品的方式。
这一切,ChatGPT是如何做到的?本文,「甲子光年」将首先回答几个最基础的问题:
刚刚过去的2022年,从硅谷到国内的科技公司,上上下下都蔓延着一股“寒气”。但是,AI行业却完全是另一番热闹的景象。
这一年,通过输入文本描述就能自动生成图片的AI绘画神器突然雨后春笋般冒了出来,其中最具代表性的几家为第二代DALL·E (由OpenAI于2022年4月发布) 、Imagen (谷歌2022年5月发布) 、Midjourney (2022年7月发布) 、Stable Diffusion (2022年7月发布) 等,让人眼花缭乱。
2022年9月,由Midjourney创作生成的画作《太空歌剧院》在科罗拉多州博览会数字艺术创作类比赛中获得一等奖并引发争议,AI绘画进一步破圈,受到大众关注。
图片来自网络
AI绘画是AI发展的里程碑级应用,但没过多久人们便发现,AI绘画只是“四个二”,真正的“王炸”在11月30日上线——ChatGPT。
去年12月,我们曾与ChatGPT做过一次对话。
从AI绘画到ChatGPT,它们都属于AI的一个分支——生成式AI (Generative AI) ,在国内也被称为AIGC (AI Generated Content) 。
2022年9月,红杉资本发布了一篇重磅文章——《生成式AI:一个创造性的新世界》 (Generative AI: A Creative New World) ,首次提出生成式AI这一概念。
红杉资本将生成式AI分为文本、代码、图片、语言、视频、3D等数个应用场景。红杉资本认为,生成式AI至少可以提高10%的效率或创造力,有潜力产生数万亿美元的经济价值。
图片来自红杉资本
凭借生成式AI的风口,一些AI绘画公司开始拿到巨额融资。2022年10月,Stable Diffusion模型背后的公司Stability AI宣布获得1.01亿美元种子轮,投后估值达10亿美元;另一家AI内容平台Jasper亦宣布获1.25亿美元新融资,估值达17亿美元。
据Leonis Capital统计,自2020年以来,VC对生成人工智能的投资增长了400%以上,2022年则达到惊人的21亿美元。
在文章中,红杉资本将AI分为“分析式AI”与“生成式AI”两大类,分析式AI主要用在垃圾邮件检测、预测发货时间或者抖音视频推荐中,也是过去几年最常见、发展最快的AI类型。国内的AI四小龙——商汤、旷视、云从、依图皆属于此类。
生成式AI则聚焦于知识工作与创造性工作,从社交媒体到游戏,从广告到建筑,从编码到平面设计,从产品设计到法律,从营销到销售。
在2015年之前,人工智能基本是小模型的天下。
过去的微软小冰、苹果Siri、智能音箱,以及各个平台的客服机器人背后都是小模型,在其系统中包含若干Agent (知行主体,可以理解为执行具体任务的程序) ,一个专门负责聊天对话、一个专门负责诗词生成、一个专门负责代码生成、一个专门负责营销文案等等。
如果需要增加新功能,只需要训练一个新的Agent。如果用户的问题超出了既有Agent的范围,那么就会从人工智能变为人工智障。
但是ChatGPT不再是这种模式,而是采用了“大模型+Prompting(提示词)”。大模型可以理解为背后只有一个Agent来解决用户所有的问题,因此更加接近AGI (通用人工智能) 。
ChatGPT的出现不亚于在人工智能行业投下了一枚“核弹”。前微软CEO比尔·盖茨对ChatGPT评价为“不亚于互联网诞生”,现微软CEO萨提亚·纳德拉将其盛赞为“堪比工业革命”。如今,有越来越多的公司开始将ChatGPT融入其产品中,或者推出类ChatGPT的产品。
对此,ChatGPT是如何做到的?
ChatGPT背后的公司为OpenAI,成立于2015年,由特斯拉CEO埃隆·马斯克、PayPal联合创始人彼得·蒂尔、Linkedin创始人里德·霍夫曼、创业孵化器Y Combinator总裁阿尔特曼 (Sam Altman) 等人出资10亿美元创立。
OpenAI的诞生旨在开发通用人工智能 (AGI) 并造福人类。
当时,谷歌才是人工智能领域的最强公司。2016年打败人类围棋冠军的阿尔法狗背后的AI创企DeepMind,就是由谷歌收购。
这一年5月,谷歌CEO桑德·皮查伊 (Sundar Pichai) 宣布将公司策略从“移动为先”转变成“人工智能为先” (AI First) ,并计划在公司的每一个产品上都应用机器学习算法。
OpenAI诞生的初衷,部分原因就是为了避免谷歌在人工智能领域形成垄断。OpenAI起初是一个非营利组织,但在2019年成立OpenAI LP子公司,目标是盈利和商业化,并引入了微软的10亿美元投资。前YC孵化器总裁阿尔特曼就是此时加入OpenAI担任CEO。
ChatGPT名字中的GPT (Generative Pre-trained Transformer ,生成式预训练变换器) ,是OpenAI推出的深度学习模型。ChatGPT就是基于GPT-3.5版本的聊天机器人。
GPT的名字中包含了大名鼎鼎的Transformer,这是由谷歌大脑团队在2017年的论文《Attention is all you need》中首次提出的模型。现在来看,这是人工智能发展的里程碑事件,它完全取代了以往的RNN (循环神经网络) 和CNN (卷积神经网络) 结构,先后在NLP (自然语言处理) 、CV (计算机视觉) 领域取得了惊人的效果。
最初的Transformer模型有6500个可调参数,是当时最先进的大语言模型(Large Language Model, LLM)。谷歌公开了模型架构,任何人都可以用其搭建类似架构的模型,并结合自己手上的数据进行训练。
特斯拉自动驾驶,预测蛋白质结构的AlphaFold2模型,以及本文的主角OpenAI的GPT,都是在Transformer的基础上构建的。正如它的中文名字一样——变形金刚。
Transformer出现之后,很多公司基于Transformer做NLP模型研究,其中OpenAI与谷歌就是最重要的两家。
2018年,OpenAI推出了1.17亿参数的GPT-1,谷歌推出了3亿参数的BERT,双方展开了一场NLP的较量。
GPT与BERT采用了不同的技术路线。简单理解,BERT是一个双向模型,可以联系上下文进行分析,更擅长“完形填空”;而GPT是一个单项模型,只能从左到右进行阅读,更擅长“写作文”。
两者的表现如何呢?发布更早的GPT-1赢了初代Transformer,但输给了晚4个月发布的BERT,而且是完败。在当时的竞赛排行榜上,阅读理解领域已经被BERT屠榜了。此后,BERT也成为了NLP领域最常用的模型。
但是这场AI竞争才刚刚开始。OpenAI既没有认输,也非常“头铁”。虽然GPT-1效果不如BERT,但OpenAI没有改变策略,而是坚持走“大模型路线”。
在OpenAI眼中,未来的通用人工智能应该长这个样子:“有一个任务无关的超大型LLM,用来从海量数据中学习各种知识,这个LLM以生成一切的方式,来解决各种各样的实际问题,而且它应该能听懂人类的命令,以便于人类使用。”
换句话说,就是大力出奇迹!
接下来的两年 (2019、2020年) ,在几乎没有改变模型架构的基础上,OpenAI陆续推出参数更大的迭代版本GPT-2、GPT-3,前者有15亿参数,后者有1750亿参数。
GPT-2在性能上已经超过BERT,到GPT-3又更进一步,几乎可以完成自然语言处理的绝大部分任务 ,例如面向问题的搜索、阅读理解、语义推断、机器翻译、文章生成和自动问答,甚至还可以依据任务描述自动生成代码。
GPT-3大获成功。OpenAI在早期测试结束后开始尝试对GPT-3进行商业化,付费用户可以通过API使用该模型完成所需语言任务,比如前文提到的AI绘画独角兽Jasper就是GPT-3的客户。
值得一提的是,这个过程中谷歌也在不断推出新的模型。但不同于OpenAI“从一而终”地坚持GPT路线,谷歌在BERT之后也推出了T5、Switch Transformer等模型,类似于赛马机制。
此时距离ChatGPT的诞生还差一步。
在GPT-3发布之后,OpenAI研究人员在思考如何对模型进行改进。
他们发现,要想让GPT-3产出用户想要的东西,必须引入“人类反馈强化学习机制”(RLHF),通过人工标注对模型输出结果打分建立奖励模型,然后通过奖励模型继续循环迭代。
而聊天机器人就是引入强化学习的最佳方式,因为在聊天过程中,人类的对话就即时、持续地向模型反馈数据,从而让模型根据反馈结果进行改进。因为加入了人工标注环节,OpenAI为此雇佣了大约40位外包人员来与机器人对话。
通过这样的训练,OpenAI获得了更真实、更无害,并且更好地遵循用户意图的语言模型InstructGPT,在2022年3月发布,并同期开始构建InstuctGPT的姊妹模型——ChatGPT。
图片来源真格基金
根据《财富》杂志报道,当ChatGPT准备就绪后,OpenAI一开始并没有想把它向公众开放,而是先让测试人员使用。
但根据OpenAI联合创始人兼现任总裁Greg Brockman的说法,这些测试人员不清楚应该与这个聊天机器人谈论什么。后来,OpenAI试图将ChatGPT转向特定领域的专业人士,但缺乏专业领域的训练数据。
OpenAI最终不得不决定将ChatGPT向公众开放。“我承认,我不知道这是否会奏效。” Brockman说。
在《纽约时报》的报道中,OpenAI发布ChatGPT还有另外一个理由:担心对手公司可能会在GPT-4 前发布他们的人工智能聊天机器人,因此要抢先发布。
总之,在2022年11月30日这天,ChatGPT诞生了。
ChatGPT成为了史上蹿红最快的应用。发布第五天,ChatGPT就积累了100万用户,这是Facebook花了10个月才达到的成绩;发布两个月,ChatGPT突破了1亿用户,对此TikTok用了大约九个月,Instagram用了两年多。
ChatGPT的迅速传播连OpenAI也猝不及防,OpenAI首席技术官Mira Murati说:“这绝对令人惊讶。”在旧金山VC活动上OpenAI CEO阿尔特曼说,他“本以为一切都会少一个数量级,少一个数量级的炒作”。
值得一提的是,OpenAI并非唯一的大模型聊天机器人。2021年5月,谷歌也发布了专注于生成对话的语言模型LaMDA,但直到现在谷歌仍未对外“交卷”。本周谷歌匆忙发布的用于对抗ChatGPT的聊天机器人Bard就由LaMDA支撑,但Bard的上线日期也未公布。
在这场OpenAI与谷歌持续数年的大模型竞争中,谷歌最终落了下风。
但ChatGPT的成功,也让OpenAI付出了代价,“烧钱”的代价。
过去几年,大模型俨然成为了一场AI的军备竞赛。在2015年至2020年期间,用于训练大模型的计算量增加了6个数量级,在手写、语音和图像识别、阅读理解和语言理解方面超过了人类性能基准。
图片来自红杉资本
OpenAI的成功让人们见识到了大模型的威力,但是大模型的成功可能难以复制,因为太烧钱了。
OpenAI很早就意识到,科学研究要想取得突破,所需要消耗的计算资源每3~4个月就要翻一倍,资金也需要通过指数级增长获得匹配。而且,AI人才的薪水也不便宜,OpenAI首席科学家Ilya Sutskever在实验室的头几年,年薪为190万美元。
OpenAI CEO阿尔特曼在2019年对《连线》杂志表示:“我们要成功完成任务所需的资金比我最初想象的要多得多。”
这也是OpenAI从非营利性组织成立商业化公司的原因。2019年7月,重组后的OpenAI获得了微软的10亿美元投资,可借助微软的Azure云服务平台解决商业化问题,缓解高昂的成本压力。
解决了粮草问题的OpenAI,开始全力训练大模型。
大模型背后离不开大数据、大算力。GPT-2用于训练的数据取自于Reddit上高赞的文章,数据集共有约800万篇文章,累计体积约40G;GPT-3模型的神经网络是在超过45TB的文本上进行训练的,数据相当于整个维基百科英文版的160倍。
在算力方面,GPT-3.5在微软Azure AI超算基础设施 (由V100GPU组成的高带宽集群) 上进行训练,总算力消耗约 3640PF-days (即每秒一千万亿次计算,运行3640天) 。
可以说,大模型的训练就是靠烧钱烧出来的。据估算,OpenAI的模型训练成本高达1200万美元,GPT-3的单次训练成本高达460万美元。
根据《财富》杂志报道的数据,2022年OpenAI的收入为3000万美元的收入,但净亏损总额预计为5.445亿美元。阿尔特曼在推特上回答马斯克的问题时表示,在用户与ChatGPT的每次交互中OpenAI花费的计算成本为“个位数美分”,随着ChatGPT变得流行,每月的计算成本可能达到数百万美元。
大模型高昂的训练成本让普通创业公司难以为继,因此参与者基本都是的科技巨头。
图片来自陈巍博士
在国内科技公司中,阿里巴巴达摩院在2020年推出了M6大模型,百度在2021年推出了文心大模型,腾讯在2022年推出了混元AI大模型。
一个需要明确的事实是,虽然OpenAI的大模型取得了成功,但模型并非绝对意义上的越大越好,参数量也只是影响最终模型性能的因素之一。
GPT-3也不是参数最大的模型,比如,由英伟达和微软开发的Megatron-Turing NLG模型,拥有超过5000亿个参数,但在性能方面并不是最好的,因为模型未经充分的训练。
实际上,在特定场景下,较小的模型可以达到更高的性能水平,而且成本更低。
一位AI从业者告诉「甲子光年」:“现实就是,NLP公司做to B只能做小模型。得私有化,工程性能好,计算消耗少。甲方还希望你能部署在CPU上呢。”
关于大模型与小模型的关系,我们会在后面的文章中继续讨论。
以ChatGPT为代表的生成式AI正在引发新一轮AI军备竞赛,这个特别烧钱的新兴市场,也让背后的基础设施厂商赚得盆满钵满。
著名风投机构A16Z将生成式AI市场分成了三层:
图片来自A16Z
生成式AI的大量资金最终都稳定地流向了基础设施层——以亚马逊AWS、微软Azure、谷歌GCP为主的云厂商,以及以英伟达为代表的GPU厂商。
据A16Z估计,应用层厂商将大约20%~40%的收入用于推理和模型微调,这部分收入通常直接支付给云厂商或第三方模型提供商,第三方模型提供商也会将大约一半的收入用于云基础设施。因此,总的来看生成式AI总收入的10%~20%都流向了云提供商。
微软投资OpenAI就是一个很好的案例。
2019年微软投资OpenAI 10亿美元,其中大约一半以Azure云计算的代金券形式,成为OpenAI 技术商业化的“首选合作伙伴”,未来可获得OpenAI 的技术成果的独家授权。今年1月23日,微软再次加码,宣布向OpenAI追求数十亿美元,来加速人工智能的突破。
根据《财富》杂志报道,在OpenAI的第一批投资者收回初始资本后,微软将有权获得OpenAI 75%的利润直到收回投资成本;当OpenAI赚取920亿美元的利润后,微软的份额将降至49%。与此同时,其他风险投资者和 OpenAI的员工也将有权获得OpenAI 49%的利润,直到他们赚取约1500亿美元。如果达到这些上限,微软和投资者的股份将归还给OpenAI的非营利基金会。
本质上,OpenAI是在把公司借给微软,借多久取决于OpenAI赚钱的速度。微软对OpenAI的投资更大的野心在于,希望在下一个人工智能的十年向谷歌以及其他科技巨头发起挑战。
在今年1月份的瑞士达沃斯论坛期间,微软CEO纳德拉表示,微软将全线接入ChatGPT,计划将ChatGPT、DALL-E等人工智能工具整合进微软旗下的所有产品中,包括且不限于Bing搜索引擎、Office全家桶、Azure云服务、Teams聊天程序等等。
2月8日,新版Bing正式发布。纳德拉霸气表示:“比赛今天开始了,我们将继续前进并快速行动,希望在搜索领域再次获得更多创新的乐趣。”
除了微软之外,英伟达则是生成式AI幕后最大的赢家。
云厂商每年总共花费超过1000亿美元的资本支出,来确保他们能够拥有最全面、最可靠和最具成本竞争力的平台,比如获得英伟达最先进、也是最稀缺的GPU——A100与H100。GPU成为了生成式AI发展上限“卡脖子”的一环。
英伟达过去一个月的股价涨幅甚至超过了微软。
ChatGPT在科技圈引发的震动仍在持续。一个不可否认的事实是,国内的AI公司多少处于一种置身之外的感受。人们惊叹于技术的进步,也感慨于实力的差距。
对此,云知声创始人黄伟如此评价:
接下来,国内科技公司会如何接招呢?
参考资料:
[1]Generative AI: A Creative New World,红杉资本
[2]Who Owns the Generative AI Platform?,A16Z
[3]万字长文:AI产品经理视角的ChatGPT全解析,马丁的面包屑
[4]OpenAI是如何胜过谷歌的?ChatGPT发展简史,做AI做的事儿
[5]ChatGPT 的内幕:OpenAI 创始人Sam Altman如何用微软的数十亿美元打造了全球最热门技术,MoPaaS
本文来自微信公众号“甲子光年”(ID:jazzyear),作者:赵健,36氪经授权发布。