进入2023年以来,ChatGPT大火。朋友圈里充斥着关于ChatGPT的各种消息,从GPT-1到GPT 3.5,再到Chat GPT和GPT-4,从OpenAI和微软到各种ChatGPT创业和项目,仿佛一夜之间跨入了人工智能新基建时代。那么,对于普通老百姓和超级繁忙的职场人来说,都有哪些关于ChatGPT的知识点,需要掌握呢?
本质上来说,ChatGPT是一种面向NLP自然语言理解的预训练大模型。NLP自然语言理解就是让计算机理解人类的语言,而不是理解程序代码或0101二进制代码。之前,一个神经元网络程序只能解决一个NLP自然语言理解的问题或任务。因此,就需要为每一个自然语言理解问题或任务而定制一个神经元网络程序。预训练大模型的出现,改变了这一格局。
预训练大模型用一个超大规模的神经元网络表达自然语言中的通用知识,而针对每一个特定的自然语言理解问题或任务,只需要在预训练大模型的基础上进行微调/精调,就能够很好地解决相应的问题或任务,这就是预训练大模型的价值。简单理解,就是将之前的一个神经元网络拆解为预训练大模型+微调/精调方法,从而轻松适配不同的NLP任务。
对于用户来说,不需要为了自己的NLP需求,例如开发一个客服机器人,而要从头开始开发一个完整的人工智能程序,用户只需要在大模型的基础上针对本企业/行业特点进行微调/精调,即可很快获得一个适合本企业/行业的客服机器人——面向金融行业的客服机器人要加上金融行业的知识、业务和术语,面向某地区银行的客服机器人还要加上当地的知识、业务和术语,甚至文化与方言等等。
当然,预训练大模型相当于学习人类的知识,例如语言类预训练大模型就在学习人类的语言和知识,那么就跟课本知识一样有时效。ChatGPT的人类语言知识截止到2021年,也就是说ChatGPT并不具备2021年以后的人类语言知识,例如播放于2023年的电视剧《狂飙》,ChatGPT就毫不知晓。因此有网友问关于《狂飙》的知识,ChatGPT就无法回答。
众所周知,ChatGPT基于GPT-3.5,相比于GPT-1、GPT-2、GPT-3等前代大模型,ChatGPT加入了生成式AI算法,让ChatGPT对外输出能力有了质的飞跃,ChatGPT不仅具备了海量人类语言知识,也能与人类进行各种聊天和对话。因此,ChatGPT对外又以API和聊天机器人的方式提供服务,例如微软将ChatGPT嵌入到搜索引擎中成为对话机器人,OpenAI也通过互联网直接对外提供ChatGPT对话以及接入ChatGPT API。因此,ChatGPT也代表了基于ChatGPT大模型的聊天机器人、API以及相关互联网和云服务。
ChatGPT之所以大火,因为它走了生成式AI这个方向。人工智能是一个庞大的领域,其中包括了很多算法的交叉使用,基于深度神经元网络的机器学习是人工智能的一个重要方向。神经元网络算法的组成部分主要就是“参数”,所谓“参数”主要指的是每层神经元网络的节点和节点与节点之间的权重连接,当然不同神经元网络引入了不同的算法组合,也具有更多的“参数”。所谓大模型,指的就是具有百亿、千亿级参数的模型。
在人工智能处理的任务方向上,有决策式AI与生成式AI两种。在ChatGPT之前,决策式AI是主要的AI任务方向。所谓决策式AI,也就是回答选择题。无论是赢了电视问答“边缘游戏”的IBM深蓝,还是战胜了人类围棋冠军的AlphaGo,本质上都是在做“选择”,也就是DeepQA问答机器人。目前,众多的人工智能应用都属于问答机器人,包括Siri、Cortana、Alexa、小艾、小度等。
生成式AI是另一个人工智能任务方向,也就是大家所期待的“聊天”机器人。此前,很多问答机器人都被标榜为聊天机器人,但实际上都被诟病为人工“智障”。ChatGPT的出现,让人们看到了真正实现聊天机器人的可能。在ChatGPT中引入了新的AI算法,包括情景学习、思维链、自然指令学习、指示学习等,这些新算法的引入让ChatGPT走上了新道路,不仅能够与人类展开真正的对话,还能生成各种高质量的内容,例如撰写新闻稿等。
读者可能会问,为什么之前不引入这些算法。一个很重要的原因是,对于亿级参数的AI模型进行训练,是一个极耗时间和算力等成本的工作,无论是高校研究员还是企业研发人员,都面临着选择:一旦选择了一个算法方法,就只能一直在这个方向上投入下去,而切换算法或新增算法的成本和代价将非常高。
生成式AI是一个人工智能算法的方向。简单理解,生成式AI就是在已有数据和内容的基础上,产生新的数据和内容甚至是超出预期的内容。生成式AI一直是人工智能所渴望的地平线,就像众多人工智能主题相关电影一样,机器人能够自主与人类进行创造性对话,甚至代替人类进行创造性的活动,例如创作小说、歌曲、绘画等等。当然,在商业社会中,生成式AI被用于创造更具商业价值的内容,如会议纪要、撰写商业稿件、生成商用图像等。
在ChatGPT之前,也存在着其它生成式AI算法,比如面向无监督学习的生成对抗网络(GAN)就非常流行。与ChatGPT相比,GAN等代表了早期生成式AI算法。ChatGPT的出现,可以说是生成式AI的分水岭。实际上,在ChatGPT之前,还有IBM、小冰等公司分别尝试了生成式AI方向,各自推出了具有令人惊讶的生成式AI机器人,例如IBM辩论机器人Project Debater和小冰聊天机器人等。不过,根据已经披露的信息,IBM和小冰等公司采取的是不同于大规模预训练模型的算法。
ChatGPT代表的是由大规模预训练模型所驱动的生成式AI。大规模预训练模型的意义在于其通用性,也就是基于GPT的大模型所代表的通用AI能力以及存储于大模型中的人类通用知识,再加上ChatGPT的情景学习、思维链、自然指令学习等新兴算法,生成式AI就有可能进入大规模商用,并进一步从文本生成泛化到图像和视频生成等,这就是ChatGPT的意义。
这里需要提及一下由谷歌学者于2022年提出的思维链(Chain of Thoughts,COT)。简单理解,思维链就是一系列中间推理步骤,即在采用大型预训练模型进行推理任务的时候,先生成思维链,从而使得模型的推理性能获得大幅度提升。这就是众多ChatGPT令人惊艳之处之一,思维链的一大好处是无需微调模型参数,就可以显著改进模型的性能。
ChatGPT是OpenAI GPT-3.5的改进版本之一。OpenAI成立于2015年,创始人为一些科技领袖,包括特斯拉创始人埃隆·马斯克(Elon Musk)、美国创业孵化器Y Combinator总裁山姆·阿尔特曼(Sam Altman)、在线支付平台PayPal联合创始人彼得·蒂尔(Perter Thiel)等。OpenAI最初的创立宗旨是实现安全的通用人工智能,如今OpenAI的宗旨是确保通用人工智能让所有人受益。
如今,OpenAI主要有三条产品线:GPT、DALL-E和Whisper。其中,GPT是面向自然语言预训练大模型;DALL-E基于GPT-3,可以通过自然语言生成图像;Whisper是一个自动语音识别模型。最著名的当然是GPT系列产品,包括GPT、GPT-2、GPT-3、GPT-3.5/ChatGPT、GPT-4等。GPT全称为Generative Pre-training Transformer,简单理解就是生成式预训练Transformer模型。
大名鼎鼎的Transformer模型是由谷歌于2017年推出的开源机器翻译模型,后也被广泛用于各NLP领域。相比于之前流行的RNN、CNN神经网络算法,Transformer的最大优点就是实现了并行计算,特别适应以云计算为代表的分布式共享计算基础设施。谷歌当初开发Transformer的一个初衷就是为了适配谷歌Cloud TPU,因此Transformer的流行也就在情理之中了。在Transformer的基础上,涌现了大量新型算法,特别是为大模型奠定了基础。
GPT-2就是在Transformer基础之上的大模型。GPT-1为亿级参数,GPT-2为15亿级参数,GPT-3为1750亿级参数。GPT-3.5又有多个版本,包括具有13亿参数的InstructGPT、1750亿参数的ChatGPT和60亿参数的Codex(用于代码生成),以及GPT-3.5 Turbo。其中,最为著名的是InstructGPT和ChatGPT,二者还在训练数据集上有所不同。当ChatGPT大获成功后,OpenAI又将集大成的GPT-3.5 Turbo接入ChatGPT API,成本更低、速度更快、功能更全,不仅能生成对话还能生成代码。
与GPT系列不同,InstructGPT和ChatGPT引入了人类反馈,也就是基于人类反馈的增强学习。InstructGPT和ChatGPT还引入了人类数据标注员,用人工的方式对模型进行精调。这些反馈都让模型的输出结果向着人类期望的访发展,这就是ChatGPT能够惊艳全球的重要原因。GPT-4进一步实现了多模态的融合,也就是可以识别图像,然后再进行自然语言处理任务,例如给GPT-4模型一个冰箱内部图片并问GPT-4“晚上吃什么”,GPT-4就能识别冰箱内部食物并给出晚餐建议。
虽然OpenAI名为“Open”,但实际上OpenAI已经不是一家开放或开源公司了,因为大模型的训练和运维成本极为昂贵,OpenAI不得不走上了封闭式盈利公司的模式。特别是到了GPT-4,OpenAI不再公布GPT-4的模型参数数量及机理等,外界也无从得知GPT-4的更多具体细节。总体来看,OpenAI打开了AI历史的新一页,这就是预训练大模型的时代,同时OpenAI也验证了大模型的价值:涌现性,即模型越大、参数越多,就越能表现出超出人们想像的智能水平,实现模型能力的质的飞跃。
ChatGPT惊艳了全世界了,也激发了新一轮AI创业热潮。但对标ChatGPT的创业成本也极其高——高达5000万美元的“起步费”。与其说ChatGPT是一种AI软件,不如说是货真价实的新基建。对于国家来说,ChatGPT更是战略性的国家资源,甚至是国家级战略方向以及必须要投资的基建领域。在未来,ChatGPT及其后续版本,有可能成为大国之间的新竞争优势。
那么,ChatGPT究竟有多贵呢?公开的资料显示,ChatGPT的参数高达1750亿,预训练数据集高达45TB,而GPT-1的参数量为1.17亿、预训练数据量约5GB,GPT-2的参数量为15亿、预训练数据量为40GB。可见,ChatGPT是一个全面的飞跃,训练一次ChatGPT所需算力高达3640 PFlop/s-day,即假设每秒计算一千万亿次,也需要计算3640天,相应ChatGPT训练一次的费用估计高达约450万美元。
有关的测算还有: ChatGPT单月运营所需算力约 4874.4PFlop/s-day,全年则需要58.5EFlop,如果使用算力500P常规数据中心运行ChatGPT,至少需要10个这样的数据中心,按30亿元成本建设一个这样的数据中心计算,总投资高达200-300亿元;NVIDIA估算,如果要训练GPT-3,用8张V100的显卡,训练时长预计要36年,如果用1024张80GB A100则可将时长缩减到1个月,成本高达1.5亿美元,NVIDIA还测试用3072张80GB A100训练 GPT,最大规模的模型参数量达到了1TB,而3072张A100卡的成本高达5亿美元;另有证券公司估算,大模型的训练成本介于200万美元至1200万美元之间,以ChatGPT月独立访客平均1300万计,对应需要3万多张A100 GPU,初始投入成本约为8亿美元,每日电费5万美元左右;OpenAI的重要投资者及战略合作伙伴微软在自己的Azure全球基础设施中,为OpenAI构建了一个庞大的GPU资源池,由上千张GPU构成。
由ChatGPT的开发和运营成本,可以看出大模型是一个极为烧钱的投资,而且在短时间内也很难看到规模化经济效益,更难达到盈亏平衡。这就是为什么很多公司都声称开发出了自己的大模型,但真正投入运营的却只有OpenAI一家(微软向OpenAI先后投资超过百亿美元)。2023年初,百度发布了中国版ChatGPT即文心一言,首批只开放给企业试用,而面向普通个人用户则预计要到2023年底开放,这在很大程度上也是成本和效益的考量。
微软是OpenAI的早期支持者之一,2019年向OpenAI投资了10亿美元,2021年再次投资20亿美元,2023年进一步承诺向OpenAI投资100亿美元,用于支持OpenAI的研发。作为人工智能云技术的坚定支持者,微软一直关注AI领域的技术进展,自身也向AI研发投入了大量资源。自OpenAI成立之初,微软就密切关注OpenAI的进展。
2019年,微软向OpenAI投资10亿美元,同时承诺为OpenAI建造一个可供大模型训练和运行的超级AI计算机。这是一项前所未有的挑战,此前也没有任何一家技术公司进行过类似的尝试。训练和运行大模型需要面向GPU的大规模并行计算,而不是已有的面向CPU的大规模并行计算。如何将成千上万张GPU卡连接在一起,完成大模型所需要的并行计算,这需要对硬件、网络和软件等多方面改造甚至是重新设计,微软率先进行了这方面的尝试。
2023年开始,微软将OpenAI技术大规模纳入到了自己的产品和服务中。2022年推出Github Copilt,2023年推出Dynamics 365 Copilot、Microsoft 365 Copilot等,直接将GPT/ChatGPT的超强人工智能体验推向了最广大的普通用户。特别是Microsoft 365 Copilot和New Bing将GPT/ChatGPT的技术嵌入到Office办公软件和Bing搜索引擎中,引起了极大的关注。微软还通过Azure智能云,向全球提供OpenAI服务,包括GPT、DALL-E等。
说到大模型,就必须提到大模型的涌现性。在GPT-1和GPT-2阶段,模型的参数还只有亿级和十亿级,业界对于模型参数越大的价值,仍然存疑。实际上,从GPT-1到GPT-4,模型本身并没有太多的变化,主要是参数规模从亿级飞跃到千亿甚至万亿级。而ChatGPT向人们展示了,千亿级超大规模模型的价值:涌现性。
所谓涌现性,就是当全部人类的知识被存储在千亿级大模型中、这些知识被动态连接起来的时候,大模型所具有的智能就显现了远超出人们预期的效果。众所周知,从GPT到ChatGPT大模型,所采用的预训练数据主要来自互联网,那么当一个超大规模AI模型学习了所有互联网数据后,这样一个AI模型的智慧程度就出现了“涌现”现象。例如,ChatGPT可以写出具有相当专业水准的商业文案、能够创作诗歌和文学作品、能够与人类进行哲学层面的对话等。在GPT-4发布后,相继有测试表明,GPT-4可以轻松通过律师资格考试、会计师考试、大学入学考试等,甚至能够达到满分或近于满分的成绩。有报道称,美国大学生用ChatGPT撰写了高质量的论文,被教授用ChatGPT反向查出来该论文为ChatGPT撰写。
ChatGPT还能够进行高质量的编程。自2022年微软推出基于GPT/ChatGPT技术的Github Copilot以来,Github上数以百万计的程序员体会了人工智能编程的高质量和高效率。前OpenAI和特斯拉AI总监Andrej Karpathy(2023年2月宣布再次加入OpenAI)在2023年初发布推特称,他现在80%的代码都是由Github Copilot自动生成。搜索引擎New Bing可以直接把一段Python代码转换为Rust代码,用户只需要在Edge浏览器中使用Bing,拷贝Python代码并输入“使用Rust语言重写这段代码”,即可自动生成高质量的Rust代码。
业界专家认为,通过同时增大计算量、数据量和模型参数规模,模型性能或许能够无上限提高,也就是将人类的知识、思考和记忆能力等都连接在一起后,就能出现进化的奇点——智慧水平无限提升。
从NLP模型到(超)大模型,模型参数量级一路飙升到百亿、千亿甚至万亿级,很多科技公司都加入到了大模型和超大模型的战备竞争中。说到“战备”,实际上是因为大模型和超大模型的训练和运营成本十分高昂,属于极为烧钱的项目,而又难以在短时间内看到明确的商业回报,以至于几乎没有一家商业公司肯向大模型和超大模型进行实际的投资。OpenAI在前期作为一家公益机构,又获得了微软的数十亿美元投资,才成就了ChatGPT。
自从谷歌推出Transformer以来,很多科技公司都基于Transfomer推出了自己的NLP(超)大模型。除了OpenAI外,还有微软推出的具有170亿参数的Turing- NLG、谷歌推出的具有1.6万亿参数的Switch-C和具有5400亿参数的PaLM以及具有4800亿参数的Bert、英伟达推出的具有5300亿参数的Magatron-Turing NLG,Meta发布的具有70亿、130亿、330亿和650亿参数规模的LLaMA,以及百度推出的具有2600亿参数的文心ERNIE 3.0、腾讯推出的具有万亿参数的混元NLP、阿里推出的具有270亿参数的PLUG、华为推出的具有2000亿参数的盘古语义、浪潮推出的具有2457亿参数的源1.0、复旦大学推出的具有百亿级别参数的Moss等等。
除了NLP大模型外,多家公司也推出了多模态(超)大模型,例如阿里的M6、中科院自动化所的“紫东·太初”、百度的文心、华为的盘古、智源研究院的悟道2.0、谷歌的PaLM-E、OpenAI的Clip等。所谓多模态大模型,不仅能够处理NLP自然语言理解任务,还可以处理CV视觉图像识别以及文生图、视觉-语言等跨模态任务。
ChatGPT引发了全球新一轮的AI热潮,至少引发了三个AI创业方向:超大模型预训练中文模型、互联网和软件产业重塑、AIGC(AI产生内容)爆发。
对于超大模型预训练中文模型来说,5000万美元是入场费。由于对GPU大算力的要求,因此超大模型预训练中文模型很难成为初创公司的“菜”。相反,不少大型互联网公司纷纷准备下场。百度于2023年3月推出的文心一言聊天机器人(ERNIE Bot),就是基于已有的具有2600亿参数的文心ERNIE 3.0 NLP大模型,然而李彦宏在发布会表示,文心一言要对标ChatGPT/GPT-4的门槛还是很高的,全球大厂还没有一家能够做出来。2023年3月21日,谷歌推出自己的聊天机器人Bard以对抗ChatGPT,但由于在发布时的演示中出现了错误,而导致谷歌股价大跌。
2023年2月,前美团联合创始人王慧文在朋友圈发布“人工智能宣言”,宣布自己出资5000万美元投入AI领域,寻找“业界顶级”、“狂热爱好AI”的技术人才,打造中国版OpenAI。王慧文还称,下轮融资已经有顶级VC认购2.3亿美金。随后,王兴也在朋友圈宣布以个人身份参与王慧文新AI公司的投资,并成为董事。
2023年3月,阿里前技术副总裁贾扬清在朋友圈宣布,其团队已从阿里“毕业”(离职),而贾扬清之后的方向是AI大模型底层的技术研发,包括多GPU平行计算、AI模型半自动化、无代码拼装和训练等。同样在3月,李开复发布朋友圈官宣筹建一个名为Project AI 2.0的新项目,定位为AI 2.0全新平台和AI-first生产力应用的世界级公司。
为什么ChatGPT没有诞生在中国?还有一个很重要的原因是数据。实际上,中文数据在整个互联网中的占比小,仅有5%左右,而且中文互联网数据质量也低于英文互联网。当然在另一方面,英文数据也面临着被耗尽的问题。有研究预计,在大模型时代,互联网上可用数据资源中的高质量语言数据大约在2026年耗尽,低质量语言数据大约在2050年耗尽,视觉图像数据也将在2060年耗尽。
对于互联网产业来说,ChatGPT和ChatGPT引发的AIGC正在引发新一轮互联网的进化。阿里巴巴、腾讯、字节跳动、京东、360、科大讯飞、快手、网易有道等互联网公司纷纷宣布跟进ChatGPT,好未来、寺库、小红书等二线互联网公司也在积极开展类ChatGPT应用。ChatGPT被认为是下一代互联网,也就是用户与互联网的交互形式变成自然语言对话,互联网也从一堆无序的网页变成可实时按需组织起来的动态知识库,而用户甚至可以用语音与互联网沟通,这将是前所未有的体验。更进一步,互联网还可以按用户需求自动生成有意义的图片、视频、文字,例如生成一张旅游路线图等。
从搜索引擎、社交、电商,到游戏、元宇宙、VR、AR等互联网模式,将在大模型和AIGC的爆发下全面重塑。数字工业、农业、零售、金融等数字经济产业,也将在大模型和AIGC时代获得全新生产力和出现全新的应用。软件产业更面临着全面重塑,办公软件、ERP软件、图像处理软件等,都能够与用户进行自然语言沟通。
ChatGPT的出现,让普通人的现代生产力、生活力和学习力都得到了前所未有的提升。而在ChatGPT对人类社会的全面“入侵”之下,普通人还面临着与ChatGPT争抢工作的挑战,大批能够被ChatGPT取代的岗位都面临着下岗的风险。普通人必须要学习和掌握ChatGPT,才能够在ChatGPT时代更好地生存。
首先当然是生产力的大幅提升。微软发布的一系列Copilot和New Bing已经向世界展示了,GPT/ChatGPT是如何连接知识,然后全面提升人们的工作效率、质量和工作能力。当人们进入在线会议软件的时候,可以让Copilot总结出已经讨论的内容要点,大幅提升开会的效率和效果。另外,当员工需要修改图像的时候,只需要对Photoshop说如何修改图像,Photoshop就能自动完成修改,人们再也不需要学习Photoshop了。目前,GPT/ChatGPT对于生产和办公的冲击才刚刚开始,未来的全面颠覆还远远没有到来。
更进一步,我们将真正进入人人即程序员的时代。当前,尽管有各种低代码平台,人们仍然需要了解一定的编程知识、学习一定的编程语言等。有了GPT/ChatGPT,就能通过自然语言方式自动生成代码,哪怕是普通员工也能够轻松生成高质量的应用软件和程序。
其次就是学习力和娱乐力的全面提升。GPT/ChatGPT已经引发了教育界的关注,GPT/ChatGPT在教学方面表现出的出色能力,能够向更偏远的地区和更多的人群普及教育,但也可能让很多教师面临下岗或转岗的风险,而不少学生利用GPT/ChatGPT生成的作业可以轻松通过关,甚至取得高分,也让教育的未来堪忧。在生活方面,GPT/ChatGPT可以轻松胜任各种生活中的任务,除了全面升级各种智慧语音助理、客服等外,还能够与老人聊天、与孩子谈心,帮助创作诗歌、绘画、音乐等。GPT/ChatGPT对于娱乐来说,更将带来颠覆性的改变,成为创作的高效率工具和平台。
整体来说,ChatGPT引发了全球新一轮人工智能热潮,而这一次与上次AlphaGO所引发的人工智能热潮有本质的区别——AlphaGO还仅是棋牌类游戏,而ChatGPT则引发了AI的工业化变革,不仅可能诞生通用型AI,还将整个AI技术体系分为上游的大模型+下游的各类应用,从而引发各类AI应用的全面爆发。ChatGPT把AI深入普及到人类社会的方方面面,可以说打开了人类现代社会发展史上的崭新一页。以ChatGPT为代表的大模型,将成为人类社会的新基建,让各种数据中心、智算中心等真正成为现代社会必不可少的基础设施。(文/宁川)