2022年12月,入选《科学》杂志年度科学十大突破的AIGC,将这一梦想照进了现实。AIGC全称为AI-Generated Content,即生成式 AI,利用人工智能技术来自动生产内容。对AIGC来说,2022年被认为是其发展速度惊人的一年。AIGC可以说是当今AI领域最火爆和充满幻想的发展方向,AIGC的发展催生了写作助手、AI绘画、对话机器人、数字人、办公室软件助理等爆款级应用,并通过人机交互形成了新的记录、学习和再创作范式。一个引人注目的问题随之浮现:AIGC会如何助推新的人工智能浪潮?
人类文明可以被认为是全人类生活印记的记录总和。那么,如果有一个超级大脑学习了人类记录下的全部知识,是否可以帮助我们创作出更灿烂丰富的文明?
2022年12月,入选《科学》杂志年度科学十大突破的AIGC,将这一梦想照进了现实。AIGC全称为AI-Generated Content,即生成式AI,利用人工智能技术来自动生产内容。对AIGC来说,2022年被认为是其发展速度惊人的一年。AIGC可以说是当今AI领域最火爆和充满幻想的发展方向,AIGC的发展催生了写作助手、AI绘画、对话机器人、数字人、办公室软件助理等爆款级应用,并通过人机交互形成了新的记录、学习和再创作范式。一个引人注目的问题随之浮现:AIGC会如何助推新的人工智能浪潮?
英雄未必起于微末,OpenAI的故事起于一群对人工智能的未来充满恐惧的创业新贵。GPT系列就像OpenAI精心准备的各种饲料所培育出的超级大脑。
成立近三年半后才打造出的GPT-2模型是OpenAI第一个真正意义上的代表作。GPT-2包含15亿参数,以800万篇Reddit论坛帖子、总计40GB文本为食,显现出文本续写的能力。比如输入《指环王》中的句子,它会生成让人无法分辨真假、剧情和原著不同,但看上去符合逻辑的续文。
OpenAI疯狂地想知道要是能吃下更多的语料,这个超级大脑会拥有何种能力,于是拥有1750亿参数的GPT-3横空出世。GPT-3光训练就消耗数千万美元,专家们把此前12年从6000万个域名中收集的新闻报道、帖子、书籍全文以及各种网页等数千亿个单词的英文资料统统喂进模型。这次GPT-3不光具备了更强大的语言生成能力,还额外掌握了出色的上下文学习能力和大量的世界知识,写诗歌、写新闻报道、回答问题、编写代码样样精通。而最新的GPT-4的数据处理、理解能力更强,它可以接收并生成25000字的文本,是之前ChatGPT的8倍。
另外,它的逻辑思考能力、图像理解能力也有了非常大的飞跃。OpenAI可能是人工智能记录、学习和再创作这一范式最坚定的践行者。根据爱丁堡大学与艾伦人工智能研究院推测,从GPT-3到GPT-3.5再到GPT-4,OpenAI内部就已经迭代了多个版本。ChatGPT基于人类反馈的强化学习进行指令微调,通过大幅下调上下文学习能力而提升了翔实的回应、公正的回应、拒绝不当问题、拒绝其知识范围之外的问题四种能力。
除了以ChatGPT为代表的语言生成技术之外,AIGC还包含了图像生成、视频生成、音频生成等。AIGC漫长的发展历程,根据中国信通院发布的《AIGC白皮书》,可大致分为以下三个阶段:
早期萌芽阶段(20世纪50—90年代):受限于科技水平,AIGC仅限于小范围实验,生成的内容真实感不强。1957年,莱杰伦·希勒(Lejaren Hiller) 和伦纳德·艾萨克森(Leonard Isaacson)通过将计算机程序中的控制变量改为音符,完成了历史上第一部由计算机创作的音乐作品——弦乐四重奏《依利亚克组曲》。1966年,约瑟夫·韦岑鲍姆(Joseph Weizenbaum)和肯尼斯·科尔比(Kenneth Colby) 共同开发了世界上第一个机器人“伊莉莎”(Eliza),其通过关键字扫描和重组来完成交互式任务。80年代中期,IBM基于隐马尔可夫链模型创造了语音控制打字机“坦戈拉”(Tangora),能够处理两万个单词。在这一阶段,AIGC仅通过学习专家编写规则进行生成,泛化能力极其有限,就像专家手中摆弄的提线木偶。
沉积积累阶段(20世纪90年代—21世纪10年代):AIGC从实验性向实用性逐渐转变。深度学习算法、图形处理单元 (GPU)、张量处理器(TPU) 和训练数据规模等都取得了较大突破。2007年,纽约大学人工智能研究员罗斯·古德温(Ross Goodwin)装配的人工智能系统通过对公路旅行中的所见所闻进行记录和感知,撰写出世界上第一部完全由人工智能创作的小说——1 The Road。2012年,微软公开展示了一个全自动同声传译系统,通过深度神经网络(DNN)可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音。在这一阶段,AIGC开始自动学习人类记录的少量数据,掌握了一定泛化能力,但受到算法瓶颈的限制,生成效果有待提升。此时的AIGC就像一只善于模仿的鹦鹉,看似像模像样实则一窍不通。
快速发展阶段(21世纪10年代至今):自2014年起 , 随着生成式深度学习算法的提出和训练数据规模的飞速扩充 , AIGC生成内容的效果逐渐逼真直至人类难以分辨。2017年 , 微软人工智能少女“小冰”推出了世界首部完全由人工智能创作的诗集《阳光失了玻璃窗》。2018年 , 英伟达发布的StyleGAN模型可以自动生成图片 , 其生成的高分辨率图片人眼难以分辨真假。2021年 , OpenAI推出了DALL-E并于一年后推出了升级版本DALL-E-2, 用户只需输入简短的描述性文字 , DALL-E-2即可创作出相应极高质量的卡通、写实、抽象等风格的绘画作品。2022年7月,开源AI绘画工具Stable Diffusion发布,使普通人也能创作专业画师级别的作品。同年8月,一幅名为《太空歌剧院》的美术作品在美国科罗拉多州博览会上获得一等奖,这幅作品正是出自AI之手。随后发布的Make-A-Video、Imagen Video和Phenaki等模型更是能以文字描述生成视频。2022年11月30日,OpenAI发布对话机器人ChatGPT,至此AIGC时代全面开启,生成内容百花齐放。
历经近七十年的技术沉淀,AIGC已成为人工智能产业落地的重要形式。2022年谷歌的研究者发表了题为《大型语言模型的涌现能力》的论文,发现当语言模型大到超过特定的临界值,就会涌现出较小的模型不具备的能力。近年来,以GPT-4、ChatGPT为代表的大模型技术所取得的显著成果表明,增大模型规模和数据规模是突破现有技术瓶颈行之有效的方法。
人工智能模型规模越来越大,本质上是为了容纳更多的数据,然而人类记录的高质量数据可能在不久的将来耗尽。人工智能研究和预测组织Epoch在一篇未经同行评审的论文中预测,高质量文本数据、低质量文本数据、图片数据分别会在2023—2027年、2030—2050年以及2030—2070年被人工智能耗尽。
届时,基于AIGC的数据合成将成为人工智能新的燃料。目前由人工智能生成的数据占所有数据的1%不到,根据咨询公司高德纳(Gartner)预测,到2025年,人工智能生成数据将占所有数据的10%。因此,尽早建立完整的AIGC产业生态,让用户主动与AIGC交互生成数据,从而形成数据飞轮,将持续推动人工智能技术的进步。
放眼未来,人工智能驱动的科学研究(AIGC for science)可能会成为人工智能技术落地的深水区与新的主战场,即“人工智能开启未来的科研”。过去互联网公司的数据红利已经耗尽,但在科学领域积累了海量的实验数据。在投喂了2.8亿种氨基酸序列后,加州伯克利的一家初创公司让模型学会了蛋白质的语言,首次实现从零合成全新蛋白。AIGC带给科学领域的创新方兴未艾。据预测 , 到2025年 , 超过30%的药物和材料将借助AIGC被发现。
人类未来将与AIGC链接形成内容创作与知识发现的共生体,但所有人类深层次的东西都不会被AI改变。OpenAI首席执行官山姆·阿尔特曼(Sam Altman)曾这样展望:作为人类,我们依然注重人与人之间的互动联系,人类大脑的奖励机制没有变,我们依然追求快乐,拥有创造欲和竞争欲,渴望组建家庭……五万年前人类在意的东西,一百年后的人类也会在意。
山姆·阿尔特曼还表示,ChatGPT的火爆让大家觉得AGI(通用人工智能)似乎离我们近了一些,但实际上类似于ChatGPT这种大语言模型仍距离AGI十分遥远,未来我们还有很长的路要走。在变与不变之间,AIGC掀起的浪潮已然来临。
本文来自微信公众号“复旦商业知识”(ID:BKfudan),作者:李筑聪 程远,36氪经授权发布。