AIGC元年 | 从科幻到现实，人工智能为何成为未来的引擎

作者：云坞网络发布时间：2023-05-28

AIGC是如今备受关注的热门概念，它属于生成式人工智能领域，可以创作出像AI绘画和ChatGPT等明星产品。尽管元宇宙和Web3等概念正风靡全球，但AIGC凭借着"创作"这一强大功能，已经高居榜首。

有些人认为，AIGC将改变内容领域的生产方式，带来行业的变革，也有人预言它将取代大多数的创作者，带来灾难性的影响。在这种争议声中，人们似乎有一个共识，那就是AIGC将迎来全新的发展时期。

一、关于AIGC的发展历程

首先，需要明确一个定义，什么是AIGC?

AIGC是“人工智能图形芯片”（Artificial Intelligence Graphic Chip）的缩写，这种芯片是一种新型的计算芯片。它可以在图形计算中高效精确地运算，从而使机器在图像识别、语音识别、自然语言处理、虚拟现实等方面表现更佳。通过在硬件和算法上实现深度学习，AIGC将成为未来人工智能领域的重要发展方向。

关于AIGC的首次创作，类似PGC、UGC和PUGC等概念，最早要追溯到2014年生成式对抗网络（GAN）的诞生。据说，人工智能专家Ian Goodfellow在一次酒后想到了这个深度学习的概念，该概念基于深度卷积神经网络（CNN），通过生成器和判别器之间的对抗，可以逐渐形成高强度的“造假能力”，并用于图像合成。

生成式对抗网络（GAN）被认为是21世纪最强大的算法模型之一，Ian Goodfellow也凭借此次献良策，成为了人工智能领域最著名的专家之一。

自2015年起，GAN开始被广泛运用，相关的论文也爆发式增加。现在，GAN已成为AI生成图像和图像处理任务中最常用的技术之一。

在GAN大放异彩的2015年，一家公司诞生于美国硅谷，有一批硅谷巨头，包括"钢铁侠"埃隆·马斯克、Y Combinator总裁阿尔特曼、天使投资人彼得·泰尔等，为其背书支持。该公司名为OpenAI，它就是ChatGPT的缔造者。

OpenAI是一家非营利机构，由埃隆·马斯克等人共同成立。其初衷是希望将人工智能的发展带入一个更为安全、可控的方向。随着人工智能技术的快速发展，人们逐渐开始担忧，因为这种技术会对人类社会产生巨大的影响，特别是在一些关键领域，如医疗和能源等。为了避免可能的风险和问题，OpenAI致力于推进人工智能的发展，探索安全性更高的人工智能应用，并在人工智能发展过程中建立更完善的监管制度和标准。这个目标使OpenAI成为了全球范围内最受瞩目的人工智能科研机构之一。创立之初，大佬们投入了10亿美元用于AI的开发，其中最重要的特点是，OpenAI采用开放的方式，允许全球研究者通过其提供的开发与研究框架共同投入AI研发中，从而共同促进AI技术的发展。

在2016年，OpenAI进一步明确了自己的目标，即致力于向AGI（通用人工智能）研究发力，推动AI成为改变人类生活的新技术。同时，在这一年，OpenAI推出了自己的AI平台Universe，这一故事也就此轰轰烈烈地开始了。

2018年是自然语言处理(NLP)技术的重要里程碑，因为Transformer架构的出现彻底改变了这一领域的发展，预训练模型的引入更是带来了翻天覆地的变化。GPT系统作为OpenAI在NLP领域的杰作，其第一款产品GPT-1也在2018年正式推出。GPT-1独特的地方在于采用"半监督"方式进行学习。在过去的NLP模型中，人工智能需要对大规模数据集进行任务相关的有监督学习，而这些数据需要人员进行标注。而GPT-1则采用无监督的方式进行预训练，提高其语言能力，最后再进行部分有监督的微调。简而言之，GPT-1能够以更少的资源和数据进行高效的学习，但其仍然存在局限性。一方面，由于训练数据的有限性，GPT-1的“世界观”较为狭窄；另一方面，其性能仍不足以达到对话的需求。

然而，自2018年以来，NLP领域迅速发展，带来了新的机遇和挑战，也从某种意义上改变了人工智能生成图像的未来。例如，在AI绘画方面，深度学习模型已经展现出了越来越出色的表现力和创造力。

2020年是一个具有翻天覆地重要意义的年份。在这一年，OpenAI推出了GPT-3，相比之前的版本，GPT-3有了巨大的改进，其参数超过1750亿个，相当于人类大脑神经连接数量的十分之一。同时，GPT-3的性能也更加强大，能够理解更深层次的文本含义并给出相对应的反馈。GPT-3在自然语言处理领域的推出是一场完全的颠覆和创新。同时，在图像生成领域，一场革命也正在发生。尽管GAN已经能够生成较高质量的图片及内容，但相对于效率来说还是有所不足。但是，Transformer架构的出现改变了一切，它带来了一种完全不同的方式，远离了过去纠结于GAN的时代，开启了NLP和计算机视觉技术相结合的新纪元。

在2022年9月，AI绘画开始爆火，11月30日，ChatGPT横空出世，并成功展示出了AIGC的惊人实力，带给整个世界崭新的机遇和挑战。

二、关于AIGC的国内玩家

随着OpenAI等业界巨头的带领，海外的AIGC产业正处于高速发展时期。但是，在国内，AIGC的发展相对滞后。但是，近年来，阿里巴巴、百度、腾讯等互联网巨头都开始寻求突破。其中，国内AI领域绕不开的一家公司就是百度。

在2019年，百度推出了深度学习模型文心大模型，它是一个中文文本生成和理解模型，被誉为“文本和知识的智能服务引擎”。文心大模型拥有数千亿的参数，是当前世界上最大的单模型语言AI模型之一，并且在多个领域都有广泛的应用，如智能客服、智能写作、语音识别、机器翻译和智能推荐等。文心大模型利用深度学习技术，可以对中文文本进行语法分析、句法分析以及情感分析等操作，甚至可以生成文字、回答问题，甚至创作小说等。它的核心特色在于“知识增强”，能够对海量数据进行深度学习，并且为多种AIGC应用提供支持。可见，文心大模型已经成为百度的当家模型，而且在未来的发展中，它还具有极为广阔的前景和潜力。

在世界大会上，百度AI也展示出了自己的实力：在十分钟内复原了《富春山居图》的残卷：

百度AI复原的《富春山居图》，图源网络

世界大会的两个月后，百度在万象大会上推出了AI助理，该助理是多种AIGC应用的集合，包括文本生成、图片生成、图片转换视频等多种功能。最值得关注的一点是，该助理直接面向用户与内容创作者，也就是说，AIGC技术的C端应用正在实现。

AIGC的发展远不止图像生成、文本生成等领域，现在AI创作的多元化也在飞速发展。例如音乐、编程等领域，都能得到AIGC技术的应用。

近期，昆仑万维高调宣布进军AIGC领域，并发布了“昆仑天工”模型。昆仑万维成立于2008年，早期以游戏代理起家，自2016年起，昆仑万维在海外建立起庞大业务，成为国内知名的出海巨头之一。近年来，昆仑万维更是发力元宇宙社交等领域，并准备进军AIGC。

自2020年起，昆仑万维便组建了超过200人的AIGC团队，这支团队使用了训练集群200张卡，投入数千万元，并在2021年4月研发出了中文GPT-3模型，拥有超过百亿的参数。值得注意的是，在很多人忽略的音乐领域，昆仑万维也取得了不错的进展。他们于2022年1月启动的SkyMusic项目已经可以实现生成商业级别的音乐。可以预见，随着越来越多的公司进入AIGC领域，这个领域未来的发展会非常迅速和多样化。

值得关注的是，与百度一样，昆仑天工也选择了开源的方式。昆仑万维坚信，开源能够为AIGC领域带来长远的发展动力，他们致力于降低AIGC技术的使用门槛，让AI技术能够帮助更多内容创作者。

除了百度和昆仑万维，国内AIGC领域中的初创公司也在崛起，涵盖了AI音乐、虚拟人、AI音频语音、AI游戏等多个领域。

但是与OpenAI等国外巨头相比，国内AIGC领域的公司仍然存在巨大差距。一方面，国内大多数公司都以自己的科研团队为核心组织，而OpenAI则更像是一个研究院，可以通过开放共享的模式吸引全球顶尖科研人才。另一方面，国内AIGC相关企业面临的营收压力较大，难以像OpenAI平台一样不计成本进行投资。

但是随着AIGC技术逐渐商业化，并广泛应用，国内AIGC领域也许会迎来一个新时代。

三、关于AIGC的新阶段

在2022年8月，由人工智能公司Stability AI 推出的AI文生图模型Stable Diffusion（扩散模型）引发了一场全球范围内的AI图像生成狂潮。该模型大大提高了AI图像生成的效率和精度，普通的终端设备也足以应对，只需输入关键词即可生成高质量的AI图像。这使得AI绘画领域得以爆发式发展，也让C端用户首次感受到了AIGC的强大魅力。

此外，另一款名为ChatGPT的AI也悄然引爆市场。作为基于GPT-3.5的对话式AI，ChatGPT最重要的特点在于它能够“理解”对话者的语义，从而提供更有效的反馈和连续对话。通过针对超大规模数据的深度学习，ChatGPT在文本生成领域已经准确率遥遥领先，可以说是假乱真。ChatGPT还能够帮助解决问题、作文、写诗，甚至编程，这种生成内容的能力空前提高。它为人类创造出了前所未有的不断生长的智能能力。

AIGC元年的核心秘密可以归结为这两个模型。

首先，在性能方面，AI技术已经实现了前所未有的“进化”。相较于以前的GAN图像生成模型，Stable Diffusion最大的特点就是其精度非常高，只要输入关键词，就能够产生接近于真实图像的效果。这是先前的图像生成技术所难以达到的目标。ChatGPT也同样具有高性能，其深度分析文本并生成相应反馈的能力几乎让人们将其看作谷歌一样的搜索引擎。此外，ChatGPT的生成内容能力也显示了其强大的性能。

其次，在“理解”方面，这一点在ChatGPT上体现得更加明显。与以前的对话式AI技术相比，人们惊讶地发现，ChatGPT似乎能够理解更深层次的含义，无论是连续流畅对话，还是错误想法的纠正，都让人们感觉到对面的AI似乎是具有思考能力的。虽然ChatGPT只是类似于“中文屋”的深度学习产物，但加入强化学习模型后，它也将不断地进化，使对话任务变得更加出色。

最后，在更大规模的应用方面，2022年的AIGC真正做到了全民关注。以Stable Diffusion为例，它的最大特点在于低门槛，没有强大显卡和服务器的要求，普通PC即可完成任务。同时，平台的封装也让AIGC变得更加“平易近人”：AI绘画只需要输入关键词，ChatGPT也只需要网页和提问栏就能实现对话。这使得普通人接触和了解AIGC的机会大大增加了。

虽然AIGC在2022年已经风靡全球，但在人工智能技术的发展问题面前，这些问题也许是微不足道的。正如OpenAI等平台所期望的那样，AIGC并不是最终目标，真正实现通用人工智能才是最核心的目标。未来，AIGC产业将继续从各个领域的应用向其研究的方向拓展，不断探索新的技术和应用，各大创新企业和科技巨头加大对AIGC的投入也将成为常态。