作者 | 汉能创投小组
「云生态观察」是汉能投资联合中关村云计算产业联盟(以下简称“云联盟”)共同推出的行业趋势洞察栏目,旨在通过该内容帮助大家了解云生态行业发展趋势、投资机会。该栏目以《2022年中国云计算生态蓝皮书》为基石,与“云生态影响力论坛” 共同组建了汉能投资和云联盟云生态的一体两面,希望通过线上线下的形式继续推动云产业与数字融合、加速生态建设、扩充生态维度、提高生态效能。
本期为「云生态观察」第五期,该期将聚焦“AIGC”赛道,系统讨论AIGC赛道的应用前景和未来趋势。更多内容将在《2023年中国云计算生态蓝皮书》中刊载,讨论AI在当下现状和未来发展趋势。
一、导言
2022年被许多人认为是“生成式AI元年”,2023年生成式AI的风口愈演愈烈。未来已来,如果说上一个人工智能的时代是机器学习人类如何认知世界,生成式AI的出现则标志人工智能进入了新纪元,机器开始替代人类去创造世界,是社会生产力的大幅跃进。在传统AI的时代,我们有幸见证了字节跳动、特斯拉等千亿美元市值公司的诞生,商汤、旷视、云从、依图等AI四小龙的崛起。随着生成式AI在搜索引擎、文娱内容、营销设计、代码创作、工业仿真等领域的发展,我们有理由期待下一个人工智能时代将诞生出更多伟大的公司。
4月11日,汉能投资集团在北京举办了《2023汉能投资AI如何落地闭门论坛》,邀请了百度集团副总裁侯震宇等7家科技企业高管,以及阳光保险集团副总裁谷伟、滴滴CIO蔡晓鸥、小米CIO仇睿恒、华夏银行首席数据科学家王彦博、用友高级副总裁张纪雄等几十家企业的CIO参加了此次论坛,围绕“AI落地”议题,从多个维度进行了探讨。此次「云生态观察」将延续活动议题,继续探讨AI对产业变革带来的影响、机会和趋势,这是“AI研究系列”的其中一篇,后期还将有多篇报告产生,敬请关注。
二、行业大事件
生成式AI被Gartner列为2022年顶级战略技术之一,并入选中国信通院发布的“2022人工智能十大关键词”。2022年以来,生成式AI领域标志性的大事件集中发生在海外,其中具有里程碑意义的事件有:
2022年4月,OpenAI发布Dall-E2,用户文字输入想要的图像内容和风格即可迅速生成出对应的图像,比如输入“向日葵、梵高”,Dall-E2可以生成一幅带有梵高风格的向日葵图片。
2022年8月,Stability AI发布文生图模型Stable Diffusion,并免费开源了模型的权重和代码,随即引发了AI作画应用在全球范围内的爆炸式增长,相较于Dall-E2,Stable Diffusion的交互方式更加友好,用户可以从一组图片中选择一张更贴近自己想要的图片。
2022年11月,OpenAI发布ChatGPT,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,还能撰写邮件、视频脚本、文案、翻译、代码,写论文等。ChatGPT一经发布便引发现象级传播,在5天的时间内注册用户超过100万,两个月后,其月活用户突破1亿,而为达到同样的月活用户数,Twitter用了5年,Meta(Facebook)用了4.5年,Instagram用了2.5年。
2023年3月15日,OpenAI发布多模态预训练大模型 GPT-4,标志着生成式AI领域的新里程碑诞生。GPT-4相比GPT-3.5更加智能化和富有创造力,能够支持文本和图像输入,能生成歌词、创意文本等,文字输入限制提升至2.5万字,回答的准确率也大幅提升......目前 OpenAI已开放GPT-4的API,全球的开发者可用其开发各类的AIGC应用。
随着ChatGPT的出圈和GPT4的再次引爆全球,生成式AI在我国也进入了快速发展时期,大厂纷纷入局。
百度:2023年3月16日,百度对外发布知识增强大语言模型“文心一言”,根据“文心一言”官网显示,该模型能够与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信息、知识和灵感,百度已对外发放邀请码用于测试“文心一言”。
腾讯:3月22日,腾讯公开透露正大力投入人工智能与云基础设施建设,腾讯混元AI大模型覆盖NLP(自然语言处理)、CV(计算机视觉)、多模态等基础模型和众多行业与领域模型,还将推出了万亿中文NLP预训练模型,并将AI产品嵌入微信、QQ。
阿里:2月23日,阿里张勇宣布全力投入生成式AI大模型建设,研发类ChatGPT产品,已在内测阶段,阿里达摩院在AI模型社区“魔搭”ModelScope上线了“文本生成视频大模型”,该模型参数约17亿。4月11日的2023阿里云峰会上,周靖人正式公布了阿里云的大型语言模型产品——通义千问,未来钉钉将接入大模型,用户可以随时唤醒AI,开启全新的工作方式。
华为:华为预计在2023年Q2推出全新的盘古大模型, 包括CV大模型、NLP大模型、多模态大模型、预测决策、科学计算五大模型,据悉,NLP模型参数达上千亿,在中文和阿拉伯语等小语种方面优势明显,CV模型参数约30亿,主打面向煤矿、电力、金融等行业客户,并且完全支持GPU和华为昇腾双栈生态。
京东:2023年2月,京东宣布推出产业版ChatGPT:ChatJD。2023年4月,京东集团副总裁在人工智能大模型技术高峰论坛上表示,针对真实产业需求,京东计划在今年发布新一代产业大模型,即是千亿级言犀大规模预训练语言模型。
字节:2023年2月公布大模型团队成立,预计年中推出大模型,将在语言与图像模态方面发力,与搜索与广告业务相结合。
三、行业定义
生成式AI(即Generative AI)指利用人工智能来生成文本、图片、音频、视频、代码、Logo、数字主播等内容的技术。根据Gartner的定义,生成式AI通过各种机器学习(Machine Learning, ML)方法从数据中学习对象的组件,进而生成全新的、完全原创的、真实的内容(一个产品或物品或任务),这些组件与训练数据保持一定的相似性,而不是简单地复制。
生成式AI是在传统的决策式AI/分析式AI(Discriminant AI/Analytical AI)的基础上发展而来,传统的决策式AI/分析式AI的特点是学习数据中的条件概率分布,根据已有的数据进行特征提取并分析、判断、预测,典型应用如图像识别、人脸识别、商品/视频推荐算法、自动驾驶决策等,其本质是“分析已知世界”。生成式AI则更强调学习归纳后的演绎创造,通过模仿式、缝合式的生成创作,不断判别和进化,从而产生全新的内容,典型的应用如Text to Text(通过文本生成文本)、Text to Image(通过文本生成图像)、Text to Code(通过文本生成代码),其本质是“创造未知世界”。
四、市场空间
根据IDC报告预测,2025年全球AI市场规模将达到2218.7亿美元。其中,中国约占全球总规模8.3%,位列单体国家第二。《中国AI数字商业产业展望2021-2025》报告认为,从中国AI应用表现看,以生成式AI和组合式AI为代表的人工智能新兴技术将成长为中国数字商业产业链的关键应用技术栈。另据Gartner预测,到2025年生成式AI产生的数据将占到所有数据的10%,而2021年生成式AI产生的数据不到所有数据的1%。
有机构对各类内容未来可AI化制作的比例做了一个测算,按2021年数字内容领域1万亿元的规模来计算,生成式AI的市场空间可达1千亿元。此外,生成式AI还将应用到工业、自动驾驶、医疗等其它领域,想象空间巨大。
图1 国内AIGC理论市场空间测算
数据来源:中信建投证券
五、产业链全景
生成式AI根据其技术实现的路径及应用可以分为基础层、中间层、应用层三个层面。
基础层:是产业链的最上游,它包括了计算机硬件层和云服务平台层,其中硬件层提供了AI大规模训练所需的算力,云服务平台层则为更多的中小厂商提供了云端算力服务,中间层、应用层超过50%的成本流向基础层,算力提供商成为生成式AI的最早获益者。ChatGPT的母公司OpenAI独家授权开放给微软Azure,微软对单个A100 GPU的收费是3美元/时,按照 ChatGPT加载模型和文本的速度,生成一个单词的费用约为0.0003美元;而ChatGPT的回复通常至少有 30个单词,因此ChatGPT每回复一次,OpenAI至少向Azure付费 1美分。受国外高端芯片禁售等限制,算力或将成为我国发展生成式AI的瓶颈,但同时也给国产大芯片带来了发展机遇。
中间层:即模型层,位于生成式AI的中游,是生成式AI得以实现的关键环节。生成式AI得以实现得益于2014年以来GAN(生成对抗网络模型)、Transformer、Diffusion(扩散模型)等模型的发展与融合。例如,基于多种底层的AI技术,OpenAI公司推出了GPT-3、GPT3.5、InstructGPT、ChatGPT, GPT(Generative Pre-Training,即生成式预训练)即一种预训练模型,通过开放API调用,可以赋能给各类垂直应用厂商。同样Stability AI提供Stable Diffusion的基础能力,通过开源的方式构建开发者生态。目前,国内厂商在大模型的训练上起步晚于国外厂商,但随着资本和人才的集中投入,国内厂商有望在短期内推出自主知识产权的预训练模型。2023年2月复旦大学自然语言处理实验室邱锡鹏教授团队宣布发布MOSS,邀请公众参与内测,MOSS可执行对话生成、编程、事实问答等一系列任务,百度在2023年3月份推出文本生成对话模型“文心一言”。国内厂商在中文的文本、语音等方面存在本土化优势,在基于我国的政治规范和话语体系下有着独有的生存机会。此外,大模型数据的清洗、分拆、标注等周边数据服务商亦有机会,其中能将数据能力封装成标准化产品的服务商具有更高的产业价值。
应用层:处于产业链的最下游,现阶段较为成熟的生成式AI应用方向为文本、图像和代码,未来随着更多厂商的入局,在视频、3D、语音、工业仿真等领域将逐步渗透发展。应用层的玩家以初创企业为主,产品成熟度参差不齐,一部分玩家具备自主研发预训练模型的能力,但绝大多数玩家选择在开源模型上或者调用OpenAI的API实现上层应用的开发。较为成熟的公司型玩家一般采用B端提供的数据中心或云服务,得益于模型社区的发展,一些个人或小团队玩家亦可以轻松搭建自主开发的AI应用并传播、推广,以AI生成声音厂商AudioLDM为例,其开发者是来自英国萨里大学和帝国理工学院的学生,在本地使用单个GPU就实现了目前文本生成语音、音效领域最好的效果,这为应用层的百花齐放带来更多的可能性。
当前国内厂商与国外厂商在应用层的发展基本处于同一起跑线,我国在语音、智能客服、电商、短视频、游戏等垂直领域,产业成熟度较高,结合中国的商业环境和特点,国内厂商拥有一定的本土化优势,以深氧科技为例,其率先进入文本生成3D模型和视频领域,并通过抖音、快手、B站等短视频平台推广;ZMO.AI、跳悦智能等厂商则深耕电商行业,以AI生成模特、AI生成虚拟人主播赋能品牌电商。随着垂直应用的发展,在商业规模扩大之后,下游厂商存在像向中游挤压的机会,在垂直领域拥有独特数据集积累的厂商更容易训练垂直化、场景化、个性化的私有化模型以加深护城河。
图2 Generative AI产业链
六、市场驱动力
从供给侧看,生成式AI的驱动力源自更好的模型,更多的数据和更多的算力。从需求侧看,在内容创造过程中,更高效、更低门槛的工具进步能够解放更多的生产力。
更好的模型:
从上世纪60年代人工智能诞生伊始,人工智能的模型不断的演进,最早是基于简单的规则和数学公式得到推理结果,90年代出现了机器学习,计算机能够在经验学习中不断改善算法,深度学习的提出是在机器学习范式的进一步发展。
以ChatGPT为例,其模型最初的雏形即自然语言处理(Natural Language Processing, NLP),本质上是一种机器学习技术,传统模型是深度学习的循环神经网络(RNN)以及它的改良版本LSTM,OpenAI公司则首先在RNN模型中引入了注意力机制(Attention Mechanisms),2017年谷歌提出Transformer模型,该模型全面基于Attention,而摒弃RNN,大幅提升效率,由此OpenAI随后几年推出的GPT1、GPT2、GPT3全部基于Transformer作为底层模型训练海量数据。
2021年OpenAI对GPT3进行微调推出Instruct GPT,使用来自人类反馈的强化学习方案(reinforcement learning from human feedback,RLHF)训练出奖励模型(Reward Model),使语言模型与用户对各种任务的意图保持一致,输出内容的真实性提高且危险性降低。2022年,ChatGPT在Instruct GPT的基础上增强了对话性。
更多的数据:
2015年以前,AI的训练模型仍然以小模型占据主导,但随着Transformer模型里程碑式的出现,AI训练正式进入大模型时代。以GPT为例,GPT1的训练数据使用了1.17亿参数,GPT2则扩大了10倍,到GPT3已经高达1750亿参数,预训练数据量从 5GB 增加到 45TB。海量数据在超大参数量级的模型上训练,生成更高质量的结果。
更多的算力:
据OpenAI测算,GPT-3 训练一次的费用是 460 万美元,总训练成本达 1200 万美元,ChatGPT模型使用了约3万块英伟达的GPU A100芯片,目前英伟达正在加速推进更先进的AI芯片H100的研发, 整体性能比A100高4.5倍。
更高效、更低门槛的工具:
内容创作除创意之外,背后有着枯燥、繁复的制作流程,以创作1分钟的短视频为例,需要根据分镜头脚本剪辑视频素材,制作时间或需要2-3个小时;创作1个3D人物模型,需要积累成百上千张素材草图,选取最合适的素材进行3D建模,建模师根据经验经过布线、雕刻、贴图、灯光渲染等流程完成成品,单个3D模型成本在百元到万元之间,在游戏场景中,人和物所需3D模型或多达上千个,更高效、更低门槛的工具可大幅提升生产力。
七、资本市场热度
当前生成式AI赛道还处于起步阶段,竞争格局尚未完全形成,部分技术实力突出、产品成熟度强的初创企业率先获得资本青睐,成为行业的先行者。
据PitchBook统计数据,2022年投资圈向生成式AI公司共投入13.7亿美元(折合人民币约93.69亿元),融资事件发生78起,接近过去5年的总和。据风投公司NFX统计,目前已有约450家生成式AI公司相继入局,共筹集近120亿美元的资金。
图3 国外生成式AI赛道融资情况
数据来源:NFX、量子位
图4 近期国外生成式AI赛道典型融资案例
数据来源:企名片、精灵app
2023年初,微软向OpenAI追加100亿美元的投资,OpenAI从2016年以来已完成6轮融资,累计融资金额高达110亿美金,涉及微软、YC、老虎基金、红杉资本等9家知名机构和企业。
与此同时,国内一些机构也已经在生成式AI赛道开始布局,部分一线美元基金已多次下注。
从融资事件来看,生成式AI创业公司当前都处在企业发展的早期阶段,轮次以天使到A轮为主,主要集中在虚拟人、图像、视频等多个垂直领域,部分公司的产品逐渐在从传统AI向生成式AI迭代。
图5 近期国内生成式AI赛道典型融资案例
数据来源:精灵、企名片、投中
生成式AI赛道吸引了众多大佬下场创业,2023年初搜狗公司创始人王小川官宣入场大模型创业,和前搜狗COO茹立云联合创立人工智能公司百川智能,并获得5000万美元的天使轮融资。前美团联合创始人王慧文组队打造中国版OpenAI,设立北京光年之外科技有限公司,对外报价首轮估值达2亿美元,并表示下轮融资已有顶级VC认购2.3亿美元,王兴在社交媒体上宣布参与光年之外A轮融资并担任董事,预计该公司估值已近10亿美金。3月19日,李开复在朋友圈宣布,正在筹组一个全球化公司Project AI 2.0,随即传出创新工场、红杉、IDG投资Project AI 2.0的消息。同月,前京东 AI 业务开路人周伯文打造的中国版ChatGPT衔远科技宣布完成由启明创投领投的数亿元天使轮融资。可以预见更多的玩家正在陆续进入生成式AI赛道。
八、发展趋势
1.更多厂商加入生成式AI赛道,商业化探索初步启程。
目前国内生成式AI赛道正在高速发展,短期内,各类厂商将逐步进场,其中互联网及传统AI大厂将从云服务、预训练模型提供等基础层、中间层入手,创业公司则聚焦在下游的垂直应用。多数公司刚刚完成标准化产品输出,开始进入商业化探索的初级阶段,目前主流的商业模式有云资源的售卖、模型API调用、SaaS收费、素材收费等。
2.技术应用从图像、代码到文本向视频、3D模型等垂直应用发展,在我国视频、3D成熟应用有望加速到来。
当前生成式AI较为成熟的应用方向是图像、代码和文本,根据美国红杉的研究,在未来的3-8年内会技术应用方向会逐步向视频、3D模型、游戏等垂直应用发展。考虑到我国在短视频、电商、广告营销、游戏、自动驾驶等产业成熟度位于世界前列,在某些垂直场景的应用中,AI生成视频、3D模型将得到较好的发展,这一进程有望加速到来。
图6 AIGC各领域发展进展预测
数据来源:美国红杉资本
3.从“黑盒”化到“白盒”化,人机协同加强。
生成式AI的局限性体现在其运算过程的“黑盒化”,AI生成的结果无法准确达到人类期望的程度,这在未来会成为制约生成式AI发展的重要因素。从辅助式的AIGC到完全AIGC到AGI(Artificial general intelligence,通用人工智能),技术发展的关键在于人机协同,人类需要参与生成的过程,中长期看,AI生成的结果将是可选择的、可编辑修改的、可更新的。
4.随着数据安全、规范标准趋严,属于中文体系的大模型将迎来发展机会。
当前全球流行的生成式AI大模型均以英文语料作为数据训练,开源社区内中文参与度远低于其他语系。此外,我国对于内容生成审核标准严格,部分海外AIGC产品在政治导向、种族文化等方面存在一定的合规风险,相关部门有必要对其进行限制和规范,国内能够以中文语料作为训练数据,能适应我国文化和政治环境的产品将迎来发展机会。同样,以中文(包括方言)为训练集的语音对话类产品,以黄种人体貌特征为训练集的图像、视频类产品均有较大的发展机遇。