从CHAT-GPT到生成式AI(GenerativeAI):人工智能新范式,重新定义生产力
1、ChatGPT介绍
2022年12月1日,OpenAI发布了自然语言生成式模型ChatGPT(生成AI技术),这是一种基于GPT-3(GereratePre-Training,生成式预训练模型)技术的聊天机器人,它可以通过人工智能模型来与用户对话,并自动理解用户的问题,提供更精确、更有价值的信息。
相比GPT-3,该模型回答问题方式更加贴近人类,具备记忆能力,可实现连续对话,同时还具备修改代码、撰写论文、诗歌创作等能力,开放测试5天内注册人数即超过百万人。OpenAI的联合创始人马斯克也在感叹:“我们离强大到危险的人工智能不远了。”
OpenAI是一家通用人工智能研究公司,于2015年成立。
OpenAI开发、维护和训练了一批可用于写作、阅读、编程和图像处理的AI模型,包括MuseNet、GPT-3、ChatGPT等,ChatGPT是OpenAI原创性自动问答系统InstructGPT的延续,建立在GPT-3的后续改进版本GPT-3.5基础上,通过引入强化学习模型,大幅提高了AI在人机对话时的准确度和可控性。
ChatGPT下游应用场景包括代码机器人、小说衍生器、对话类搜索引擎、语音工作助手、对话虚拟人(客服、外呼、营销)等。从上游需求的增加来看,算力、数据标注、自然语言处理等可能受益。
2、微软,百亿美金级别的选择
继2019年向OpenAI注资10亿美元之后,微软与OpenAI的合作进入第三阶段。
此前据Semafor援引知情人士报道,微软正商谈以290亿美元估值,向OpenAI投资100亿美元。2019年,微软即开始与OpenAI进行合作。到了2021年,微软向OpenAI投资10亿美金。
根据微软对外的声明,在与OpenAI新的合作阶段中,微软将有以下计划:
1)Supercomputingatscale:微软将增加对专业超算系统开发和部署的投资,以加速OpenAI突破性的独立AI研究。微软还将继续构建Azure的AI基础结构,以帮助客户在全球范围内构建和部署各自的AI应用程序。
2)NewAI-poweredexperiences:微软将在其消费者和企业产品中部署OpenAI模型,并引入基于OpenAI技术的新型数字体验。包括微软的AzureOpenAI服务,该服务使开发人员能够通过直接访问OpenAI模型来构建尖端的AI应用程序。
3)Exclusivecloudprovider:作为OpenAI的独家云供应商,Azure将为OpenAI在研究、产品和API服务中的所有工作负载提供支持。
此外据媒体报道,微软还计划将ChatGPT整合进旗下搜索引擎必应(Bing),提高必应在搜索引擎市场的市占率;同时Chat-GPT功能引入Office,用于部分文本的生成和问答。
OpenAI表示,来自微软的投资将使其能独立研究开发出更安全、有用和强大的AI。
根据微软对外的声明,此前其与OpenAI的合作已取得一定成绩,并将继续向前:
1)自2016年以来,微软致力于将Azure打造成世界级AI超级计算机,微软和OpenAI推动了云超级计算技术的前沿,在2020年推出其第一台Top-5超级计算机,随后大规模构建了多个AI超级计算系统。OpenAI使用此基础结构来训练其突破性模型,这些模型现已部署在Azure中,以支持GitHubCopilot、DALL·E2和ChatGPT。
2)双方的创新激发了人们的想象力,并将大规模人工智能作为一种强大的通用技术平台引入,这将在个人计算机、互联网、移动设备和云的规模上产生变革性的影响。
3、chatGPT,微软的商业考虑
下图是自上世纪60-80年代以来,到近期,我们根据主流AI算法原理,小结的大致时间和衍生关系。可以看到:
经典的里程碑级别的AI算法创新至少包括:递归神经网络(RNN,RecurrentNeuralNetworks),反向传播算法(BP,Backpropagation),卷积神经网络(ConvolutionalNeuralNetwork,CNN),长短期记忆(LTSM,LongShort-TermMemory);
2)近年重要的AI算法创新并不容易,原因是经典算法普及后,大量基于经典算法做局部优化。而优化的凭据是AI算力的升级普及,大模型的普及,应用的复杂化。
即在资源可以极大丰富的情况下,过去“奢靡不经济”的AI架构在当前成为可能。因此大量近年的AI创新属于应用创新,并非算法创新。
3)实际确认的近年重要AI算法/AI重要平台/AI重要应用包括:生成对抗网络(GNN),残差网络(ResNet),Transformer(包括注意力机制),Alphafold系列,第三代生成型预训练变换器(GPT3),chatGPT(可以归结为GPT3.5代);
从上述历史,可以发现:近年谷歌对AI里程碑式节点影响较大。
GNN主要提出者IanGoodfellow后来加盟谷歌,transformer、Alphafold系列是谷歌系率先影响市场(谷歌或deepmind),GPT3与chatGPT是openAI率先影响市场(而openAI创始人IlyaSutskever是GeoffreyHinton的学生,Hinton从学术界加盟谷歌大脑),ResNet主要提出者何凯明曾从微软加盟脸书。
可见,微软投资openAI,是增强自己AI影响力、抗衡谷歌的较好机会。这也是微软对chatGPT的投入与协同更加热衷、Facebook与谷歌对chatGPT相对平淡(但对AIGC依然热衷)的一个原因。
4、决策式AI与生成式AI
AI模型可大致分为决策式/分析式AI(Discriminant/AnalyticalAI)和生成式AI(GenerativeAI)两类。
决策式AI:学习数据中的条件概率分布,根据已有数据进行分析、判断、预测,主要应用模型有用于推荐系统和风控系统的辅助决策、用于自动驾驶和机器人的决策智能体。
生成式AI:学习数据中的联合概率分布,并非简单分析已有数据而是学习归纳已有数据后进行演技创造,基于历史进行模仿式、缝合式创作,生成了全新的内容,也能解决判别问题。
决策式AI:推荐系统、图像识别等已创造巨大市场
2016年,人工智能技术全面爆发,决策式AI开始大规模应用,包括推荐系统、计算机视觉、自然语言处理等。
全球人工智能市场规模从2016年的约600亿美元发展到2021年的近3000亿美元,在推荐系统、计算机视觉、自然语言处理等技术加持下,亚马逊、字节、商汤、特斯拉等公司快发展。
基于此,中信建投等认为,生成式AI经过前期技术积累进入爆发期,随着技术与应用的进一步成熟,后续市场空间更为广阔。
5、决策式AI的一些典型应用
1)推荐系统助力电商、视频等行业快速发展
电商推荐:深度挖掘用户和物品的关联关系,将商品、店铺精准推送给用户。2003年,亚马逊将协同过滤推荐算法应用到电商行业,凭借推荐商品与用户需求精准匹配、大幅降低用户检索用时,推荐算法在电商交易中心逐渐成为资源配置的核心。
推荐系统显著提升电商平台销售额。2006年,据VentureBeat,亚马逊的个性化推荐系统为其贡献了35%以上的销售额;2015年,京东基于大数据个性化推荐算法的订单占到总订单的10%。
新闻、音乐、视频等推荐:分析用户长期兴趣和短期兴趣,根据兴趣标签将内容实时推送给用户。推荐算法通过对用户观看、停留、点赞等行为的实时分析,精准刻画用户画像,将用户可能感兴趣的内容推荐给用户,降低人工运营规则的摄入,显著提高了用户粘性。
2)字节跳动凭精准推送10年内估值超3000亿美元
字节跳动:AI驱动抖音、头条精准推荐内容,10年内估值超3000亿美元。凭借判别式AI等先进算法对用户画像的学习,抖音、头条等字节系产品,将内容与广告等高效、精准推荐给用户,快速驱动自身用户数、业绩与估值增长。
用户数量方面,据QuestMobile,抖音2022年9月月活7.1亿,全国移动互联网用户渗透率50%;2021年12月,今日头条月活3.3亿,远高于传统新闻资讯平台;
收入方面,据晚点LatePost及华尔街日报,字节收入由2016年的60亿元,上升到2021年的4391亿元,CAGR达136%;
市值方面,据《创业家》及胡润研究院《2021全球独角兽榜》,字节跳动市值由2014年的5亿美元,上升至2021年的3375亿美元。
3)图像识别推动自动驾驶市场快速增长
自动驾驶:AI智能分析、识别路况,渗透率不断提升。借助决策式AI,自动驾驶汽车可分析判别各种路况,并可对多种物体进行识别与跟踪,从而提高行车的安全性,例如行人、空旷行驶空间、地上标注、红绿灯、车辆等。
目前自动驾驶市场规模快速增长,据ResearchAndMarkets,2021年全球无人驾驶汽车的市场规模约273亿美元,2026年全球无人驾驶汽车市场规模将达到594亿美元,年复合增长率为16.84%。
带动产业链发展,多环节均有高市值上市公司及高估值公司。
判别式AI为自动驾驶汽车提供核心技术支持,自动驾驶汽车的销售则带动整个相关产业链的发展,如车用无线通信技术V2X、高精度地图、激光雷达、芯片、ADAS驾驶辅助系统、智能车解决方案等。
多个产业链环节均有高估值、大市值公司诞生,例如蔚来汽车(造车)、商汤科技(激光雷达、V2X、ADAS等)、Momenta(高精度地图)等。
4)AI四小龙多领域开创“AI+”新业态
AI四小龙:在多场景探索计算机视觉应用。
借助判别式AI,商汤科技、旷视科技、依图科技、云从科技对C端、B端、G端的各大应用场景进行智能分析,提高信息的判别分析效率、节省人力成本,并为用户及时提供决策反馈。四家公司均获得了较高的估值。
商汤科技:将人工智能基础设施、智能驾驶、人/物检测、SLAM、图像生成、智能决策为核心,应用领域涵盖智能驾驶、身份验证、城市管理、游戏AI、VR/AR等,近日市值923.74亿港元。
旷视科技:专注于图像/视频的分析与理解,以人脸识别为核心,业务场景包括城市治理、楼宇园区管理、实名认证、通行考勤等,据胡润全球独角兽榜,2021年估值270亿元。
依图科技:聚焦于人脸识别、自然语言处理等领域,解决方案包括城市管理、智慧医疗等据胡润全球独角兽榜,2020年估值140亿元。
云从科技:建立视觉、语言、环境认知系统,应用于智慧交通、金融、教育等领域,11月24日市值131亿元。
6、生成式AI
1)生成式AIVSWeb3.0:不仅是web3.0的生产工具,更是人工智能的新范式
生成式AI可以作为Web3.0的生产工具,但Web3.0中的应用仅是其应用的冰山一角。
Web3.0围绕去中心化的理念展开,结合区块链、智能合约、加密货币等技术,核心是产生的数据由用户拥有,能够改变用户数据及原创内容等均由互联网中心化实体控制的现状,在创作者经济中取得更好的平衡从而提升用户创作内容的积极性。
生成式AI在内容领域的应用能够满足用户不断提升的创作需求,但这仅是其应用的冰山一角。
生成式AI在广大垂直领域的应用带来的是AI用途的结构性改变以及生产力的进一步提高,未来可能创造巨大的市场价值。
2)生成式AIVSWeb3.0:不追求生产关系的重塑,但将大幅度提升和创造生产力
创造是生成式AI的核心,本质是对生产力的大幅度提升和创造。
生成式AI通过从数据中学习要素,进而生成全新的、原创的内容或产品,不仅能够实现传统AI的分析、判断、决策功能,还能够实现传统AI力所不及的创造性功能。
生成式AI已催生了营销、设计、建筑和内容领域的创造性工作,并开始在生命科学、医疗、制造、材料科学、媒体、娱乐、汽车、航空航天进行初步应用,为各个领域带来巨大的生产力提升。
生成式AI将促进生产关系高效发展,而不是像Web3.0重塑生产关系。Web3.0通过底层的分布式与去中心化、密码学的应用、加密货币的结算方式,为集体协作、分工、收益提供了更好的结算方式,去中心化自治组织(DecentralizedAutonomousOrganization,DAO)将是常见的组织形态,打破了原有的生产关系。
生成式AI不是打破传统的生产关系,而是通过提高生产力促进现有生产关系高效发展。
3)生成式AI:“最有商业前景的人工智能技术”
Gartner将生成式AI列为最有商业前景的人工智能技术。根据其发布的2022年人工智能技术成熟度曲线,预计生成式AI2-5内将进入生产成熟期,发展潜力与应用空间巨大:
2025年,生成式AI产生的数据将占到所有数据的10%,而2021年生成式AI产生的数据不到所有数据的1%;
2025年,30%的大型组织出站消息将由生成式AI生成;
2025年,50%的药物发现与研发将使用生成式AI;
2027年,30%的制造商将使用生成式AI提高产品研发效率。
2022年人工智能技术成熟度曲线:
4)资本:海外一级投资涌入
多家知名风投公司看好生成式AI赛道:
红杉资本官网9月19日发布的文章《生成式AI:充满创造力的新世界》中提到:“生成式AI有潜力产生数万亿美元的经济价值”。
Coatue发布的《AI2022:爆发》认为规模化突破使得AI在短时间内变得指数级强大,其应用场景迅速突破。
2022年10月,StabilityAI完成1.01亿美元融资,估值10亿美元,投资方包括Coatue、LightspeedVenturePartners和O‘ShaughnessyVentures。公司由前英国对冲基金经理EmadMostaque于2020年成立。
2022年10月,Jasper完成1.25亿美元融资,估值达15亿美元,投资者包括Coatue、BessemerVenturePartners、IVP等多家机构。
2019年,OpenAI获得微软10亿美元投资,2021年OpenAI估值已达200亿美元。
多家生成式AI公司进入Madrona、高盛、微软、亚马逊网络服务和PitchBook联合发布的2022年智能应用前40名榜单(IntelligentApplications40,IA40)。
IA40招募了来自40多家顶级风险投资和投资公司的50多名风险投资人,提名并投票选出塑造智能应用未来的顶级公司,这些公司自成立以来募资超160亿美元,今年募资超过50亿美元,其中包括Runway、Jasper、Copy.ai在内的14家生成式AI相关公司,占比达35%。
5)技术:2022年是拐点
前期架构、模型、数据、算力的积累与提升
架构改进:深度神经网络的学习能力和模型的大小呈正相关,但规模越大训练难度越高,需要对结构进行改进,拥有更强并行性的Transformer架构带来了深度神经网络参数量从最早的几万到目前的数千亿的跃升。
模型发展:GPT-3、CLIP、Diffusion、DALL·E2等模型的提出极大提升了AI处理NLP、跨模态、生成问题的能力。
数据增多:拥有的优质训练数据越多,算法从中学习的效果越好。随着数字时代的到来,生成数据的工具和软件越来越普遍,数据总量呈指数增长,可供AI训练的数据质量和数量均有很大提升。
算力提升:大规模深度学习模型的参数和数据量达到了一定量级,需要相应算力的支撑,目前,大规模模型的训练算力是原来的10到100倍。
5)跨过恐怖谷:人类对生成式AI的好感度随其拟人程度的增加而增加
恐怖谷效应:1970年由日本机器人专家森政弘提出的关于人类对机器人和非人类物体感觉的假设,随着类似人类物体的拟人程度增加,人类对其的好感度呈现“增-减-增”的曲线,当类似人类的物体与人类相像到一定程度后,人类对其好感度会下降呈现一个情感反应的低谷,即恐怖谷,而当其与人类的相似程度继续上升,人类对其的好
感会随之增加。
生成式AI跨过了恐怖谷。随着技术的发展,生成式AI越来越多的能力接近人类甚至超越人类,人们对其不是反感而是热衷于使用,例如抖音中AI绘画特效使用人数已经超过2700万人,AI会话工具ChatGPT发布5天用户即超百万,人类对生成式AI的好感正随着其能力的提升、与人类相似程度的提升而增加,说明生成式AI已经成功跨过了恐怖谷。
6)生成式AI技术演进展望
根据红杉资本的预测:后续基本模型的发展将继续推进生成式AI应用发展,预计2023年文本领域和代码领域的应用已经成熟。
图像/视频/3D/游戏领域的成熟应用仍需要一定的发展时间,2025年以后的应用发展进程仅为推测。
7、生成式AI的典型应用
1)娱乐媒体内容制作
当前阶段生成式AI最常见的应用场景为娱乐媒体内容的辅助生产。以文字续写或纠错、文字转语音、文字生成语音、图像智能编辑、视频智能剪辑等方式替代既有创意产生后的专业性机械劳动,同时通过内容生成满足用户的娱乐需求或者为其提供创作灵感。
随着生成式AI的不断成熟,部分专业内容生产者将被替代。
数据、算力的进一步提升将带来具有更强生成效果的AI,能够根据用户需求生成个性化定制内容终稿,并且AI生成内容达到专业内容生产者水平且具有独特新颖的创意,从而替代部分文字作者、翻译人员、插画创作者、配音人员、音乐制作人、视频编辑人员等等。
2)AIGC:生成式AI在娱乐媒体领域的应用
AIGC(AI-GeneratedContent)指利用人工智能技术自动生成的内容,是继专业生成内容(PGC)和用户生成内容(UGC)之后一种新型生成内容的方式。
国际上被称为人工智能合成媒体(AI-generatedMedia或Syntheticmedia),是通过人工智能算法对数据或媒体进行生产、操作和修改的统称。
AI绘画作品出圈、一级投资活跃,2022年AIGC爆发式发展。
2022年8月,在美国科罗拉多州举办的新兴数字艺术家竞赛中,参赛者提交AIGC绘画作品《太空歌剧院》获得了此次比赛“数字艺术/数字修饰照片”类别一等奖,而参赛者没有绘画基础,通过AI绘图软件MidJourney耗时80个小时创作了该作品。
AI绘画技术发展快速,从年初的技艺生疏到目前能够生成专业级别的图像仅过去几个月的时间,目前国外已有StableDiffusionMidjourney等多个成熟的AIGC平台。其中技术领先的AI公司OpenAI当前估值或达290亿美元,StableDiffusion背后的StabilityAI估值也达到10亿美元。
3)AIGC:生成式AI在内容创作领域的应用
AICG大幅度降低了数字内容生产的成本,打破了数字内容生产受到人类想象能力和知识水平的限制,广泛应用于文本生成、音频生成、图像生成、视频生成、跨模态生成及游戏领域,其广泛应用能够满足数字经济时代日益增长的数字内容供给需求。
GPT的升级推动AIGC的发展,迎万亿市场规模
GPT的升级增强了AIGC能力,释放更多潜在市场空间:GPT系列的不断升级,增强了AIGC在编程语言(代码生成、软件行为生成)、自然语言(新闻撰写、文案创作、对话机器人、创作性文本)等方面的表现,我们离AIGC时代更进一步。
AIGC在内容生成中的渗透率将快速提升,应用规模快速扩增。根据Gartner《2021年预测:人工智能对人类和社会的影响》,到2025年AIGC产生的数据将占所有数据的10%,而该比例在2021年不足1%。而量子位智库根据现有技术及需求成熟度预测,2030年AIGC市场规模将超过万亿人民币。
4)文本生成:对话机器人、新闻稿撰写广泛应用
文本生成是生成式AI最早应用的领域之一,已经在对话机器人、内容续写、新闻稿撰写、诗歌小说创作等领域具有广泛的应用。
对话机器人:包括问答型机器人、闲聊型机器人、任务型机器人、知识图谱型机器人、多轮对话机器人,在智能客服场景中能够显著降低企业人力成本。
新闻稿撰写:在全球范围具有广泛的应用,很多新闻机构使用AI生成稿件,尤其是体育、天气、股市交易变动、
公司业绩报道等结构性新闻报道。自然语言生成公司AutomatedInsights仅在2014年就产生了10亿篇新闻文章,每秒可撰写多达2000篇新闻报道,用户包括雅虎、美联社等。
文本生成:内容续写、文学创作部分达到专业水平
内容续写:基于给定的文本续写新的内容,续写的内容包括文学创作、商业写作、教学内容等,典型应用有Google推出的Wordcraft、OpenAI推出的GPT-3等。
Wordcraft:2021年由谷歌推出,作者和AI以对话的形式共同编辑故事,支持续写、扩写、改写、生成大纲等功能,能够极大提升写作效率,激发创作者灵感。
文学创作:2017年微软研发的AI“小冰”出版了人类历史上第一部人工智能诗集《阳光失了玻璃窗》,其中包含139首现代诗;2018年,AI创作的小说《1TheRoad》出版;2022年谷歌子公司DeepMind发布剧本写作AIDramatron,能够从一句话表述的戏剧冲突中生成剧本标题、角色、场景、对话;越来越多的AI文学创作平台进入公众视野,AI创作的内容包括剧本、诗歌、小说、对联等等。
文本生成:ChatGPT集大成
11月30日,OpenAI发布语言模型ChatGPT,该模型采用对话的形式与人进行交互,可以回答后续问题、承认错误、挑战不正确的前提、拒绝不适当的请求。
ChatGPT不仅在日常对话、专业问题回答、信息检索、内容续写、文学创作、音乐创作等方面展现出强大的能力,还具有生成代码、调试代码、为代码生成注释的能力。
ChatGPT发布后5天用户已超百万,而OpenAI之前发布的GPT-3用了将近两年的时间才突破100万用户。
文本生成:以GPT-3和ChatGPT为例的应用及展望
GPT-3于2020年5月发布,能够生成高质量文本,截止2021年3月,已经有超过300个应用程序提供GPT-3驱动的搜索、对话、文本完成和其他AI功能,GPT-3平均每天生成45亿字。
目前GPT-3已应用于:从客户评论中识别主题并生成摘要、为虚拟人生成对话对话使其与人自然交流、提高语义搜索的准确率等。
ChatGPT相较于GPT-3具有支持多轮对话、易于修正、人机交互效果更好、更快、更高效等优势,且目前免费使用,用户已超百万,更适合应用于人工智能客服、搜索引擎、智能客服、虚拟人、代码编程、文学创作等领域。
5)音频生成:语音生成广泛应用,大厂均有布局
自动语音生成:将文本转化为语音,广泛应用于新闻阅读、有声书、出行导航、通知播报、视频配音等领域。目前,谷歌、微软、亚马逊、腾讯、阿里、百度、科大讯飞等均推出了相关平台,支持在不同场景下将文本转化为流畅逼真的语音。
谷歌Text-to-Speech:谷歌基于DeepMind的语音合成专业技术打造,支持40多种语言、220多种语音和参数调整,并且支持用户上传自己录制的音频来训练自定义语音模型。
科大讯飞在线语音合成:提供了100+发音人,支持多语种、多方言和中英混合,可灵活配置音频参数,只需用户上传15分钟录音便能够生成专属声音
音频生成:歌曲生成已有商业级模型,应用场景广阔
歌曲生成:AI作词、作曲、编曲等,具体包括由旋律生成歌词、由歌词生成旋律、不同曲风旋律生成、和弦生成、音乐续写等,可应用于音乐欣赏、游戏音效、实体场景配乐等多个领域。
天工乐府SkyMusic:2022年由昆仑万维推出的商业级作曲AI模型,支持31种语种的歌词生成、多曲风旋律生成、多轨道编曲、VOCAL生成和智能缩混等,已在全球多个音视频平台发行近20首AI生成歌曲。
PlayformAI:与音乐专家合作使用AI续写了贝多芬《第十交响乐》,完成了两个完整的超过20分钟的乐章,《第十交响乐》于2021年成功由波恩贝多芬管弦乐团演出。
6)图像生成:快速出圈,多款应用火爆
2022年下半年,AI由文本生成图像快速出圈,多款应用火爆。目前对大众开放的图片生成模型主要包括StableDiffusion、OpenAI的DALL-E2、Midjourney等,三款模型中,仅StableDiffusion开源,累计使用人数最多,在全渠道有超1000万用户。
谷歌于2022年五月推出了由文本生成高清图像的模型Imagen,其官网展示了Imagen生成的高清图像,并宣称Imagen生成的图像已经全线超越了DALL-E2,但该模型尚未对外公开使用。
7)视频生成:智能编辑为主,生成有待发展
视频智能编辑:使用AI对视频进行编辑,包括删除视频特定主体、自动跟踪剪辑、视频特效生成、自动添加特定内容、视频美颜等,大大降低了视频编辑的专业门槛,提升了视频剪辑效率,目前已广泛应用于视频创作领域,具体应用包括剪映、百度智能创作平台、抖音、美图等。
剪映:字节旗下视频剪辑软件,支持AI智能字幕、曲线变速、智能抠像、文本阅读等
视频生成:目前由智能视频生成虽有部分应用,但生成的视频时长较短,且部分视频无法准确再现真实世界的运作方式,AI视频生成技术到成熟应用还有一段距离。
视频生成:百度推出综合型视频智能创作平台
百度智能创作平台:百度AI推出的一站式内容创作助手平台,涵盖文章创作、视频生成和视频智能编辑。落地媒体机构超过20家,包括人民日报新媒体、新华社、央视网、百家号、好看视频等。
视频创作:作为综合型视频创作平台,基于多模态创作技术,为内容创作者和机构提供AI赋能创作工具,支持图文转视频、图表动画、虚拟主播、语音快剪、智能字幕等多种功能。目前,百度智能创作平台自动创作的短视频数量已超过15万条。
8、内容生产环节价值巨大:全球娱乐娱乐市场规模2.3万亿美元,各赛道均有千亿市值公司
1)全球娱乐及媒体市场规模超2.3万亿美元。
据普华永道,2021年全球娱乐及媒体行业的总收入约为2.34万亿美元,中国市场收入达3586亿元,占比约15%。
预计2026年全球娱乐及媒体行业的总收入约为2.93万亿美元,CAGR为4.6%。在各细分子行业中均有千亿级别上市公司诞生,其中综合型公司市值更高,腾讯、WALTDISNEY市值分别达3176亿美元、1802亿美元。
2)内容生产环节价值巨大:内容生产者处于产业链核心地位
高质量内容是娱乐及媒体行业的核心。高质量内容为娱乐媒体行业的基础,内容创作者在其中扮演了重要的一环,为各类媒介带来了用户流量及使用时长的增长。
以视频平台为例,IBM商业价值研究院对42个国家或地区将近21000名消费者的调查显示,57%的受访者认为收到高质量的专属视频内容是对视频提供商保持忠诚的关键动因。
9、生成式AI在娱乐媒体领域:不再是改变分发关系,而是升级生产力
决策式AI在娱乐媒体领域的应用集中在内容分发环节,提升分发环节的效率实现了千人千面,而不是对生产力的提升。
生成式AI能够创作新的内容,改变了传统的娱乐媒体内容由人工生产的方式,带来的生产力的提升与突破。
10、生成式AI为现有互联网娱乐巨头带来机遇和挑战——分发环节价值让位于内容生产环节
AI目前在娱乐媒体领域的应用以内容分发为主,在内容生产阶段有部分辅助应用,后期将走向大规模辅助内容创作甚至大规模替代人类创作。
机器辅助人阶段:生成式AI大幅度降低内容生产成本和门槛,为内容公司降本增效,现有互联网娱乐巨头有望获得更高利润。
机器“替代”人阶段:用户只需要输入指令便可以得到AI创作的所需内容,内容分发环节重要性下降,现有互联网娱乐巨头面临从“精准提供符合用户需求的内容”到“提供符合用户需求的内容生产工具”的挑战。
——理想状况下,如果阅文集团将2021年全年文字内容生产量(360亿)交给GPT-3,耗时8天即可完成,节约成本99%+,毛利率空间几乎100%释放。
1)阶段一:机器辅助人:大规模内容辅助创作,提质增效
生成式AI辅助创作,大幅度降低了内容生产的成本,降低了创作门槛:
价格方面:人工创作价格偏高;生成式AI存在大量免费应用,部分收费的专业版本价格也远低于人工创作。
速度方面:人工创作由于体力、脑力的限制,创作速度存在上限;而生成式AI辅助创作仅需几分钟甚至几秒钟便能够完成,其单纯的创作时间消耗可以忽略。
效果方面:人工创作的效果因人而异,专业门槛较高,且不易统一;而生成式AI辅助创作降低了图片、音频的创作门槛,使得没有专业技能的人也能够完成自己的作品,在部分领域已经能够达到专业水准,生成式AI创作的诗歌、小说、音乐、图片具有发表,部分获得专业奖项。
阶段一:机器辅助人:大规模内容辅助创作,降低人工成本
典型内容行业的制作、版权成本通常占比不低。
如视觉中国2014-2021年累计支付给供稿方的版权费为15亿,占收入的比重为28%;爱奇艺2021年内容成本为207亿,占收入比重为68%;腾讯的VAS业务,21年成本为1386亿(包括游戏、视频、音乐等内容成本),占VAS收入的比重为48%。
制作/版权成本的背后通常是人力成本,AIGC有望降低人力成本。
以游戏研发为例,其过程中传统的资本支出、固定投入较少,开发人员的人力成本为主要支出。除开市场调研、策划与发行阶段,在要素构建环节(如美术模型贴图、音效设计、动作设计),若用AIGC进行部分替代,则整体制作成本将明显降低。
阶段一:机器辅助人:国内市场空间可达千亿
以内容制作成本可AI化制作比例,对AIGC的理论市场空间进行匡算
1、内容制作成本:按照各典型行业的市场空间预计的内容(或版权)成本占比进行匡算。如2021年游戏行业市场规模2965亿,游戏行业盈利能力较强&毛利高,预计其中制作成本占比25%;如直播行业主播分成比例惯例为五五分成,因此此处按照50%匡算主播分成成本;其他行业以此类推。
2、可AI化比例:当前AI图片、AI音乐相对较为成熟,预计未来可AI化的比例分别为55%、50%,而AI应用在视频类(直播/剧集/电影/综艺)的技术发展相对缓慢,预计可AI化的比例相对较低。综上,我们预计国内AIGC在B端市场的理论空间为1000亿左右。
2)阶段二:机器“替代”人:为娱乐媒体领域带来颠覆性变革
随着技术的不断发展,生成式AI技术发展到能够替代大部分专业生产者的阶段,将为娱乐媒体领域带来颠覆性变革,我们做出以下展望:
内容总量指数级增长:内容生产效率极大提升,每个用户都可以成为内容创作者,生产效率和创作人数的增长将带来内容总量的爆发。
内容质量达到甚至超越专业人员创作水平:目前,生成式AI在文字生成、图像生成等领域创作的内容已经可以媲美部分专业人员,随着技术的不断发展,生成式AI创作的内容质量或超越专业人员创作水平。
3D内容、交互性内容占比大大增加:3D内容、交互性内容制作难度大、成本高,生成式AI的发展将大幅降低3D内容、交互性内容的制作门槛,叠加消费者对高质量内容的需求,3D内容、交互性内容占所有内容的比例将大大提高。
决定公司核心竞争力的因素由内容质量变为生成式AI水平:
目前,决定娱乐媒体领域公司核心竞争力的主要因素是内容的质量,但生成式AI将为以往的内容创作者带来更高效的创作方式,也会将部分原来的内容消费者转变为集内容创作和消费于一身的角色,届时生成式AI水平将直接决定内容质量以及创作者、消费者的体验,成为决定公司核心竞争力的因素。
阶段二:机器“替代”人:虚拟人集成内容创作工具,成为下一代互联网应用入口
最早的虚拟人不具有智能交互功能。2007年初音未来出现,能够输入音调、歌词等将人类声音合成为歌声,仅是一个虚拟的人物形象,按照人工既定的设计表演,不具有实时交互功能。
早期虚拟人仅具有语音交互功能,只闻其声不见其人。2011年Apple在iPhone4S中内置Siri,用户可以通过语音与Siri聊天,用户可通过Siri进行拨打电话、设置闹钟、记录待办事项、播放音乐等收集控制。后期出现的小度、小爱等以智能音响为代表的智能家居,也是仅具有语音交互控制功能,不具有鲜活的可视形象。
目前的虚拟人智能程度增强,以AI驱动为核心。多数虚拟人支持捏脸、智能语音交互、表情动作变化、情绪变动等等,形象更加真实,动作自然。目前虚拟人制作以AI驱动为核心,动捕、渲染、形象库等环节由AI完成,大幅度降低了制作成本。
未来虚拟人集成生成式AI后,将成为元宇宙的入口,是用户创作的生产力工具集合。
虚拟人集成生成式AI后将更为个性化,不仅具有交互、陪伴、控制功能,成为元宇宙的入口,还具有创作能力,成为生产力工具集合的形象代表,未来有望成为通用人工智能助手的形象代表。
阶段二:机器“替代”人:未来虚拟人雏形已现——AdobeSensei
AdobeSensei:2016年由Adobe推出的人工智能平台,能够为Adobe家族中各种产品提供设计和数字支持,处于不断更新中,目前已经被嵌入到几十种Adobe产品之中,在一些产品中,人类只需要向Sensei发出指令便可以完成复杂的专业操作。
我们认为,AdobeSensei已经具备了未来虚拟人的雏形,可以通过人类的指令完成部分专业内容创作,随着技术的发展,AdobeSensei可能具有独特的虚拟形象并支持语音交互,成为Adobe产品范围内的通用人工智能助手。
阶段二:机器“替代”人:未来虚拟人雏形已现——DeepMindGato
DeepMindGato:2022年由DeepMind推出的“通才”AI模型,能够根据指令完成注释图像、交互式聊天、玩小游戏、关节力矩控制、在现实中使用机械臂堆叠积木、在模拟3D环境中导航等数百种任务。
相较于AdobeSensei,Gato不仅集成了生成式AI,而是具备了未来集成通用人工智能的虚拟人的内核。
海内外发展情况
国外多家生成式AI创业公司获得大笔融资且拥有较高估值。
主要包括OpenAI、StabilityAI、Midjourney、Jasper等,其中OpenAI技术积累最强,发布了多款生成式AI底层算法,估值或达290亿美元。
国内外科技巨头在生成式AI领域多有布局。国内公司百度、腾讯、阿里、字节、网易等及国外公司谷歌、Meta、微软等均推出了生成式AI的应用产品,其中谷歌通过谷歌大脑、旗下Deepmind布局最为丰富。
底层系统:目前海外参与研发AIGC模型的公司主要包括StabilityAI、OpenAI、Midjourney,三家公司的AIGC模型均已正式向C端用户发布,谷歌和Meta等公司也正在研发文字转图片的AIGC模型,但仍未对外发布。
垂类应用:在图片AIGC领域,StabilityAI推出了基于自有模型StableDiffusion的DreamStudio;在文本AIGC领域,应用开发商较多,且底层模型多是基于OpenAIGPT-3。
目前,专注底层系统的公司估值更高。虽然相较应用研发商,基础设施研发商的商业模式尚未成熟,多数还在探索阶段,但因其应用场景更广,且掌握核心技术能力,在未能实现稳定盈利的情况下,估值相对更高。
但同样可见,海外除底层算法开发公司以外,初创公司基于开源技术,仍可开发应用并开展ToC业务,具有一定商业化潜力,因此我们预计,国内尽管头部互联网公司已积极布局,但中小型公司仍有业务开展余地。
国内头部互联网公司正在积极布局AIGC业务。
百度、腾讯、阿里巴巴、网易、字节跳动等国内头部互联网公司及旗下人工智能实验室正在基于自身业务情况,研发文本、图片、音乐等内容的AIGC技术和工具。
其中,阿里巴巴的部分技术已运用至产品中,实现提升用户使用体验的目的;腾讯将AIGC的底层技术应用至游戏中,基于自有产品的玩家的操作数据,模拟真人玩家操作,预计未来也可用于创作虚拟玩家。各公司AIGC布局具体情况如下:
ChatGPT横空出世,利好相关基础设施及应用
东吴认为,ChatGPT上线象征着文本类AI进入新阶段,利好其基础设施及应用:
1)基础设施:
算力与存储:如芯片、计算机等:
数据:
算法:训练大模型和NLP;
2)应用
文本创造:有海量文本创造需求的公司,可以借助ChatGPT完成内容快速、低成本地扩增,如网文平台、新闻平台等;
教育:教育及科研工具类平台,可以借助ChatGPT实现定制化、拟人化的教学和辅助,如智能问答、智能批阅、辅导资料智能撰写等;
3)同时,建议关注人工智能的其他子领域:受益于ChatGPT推动的预训练算法的进步,后续可能有突破性技术进展;
3)ChatGPT强大的交互和信息检索能力,对传统搜索引擎形成挑战,利空搜索引擎相关企业:微软或将ChatGPT应用于其搜索引擎Bing,利空谷歌;且谷歌抢在OpenAI创建之前开源了其名下的TensorFlow人工智能引擎,OpenAI从创立起就和谷歌存在着直接竞争关系。
但是,由于ChatGPT潜在的收费可能,我们认为其尚不能完全取代传统搜索引擎。
13、基础设施(1)-算力、存储
1)高算力、海量训练数据是训练全球领先的AI模型的基础,推荐关注云基础设施和AI芯片。
微软入资OpenAI后,2020年5月,微软宣布“专门为OpenAI打造世界排名前五的超级计算机之一”;同时,双方达成一项多年的合作协议,OpenAI开始接入微软的Azure云平台开发AI技术。
高算力的底层基础设施是完成对海量数据处理、训练的基础。海量数据汇集也为AI模型提供强大的数据集支撑。例如GPT-3由互联网上大多数英文文本训练而成,整个英文维基百科只占它训练数据整体的0.6%。
2)云计算提供了社会级的超大算力计算平台和海量数据存储平台。云计算在数字中国建设和数字经济发展中起着重要的基础性、先导性和战略性作用,已成为经济社会数字化转型的基石,有望在政府、企事业单位和其他组织中广泛积累应用和数据。
地方政府方面:2022年10月28日《全国一体化政务大数据体系建设指南》中提出要整合构建标准统一、布局合理、管理协同、自主可控的全国一体化政务大数据体系,并要求到2025年政务数据全部纳入目录管理;
央国企方面:加强国企的数据安全保障,强化对国企数据资源的监管。国资云是指由各地国资委牵头投资、设立、运营,通过建设高安全防护水平的数据安全基础设施底座。
3)底层硬件来看,需要高算力的AI芯片。AI芯片即专门用于处理人工智能应用中大量计算任务的模块,近年来国家高度关注人工智能芯片产业的发展,发布一系列产业支持政策,亿欧智库预测2025年中国AI芯片市场规模约为1780亿元,目前很多企业还在发展初期。
4)相关公司:
云基础设施:深桑达A——000032(中国电子云成为央国企和地方政府开展国资云建设的主力军)、易华录——300212(参与政务云建设,数据要素市场化先发优势显著)、中国移动——600941、中国联通——600050、中国电信——601728、微软等。
AI芯片:寒武纪——688256、地平线、华为海思、平头哥等。
14、基础设施(2)-数据
1)数据资源是人工智能技术产业创新发展的驱动力之一。
数据集作为数据资源的核心组成部分,是指经过专业化设计、采集、清洗、标注和管理,生产出来的专供人工智能算法模型训练的数据。大数据的核心始终是面向海量数据的存储、计算、处理等基础技术。
GPT-4或不再以“大”取胜,数据在精不在多,依靠提高模型效率和数据质量达成改进。
此前OpenAI信奉“扩展假说”,即海量数据和大量算力是通往AGI的唯一路径。因此,OpenAI所训练的GPT系列参数越来越多,模型表现也相应润色。
但是,DeepMind的研究或意味着模型效率和数据质量的提升才是未来方向。DeepMind的研究成果表明,在参数数量少一个数量级的情况下,模型依然可以获得与常规Transformer相当的性能,并在多个语言建模基准测试中获得最先进的性能。
这意味着,在当前文本AI模型已经普遍使用海量数据集的背景下,通过模型效率和数据质量的提高来改进AI性能的路径或将取代依赖数据量提升的路径,进一步挖掘AI的潜力。
关于GPT-4参数数量亦有两派预测:万亿级参数数量,以“大”取胜vs略高于GPT-3的参数数量,以“精”取胜,有待GPT-4正式上线给出答案。
2)未来数据类企业的竞争力或体现在数据质量,对数据清洗和标注提出较高要求:
根据Google的研究,数据质量在高风险人工智能领域具有更高的重要性,但人们往往只关注于模型,而忽略数据质量,并且该结论可以或多或少地适用于所有AI领域。
如果GPT-4更多依赖模型效率和数据质量的提升来实现改进,将启示我们重视数据清洗和标注,关注能够提供高质量数据的企业
3)数据标注是大部分人工智能算法得以有效运行的关键环节。
简单来说,数据标注是对未经处理过的语音、图片、文本、视频等数据进行加工处理,从而转变成机器可识别信息的过程。
在ChatGPT训练的三个阶段中,只有第三阶段不需要使用人工标注数据,而第一、第二阶段都需要大量的人工标注。
根据智研咨询,2015-2021年,我国数据标注与审核行业市场规模保持稳步增长态势,2021年达到44.40亿元。预计2028年我国数据标注与审核行业市场规模将达262.74亿元。
现有数据标注以人工标注为主,属于劳动密集型产业。随着机器学习不断完善,自动标注成为大趋势。
目前我国的数据标注与审核业务的参与者主要包括两类,一是人工智能公司内部的标注部门,二是商务流程外包公司。
相关标的:海天瑞声——688787(AI训练数据专业提供商)等。
基础设施(3)-算法
ChatGPT所基于的自然语言处理是AI的核心课题之一。
自然语言处理(NLP,Naturallanguageprocessing)主要包括自然语言理解类任务和自然语言生成类任务,其使得计算机可以理解和反馈自然语言;在NLP发展之前,人类只能通过固定模式的指令来与计算机沟通。
近两年,对话机器人使得与智能语音相关NLP产品迎来了发展机遇。
艾瑞统计研究,2021年,中国NLP核心产品的市场规模为171亿元,带动规模为450亿元,到2026年,核心产品规模将达到459亿元,CAGR=24.8%,带动规模将超过1000亿元。
当前国内领先的对话交互类AI算法企业主要包括两类:
以语音识别为核心业务的企业,延生到NLP领域,如科大讯飞,从语音识别延生到语音合成、机器翻译、图文识别、图像理解、阅读理解、机器推理等算法,并在消费者、智慧教育、智慧城市、智慧司法、智能服务、智能汽车、智慧医疗、运营商等领域实现深度应用。
以NLP为核心业务,专注语义识别的企业,如拓尔思。拓尔思是国内最早从事自然语言处理(NLP)研发的企业之一,在语义智能领域具备自主可控的底层技术,可以提供预训练模型和阅读理解等技术成果。
4)相关标的:科大讯飞——002230(国内AI龙头,率先落地教育信息化等场景)、拓尔思——300229(语义智能先锋,搜索引擎数据库未来可期)等。