研究范围
近年来,随着移动互联网为代表的数字经济的快速发展,国内数字内容的消费需求持续快速增长,从质量、数量角度均进入升级通道。以往分别由专家、用户所主导的PGC、UGC数字内容生产模式,已逐渐无法完全满足数字内容的多样性、效率需求,基于人工智能技术的AIGC,能够深刻、广泛赋能数字内容生产的各类场景和内容创作者。
技术方面,深度学习模型不断迭代,Transformer迅速取代RNN系列变种,跻身主流模型架构基础,Diffusion、CLIP等新一代各模态基础生成算法的诞生和应用,使得人工智能内容生成百花齐放,产出效果趋于逼真,为基于AI的内容生成即AIGC提供了可能。从基础设施角度,AIGC需要GPU算力、网络及存储等硬件基础设施的全方位支撑,国内过去在互联网及移动互联网时代所积累的云计算、数据中心、算力中心等领先全球的数字化基础设施,为AIGC的落地运行提供了坚实基础。
政策层面,党中央、国务院历来高度重视人工智能产业的发展,几乎每年都会有相应政策出台。2023年4月,中央政治局首次提及通用人工智能,为我国人工智能产业尤其是通用人工智能的发展奠定了总基调。在中央会议精神的指引下和产业发展需要的驱动下,地方政府政策积极跟进,促进人工智能产业政策的进一步落地。
5月最后两天,北上深三地接连出台相关支持政策,大力支持国产大模型为代表的人工智能产业的发展。例如,深圳市在所发布的《深圳市加快推动人工智能高质量发展高水平应用行动方案(2023—2024年)》中提出了包括“千行百业+AI”在内的十八项举措,要力争创建全球人工智能先锋城市。总
之,被ChatGPT引爆后,在需求、技术、基础设施、政策等多重因素合力助推下,AIGC领域将迎来爆发式增长,AIGC有望成为Web3时代的重要基生产力工具。
图1:AIGC市场全景地图
本次报告爱分析将AIGC的全景地图分为三部分:
其一,基础层。基础层主要包括AI芯片、基础生成算法、数据集等,这些构成了大模型产生的基础。例如,大模型由于模型参数巨大、需要的预训练数据规模庞大,因此,对算力有极高要求,以英伟达的A100芯片为例,ChatGPT能够“大力出奇迹”,也正是数千张甚至上万张A100芯片所组成的算力基础设施提供强大算力保证的结果。
其二,模型层。模型层是AIGC的核心,整体由通用大模型、行业大模型两部分构成,是应用层的能力基础。通用大模型,核心是通过大规模无标注数据的训练,形成可“举一反三”的强大泛化能力和迁移学习能力。而行业大模型,则是面向垂直领域,基于自建模型或利用通用大模型,引入行业语料进行模型的进一步训练,以提升对行业/领域应用场景的支撑能力。
其三,应用层。大模型能力具备后,核心是让模型与千行百业的具体业务场景相结合,产生具体应用价值。通过大模型的能力赋能及提示词的交互赋能,甚至是整合了大模型能力的前端应用(如SaaS),可以让大模型在各行业、企业价值链各环节落地生根。
爱分析综合考虑企业关注度、行业落地进展等因素,选取其中的行业大模型、数字办公这两个特定市场进行重点分析。本报告主要面向组织的产研部门、业务部门及管理部门,通过对行业大模型、数字办公市场的需求定义和代表厂商的能力解读,为企业行业大模型、数字办公产品的落地与应用提供厂商选型参考。
厂商入选标准:本次入选报告的厂商需同时符合以下条件:
2.1 通用大模型市场格局及其对科技厂商与甲方企业的影响通用大模型市场当前参与者类型虽多,但市场终局将高度集中,科技厂商及甲方企业需着眼终局,慎重选择通用大模型合作伙伴。
图2:AIGC主要细分市场“倒金字塔”型逻辑示意
2.2 行业大模型市场成因及市场格局判断行业大模型与通用大模型并行发展,未来整体百花齐放,但垂直领域仍将头部集中。
2.3 AIGC落地应用进展、挑战及商业模式分析应用层面,能源、金融、传媒、营销、数字办公等领域应用靠前,甲方AIGC落地面临路径选择、法律法规及内容安全等多重制约,目前落地主要以价值增强和效率提升为主,商业模式层面仍在探索,B端对底层能力或对最终结果付费将是主流,C端有待突破。
图3:AIGC商业模式演进示意
对C端客户,短期很难实现产品及模式突破,中长期可能会出现免费模式,或通过超级入口方式变现。C端用户目前多是尝鲜和试玩为主,但其AIGC的核心应用目的是提效、增强个人创新力,因此,关键是寻找到有足够用户粘性和智能化痛点的场景,并探索出健康可持续的商业模式。考虑到个人用户对于付费的价格弹性更高、预期更高、付费行为改变需要周期,同时考虑到B端产品的研发落地需要一定周期,因此C端的产品、商业模式落地需要较长时间蓄势和探索。此外,ChatGPT、Midjourney拉高了用户对于通用人工智能产品的预期,使得C端产品的订阅收费,短期内难度更高。未来,AIGC可能会出现免费模式,同时以广告等传统互联网模式进行变现,也可能会在诸如智能家居等场景中寻求与某些智能硬件的融合,形成超级入口级产品,进而完成变现。
爱分析基于对甲方企业和典型厂商的调研以及桌面研究,遴选出AIGC市场中在行业大模型、数字办公方面已经具备一定解决方案和落地能力的入选厂商。其他市场,爱分析将在后续的生成式AI的系列报告中视情况予以覆盖。
爱分析对本次AIGC项目重点研究的行业大模型市场、数字办公市场分析如下。
行业大模型市场定义:行业大模型,指面向金融、传媒等垂直行业或客服、营销等组织职能领域,基于自建或利用通用模型的强大泛化能力,通过行业/领域知识及数据引入来进行模型的再训练,进而形成针对垂直行业/领域的特定任务具有更高模型可控性、准确率及响应效率的深度学习算法模型,有助于帮助组织提升特定行业/领域的数字内容生产及用户交互效能。甲方终端用户:金融、传媒、教育、娱乐、营销等行业/领域企业的产研部门、业务部门甲方核心需求:GPT-3、Florence、DALL·E 2等通用大模型虽然拥有巨量参数,并拥有出色的泛化能力,但在面对不同行业、领域的具体应用场景时,由于缺乏具体行业的行业语料集,并且未面向特定行业的应用场景进行提示词的开发和优化,去适配前端具体业务场景需要,因此,通用大模型对特定行业应用场景的性能指标和专业性往往并不理想。因此,只有专门针对特定行业/领域自主开发的大模型或经过行业语料再训练的行业大模型,才能更好地支撑企业的具体上层应用。在这一过程中,甲方企业的具体需求如下:
除此之外,甲方还有以下期望需求:
厂商能力要求:厂商需同时具备以下能力,以帮助各行业组织实现具体场景的应用落地:
针对甲方的期望需求,厂商还应具备以下可选能力:
入选标准说明:
1. 符合行业大模型市场定义的厂商能力要求;
2. 已有公测/邀测产品,或已有付费客户并已进行了部分业务的落地应用;
代表厂商评估(以下代表厂商评估均按厂商简称首字音序排序):
灵伴智能厂商介绍:北京灵伴即时智能科技有限公司(以下简称“灵伴智能”),成立于2014年,核心技术覆盖语音识别、语音合成、自然语言理解等,聚焦数字内容生产平台和虚拟数字人智能驱动,广泛赋能企业服务、文化、医疗、教育、政府等领域。
产品服务介绍:灵伴智能专注于人工智能基础技术研发以及智能技术的产业化落地,旗下有“呱呱有声2.0”长音频内容智能生产开放平台和“睿思”智能对话服务开放平台两大产品线。其中,呱呱有声长音频内容智能生产开放平台,是灵伴智能基于其领先的语音合成、自然语言处理等AI技术,结合自身行业经验所研发的、国内首个专注于长音频制作领域的数字内容生产开放平台,重构并首次实现了从“文本”到“作品”的全流程一体化生产方式,极大释放了有声内容的生产效能,广泛赋能众多音频内容平台、小说阅读平台及有声制作工作室。
厂商评估:
综合而言,灵伴智能在语音语义的AI核心技术能力、业务建模能力、生态及服务能力等三方面具备显著优势,具体如下:灵伴智能在人工智能领域有近十年的技术沉淀与锤炼,在语音语义智能领域的研发与应用经验丰富,技术能力业界领先。
首先,灵伴智能由创立于2014年的灵伴研究院发展而来,拥有业内顶尖的全栈语音语言博士管理团队,公司核心研发团队有近十名博士、博士后,均来自北京大学。
其次,灵伴智能的研发团队技术实力突出,核心算法均为自主研发。公司拥有全域超级自然语音技术,语音合成能力国际领先,已发表100余篇学术论文和专著,在国际语音合成权威赛事 Blizzard Challenge中多次获得头部奖项,在OLR Challenge语音识别大赛,以及SIGHAN中文信息国际测评等国内外技术大赛上均取得了优异成绩。此外,公司还参与了12项863、973等国家级科研项目,截止目前,已拥有35项AI技术发明专利。
最后,灵伴智能的产品化能力出众,公司过往的产品版本,均是当时国内行业首创性智能语音及智能对话产品。例如,长音频领域首个智能化数字内容生产开放平台、保险行业首个智能语音机器人、行业首个融合声纹安全和情绪识别的智能语音机器人云平台、行业首个女性专属及男性专属客服TTS音色等等。
灵伴智能将AI核心技术与行业Know-how深度融合,拥有出色的业务建模能力,致力于为长音频数字内容生成领域提供从模型到上层应用的一体化AI智能解决方案。灵伴智能以业内领先的自然语言理解(NLU)、语音识别(ASR)、语音合成(TTS)等AI核心技术能力打底,经持续的算法调优与训练,针对智能对话、长音频数字内容生成领域打造了语音语义预训练模型,为智能对话、长音频数字内容生成的垂直领域应用提供了性能卓越的基础设施。
在此基础上,灵伴智能凭借自有导演团队、编剧团队以及配音演员团队的深度实践和广泛行业调研所形成的对长音频数字内容领域的系统认知与深刻理解,倾力打造了呱呱有声数字内容生产开放平台,旨在利用AI技术颠覆传统长音频数字内容的制作流程,为行业提供了全新的“AI+”生产模式,极大突破了长音频数字内容领域传统剧组面临的多重效率瓶颈,为长音频数字内容生产领域提供从模型到前端SaaS应用的一体化智能服务。
图5:灵伴智能长音频数字内容AIGC平台架构图
典型客户:腾讯TME、掌阅科技、知乎·盐言故事、网易云音乐
拓尔思
厂商介绍:拓尔思信息技术股份有限公司(以下简称“拓尔思”),是领先的人工智能、大数据和数据安全产品及服务提供商,坚持“数智+赛道”的发展战略,以优秀的科技能力打造丰富的行业解决方案,为企业、政府实现数字化升级赋能。
产品服务介绍:在AIGC领域,拓尔思聚焦大模型的场景化应用和商业落地,基于公司三十年的NLP技术积累和海量全域高质量数据进行预训练,以内容可信、数据安全、成本可控、高可用性为导向,自主研发“拓天大模型”,以媒体、金融、政务三大优势行业为大模型商业落地的先行突破,为媒体行业的内容生产与搜索推荐、金融行业的智能风控与投研、政府的政策分析与公文辅助写作等垂直领域提供深度赋能,满足行业用户的专业化智能创新需求。
厂商评估:
综合而言,拓尔思在通用大模型调优、高质量行业知识数据积累、场景应用落地等三方面具备较为突出的优势,具体如下:在通用大模型调优方面,拓尔思核心关注中文特性增强、生成内容合规可控,通过研发“拓天大模型”,实现大模型可控化,以更好地支撑上层应用。
拓尔思自2000年开始就自主研发NLP技术,长期聚焦自然语言处理(NLP)、知识图谱等语义智能核心技术,将通用大模型与传统NLP技术相结合,利用行业Know-How,针对特定领域的场景任务构建高质量的专业指令(Prompt),并通过扩充中文词表、6B通用中文语料训练、在不干扰原模型的情况下适配新增中文词向量等方法,实现通用大模型的中文特性增强,打造出专业可靠的“拓天大模型”。
此外,针对大模型天然存在的价值观偏见、容易被诱导等问题,通过中文党媒新闻宣传知识注入、社会主义价值观数据构建、价值观对齐以及话题限定、对话安全、攻击防御等安全围栏方法,基于 RLHF、DPO 等技术训练面向特定行业或机构的“价值观”和“偏好”,例如国家安全价值观、国家传媒价值观等,实现中文特性增强的、安全可控的文本生成。
图6:拓尔思“拓天大模型”架构示意
在高质量行业知识数据积累方面,拓尔思拥有千亿级“全、准、新”的无监督训练数据和微调优化知识数据,可针对优势行业训练出高质量的行业大模型。拓尔思从2010年自建数据中心以来,已采集超过10年的互联网公开数据,拥有规模及质量均位列业界前茅的另类数据资产,数据规模超1500亿条,数据总量达100TB以上,数据类型涵盖文字、图片、音视频等多模态。
同时,重点数据回溯可达10年以上,重点数据源实现分钟级更新,日均采集增长过亿条。拓尔思所有数据均采用“专家规范化标引+机器自动标引”相结合的方式,不仅配备了专家级的知识标引团队,对行业知识进行梳理,还依托完整的数据和知识工程治理体系,基于拓尔思自研的数据底座对采集的内容资讯进行低噪、去重、内容标签化、属性知识化、安全合规核查等“精加工”,保证数据全部具备智能化知识属性,形成垂直领域数据资产。
“拓天大模型”基于上述高质量数据资产进行行业增强训练,可满足媒体、金融、政务等不同行业的场景应用,提升行业大模型的合规性、专业性、准确性,满足行业用户的专业化智能创新需求。
图7:拓尔思高质量数据对“拓天大模型”质量提升作用示意
在场景应用落地方面,拓尔思在行业Know-how及客户服务经验、闭环服务能力的优势基础上,主要解决自主可控、知识及时更新、可信生成技术加强以及私有化部署等核心需求。
首先,拓尔思长年深耕媒体、金融、政务等行业的信息化建设,已积累30+领域知识库和31000+知识标引规则,积累了媒体、舆情、金融风控、产业投研、政务应用等丰富的应用场景和客户服务经验、服务能力。其次,针对大模型存在的无法访问外界知识、知识更新不及时、灾难性遗忘等问题,“拓天大模型”采用增量微调与外部知识库检索结合的方法,可以在冻结大模型绝大多数参数的基础上定期更新知识,同时让大模型具备实时访问外部知识的能力,实现知识库与大模型的有效融合。
针对大模型普遍存在的幻觉生成问题,采用基于稠密向量的知识库搜索引擎技术,对生成结果进行事实检查,对于事实不符合的内容,则采用错误修订技术,对虚假生成结果进行修订,确保生成的文本有据可依,有效提升了文本生成质量。再次,拓尔思具备智能数据标注、模型设计、训练、优化、评估、部署等一站式AI工程化落地服务能力,通过剪枝、量化、稀疏、蒸馏等部署优化方案,可有效降低大模型对算力资源的要求,实现模型的高性价比部署。
拓尔思基于“拓天大模型”所推出的垂类大模型参数在百亿级,当前市场主流推理卡单卡即可满足运行要求,可实现模型轻量化部署,达成业务需要的吞吐量或者延时指标。最后,在大模型时代,“生态力”是“AIGC+”在各行各业成功商业落地的重要保障。拓尔思将持续建立和强化NLP商业生态,与行业知识专家、平台型企业、行业头部企业展开领域知识、算力、业务创新等方面的合作,发挥自身数据资源、行业经验及技术优势,精耕务实,确保“拓天大模型”稳健发展,创新成果持续落地。
数字办公
市场定义:数字办公,指依托大数据、云计算、人工智能等新兴数字技术,通过将组织的业务处理、组织管理进行进一步在线化、协同化与智能化,进而大幅提升组织内部甚至跨组织的信息处理与交互、信息传递与共享、组织协作等方面工作效能的一种现代化办公方式,有助于帮助组织提升协作与价值创造效率、降低组织沟通协作成本。
甲方终端用户:零售、制造、金融、泛互联网等各行业组织的业务及管理部门
甲方核心需求:从办公模式角度,组织经历了物理办公、信息化办公到数字化办公的逐步演进,并且还将持续进化。而组织办公模式的演进,不仅是技术发展红利在组织办公场景价值落地的具体体现,更是企业运用新技术手段、新协作理念对自身商业模式、组织架构、管理流程等组织要素进行系统升级改造,以适应新市场环境的必然要求。因此,只有顺应新兴技术发展方向、新协作模式的要求,才能提高工作及协同效率,提高组织竞争力。在这一过程中,甲方企业的具体需求如下:
除此之外,甲方还有以下期望需求:
厂商能力要求:
入选标准说明:
1. 符合行业大模型市场定义的厂商能力要求;
2. 已有公测/邀测产品,或已有付费客户并已进行了部分业务的落地应用;
代表厂商评估(以下代表厂商评估均按厂商简称首字音序排序):
钉钉
厂商介绍:
钉钉(中国)信息技术有限公司(以下简称“钉钉”),旗下的钉钉软件,是阿里巴巴集团打造的企业级智能移动办公平台,致力于成为数字经济时代的企业组织协同办公和应用开发平台,帮助企业实现业务数字化、组织数字化,引领未来新一代工作方式。
产品服务介绍:在AIGC领域,钉钉推出了钉钉斜杠“/”这一AI入口,瞄准办公中的群聊、会议、文档、应用开发等核心高频场景。通过融合阿里云通义大模型能力,钉钉斜杠“/”帮助用户以自然语言和快捷指令的极简交互方式,在各办公场景中实现让 AI 写文档、画画、整理纪要、智能问答、开发应用等能力,在极大降低了使用门槛的同时,助力办公效率持续提升。
厂商评估:
综合而言,钉钉在数字办公领域行业Know-how、大模型核心技术及落地能力、兼容性与安全能力等三方面具备显著优势,具体如下:钉钉拥有多年服务千行百业积累的对客户需求的深刻理解,深谙各行业客户数字化办公场景的需求及痛点,拥有完整的应用生态来丰富、支撑办公+AIGC应用落地。
钉钉依托阿里多年在人工智能领域的持续积累,深度融合阿里云通义大模型能力,是国内少有的具备原生大模型技术能力并率先落地AI+办公新模式的厂商。
1) 斜杠“/”一下,可一键唤起钉钉AI能力,交互便捷,易用性强。钉钉认识到大模型是对人机交互方式的又一次颠覆,以斜杠“/”作为前台界面中的AI能力唤起指令,将钉钉各项强大的后台能力整体打包,打造了极简的用户交互界面。
图8:钉钉斜杠”/”-群聊场景下一键唤醒示意
2) 在文档创作场景,斜杠“/”扮演文档智能助手角色,可实现辅助创作、内容风格语气调整、对选中内容生成摘要与待办、文生图、文生表等常用操作。官方推荐的指令包括头脑风暴、生成创意、推广文案、大纲、邮件、合同、新闻稿、职位表述等,基本覆盖了用户在文档应用中的主流功能需要。
3) 在群聊场景,斜杠“/”可实现一键生成群消息摘要、智能问答机器人训练与交互等功能。以智能问答机器人为例,基于不同群聊主题,用户通过投喂文档训练,可在群聊中自定义创建具有不同“特长”的智能机器人,加至群聊后即可进行智能交互问答,可以让用户结合员工培训、客户支持、社群运营等具体需求场景,基于自有知识库定制并持续训练“小模型”,大幅提升特定场景的交互效率和效果。
4) 在应用开发场景,斜杠“/”进一步打破了原来低代码式的应用开发模式,省去低代码时代的“拖拉拽”流程,让用户通过手绘表单后拍照或直接用一句话描述,即可生成目标轻应用,并支持继续通过自然语言交互完成修改,近乎做到“交互即所得”。
5) 在会议场景,斜杠“/”可扮演会议速记员角色,帮助用户精准高效地完成音视频内容的转写、检索、摘要和整理,甚至按章节划分、总结各方观点,生成会议重点和待办事项,使得两三小时的会议,3分钟即可看完,极大节省会议内容的“同步”时间。
钉钉持续高标准保障企业的应用兼容性、数字化安全,确保组织协同的高效、安全。