当前位置:首页|资讯|AIGC|AI聊天机器人

开启新航路,拓尔思发力AIGC市场 | 爱分析调研

作者:爱分析ifenxi发布时间:2023-03-21

原标题:开启新航路,拓尔思发力AIGC市场 | 爱分析调研

2022年,随着AI聊天机器人GhatGPT在世界范围内持续火爆,极具创意、表现力、个性化且能快速迭代的AIGC技术成功破圈,成为全民讨论热点。

AIGC是指在确定主题下,由算法模型自动生成内容,包括单模态内容如文本、图像、音频、视频以及内容的跨模态生成,如文本生成图片、文本生成视频等。

AIGC应用市场空间充满想象,多家机构对AIGC市场规模予以乐观估测。如Gartner预计,到2025年,生成式人工智能将占所有生成数据的10%,而目前由人工智能生成的数据占所有数据的1%不到。又如中国银河证券测算,2025年中国AIGC市场规模有望达到1600亿元。

与AIGC潜在市场空间形成对比的是,当前AIGC的商业化应用仍处于探索阶段,大量“空白”市场尚待开发。在AIGC的技术栈中,基于NLP的文本生成是发展最早的技术之一,也是最早实现商业价值的技术,目前已在机器写作、新闻报道、对话机器人等应用场景中实现商业落地,而其他诸如图片类、3D和视频类AI生成技术尚不成熟。AIGC是大势所趋,众多AI公司纷纷布局AIGC市场,通过研发、推出AIGC产品和服务跑马圈地,寻求新一轮发展机遇。

01 拓尔思基于三十年累积优势,全面深耕AIGC

拓尔思:高质量大模型和AI工程化能力是AIGC落地的必备条件

在众多AIGC典型企业中,拓尔思是极具代表性的一家企业。拓尔思成立于1993年,围绕语义智能的发展主线,自主研发相关人工智能和大数据技术,以平台和行业应用产品、云和数据服务相结合的“产品+服务”战略,赋能中高端企业级客户的数字化和智慧化转型,核心业务涵盖大数据、人工智能、内容管理、网络安全和数字营销等领域。

拓尔思在AIGC领域已有长期积累。早在2011年上市时,拓尔思就以“非结构化信息智能处理”概念表达自身定位。之后于2018年,拓尔思将NLP、知识图谱和图像音视频内容理解统一归属到“语义智能”大主题下,将语义智能作为战略新定位,并在AIGC相关领域如机器写作、对话式AI、内容人机协同和自动报告生成等应用场景打造出众多优秀实践案例。

在长期的AIGC落地实践中,拓尔思基于客户视角观察到,AIGC的落地需要具备两个条件:高质量的行业大模型和AI工程化能力。

图1:AIGC应用落地关键示意图

1)高质量的行业大模型

通用大模型虽然具有良好的泛化能力,但行业适配性有待提升。一方面,信息壁垒是通用大模型在垂直领域应用的阻碍。通用大模型的知识覆盖面虽广但浅,尤其在金融、政府、媒体等数据开放度低、知识获取壁垒高的行业,由于行业数据有限,通用大模型尚不具备对专业业务场景的理解能力。另一方面,当前通用大模型的推理主要是基于对语义的整合,在创新、洞察、深度等内容输出方面能力较弱。更具深度的人工智能指向具体的业务场景,也需要通过垂直行业数据训练实现。

进一步,对通用大模型用行业数据训练后生成的行业大模型,虽然具备对业务场景的理解能力,但在推理性能、推理结果的可控性上仍具有较强的不确定性,可能出现诸如难以理解人类指令、每次的推理结果并不唯一确定、生成的内容不合规等状况,模型推理质量难以适用于对系统输出结果的安全性、及时性、准确性等方面有严格要求的商业场景。

大模型商业化落地的基本条件是具备能精准适配下游场景任务,且保证结果高效、可控、合规的“高质量”行业大模型。一个“高质量”的行业大模型需要对通用大模型用行业数据进一步训练生成行业大模型,并对行业大模型调优实现。这其中,对通用大模型“再训练”、“调优”形成高质量行业大模型的两个动作,也决定了厂商必备的两大能力:丰富的行业数据积累和大模型调优能力。

其中,行业数据是指诸如金融、媒体、政务、医疗等特定领域的公开、非公开的知识、经验、数据。丰富的行业数据能快速提升行业大模型学习能力,并不断拉开与后来者之间的差距,为厂商带来先发优势。

大模型调优能力是指通过Fine-tuning、Prompt-tuning、Instruction-tuning、In-context Learning、奖励模型等多种手段使大模型的输出结果高效、可控、合规。只有具备大模型调优能力的厂商才能适应并满足客户多样化需求。

2)AI工程化能力

在Gartner看来,AI工程化是AI大规模发展的必经之路。虽然任何行业或企业,只要有场景、数据和算力,都可以落地AI应用,但落地效率、周期会远超预期。

这是因为AI应用在企业的落地涉及需求分析、数据准备、模型设计、模型训练、模型部署等多个环节。以数据准备环节为例,涉及多平台的数据采集、数据治理、数据标注、数据挖掘等多项工作;模型部署环节需要综合考量与企业软硬件系统的兼容和模型运行效果。若不考虑AI工程化,完整的模型开发周期将长达几个月到一年,难以敏捷适应业务的快速变化。

AI工程化能提供AI应用开发的系列方法、工具和实践集合,形成快速测试、构建和部署AI应用开发流水线,加速AI应用落地过程,实现模型自动重新训练和部署。

从大模型落地进程来看,“高质量”的行业大模型只解决了大模型“可用”的问题,若想AI成为企业的生产力,还需要解决大模型“落地”的工程化问题。因此,大模型“落地”对厂商的要求为,需要具备实现一站式端到端行业大模型训练、部署、上线全过程的AI工程化能力。

具体地,AI工程化能力涉及两个方面:1)通过分布式训练提升计算效率,解决大模型大体量参数、复杂网络结构带来的内存、通讯以及计算瓶颈;2)实现模型开发过程的持续生产、持续交付和持续部署。一方面,需要将定制化解决方案经验沉淀形成标准化产品,实现产品与服务的规模化,加速商业化落地效率;另一方面,也需要完善AI开发生命周期的工具、固化开发流程,提高模型开发全流程的紧耦合度,提升大模型训练效率。

拓尔思三十年累积优势:海量行业数据资产、模型调优经验和AI工程化能力

拓尔思自成立至今30年的时间中,在语义智能领域的长期实践中已经累积形成布局AIGC市场的三大优势:海量数据资产、模型可控和AI工程化能力,这为拓尔思发力AIGC市场积蓄起强大势能。

  • 海量数据资产:拓尔思于2010年自建大数据中心,至今已经积累了千亿级数据总量,并以日均亿级互联网数据的速度持续增加。其中包含境内外的超1300亿条公开类资源性数据资产,涵盖新闻、资讯、政策、视频、图片、百科、社交等多模态,数据总量达100TB以上;超100亿条主题类资源性数据资产,包括工业、货币与信贷、工业企业运行等宏观数据,产业政策、行业会议、产品信息、研究报告等中观数据,以及工商数据、经营数据、知识产权等微观数据;超30个专业领域的知识资产,如语义分析知识库、专利知识库、媒体知识库、金融知识库等;以及覆盖媒体服务、舆情服务、金融风控、产业投研、金融监管、智能消保、开源情报、政务应用等8大业务场景的3万+标签数据。

拓尔思形成了一套完整的数据和知识工程治理体系。以上数据资源基于拓尔思自研的数据底座经过采集、清洗、转换、分类、打标等流程完成基础数据治理后,被推送到媒体资讯、网络舆情、产业大脑三大数据资产平台中,再经过与不同行业知识模型融合处理,被加工成数据资产进入到数据流通与交易环节。这些数据资产可用作大模型的训练语料,具备高质量、高价值的特点,有利于提升大模型的专业性与精准度。

也正是基于以上海量的专业领域数据资产以及数据和知识工程治理体系,拓尔思已经具备350余个专业领域深度学习算法模型,包括NLP通用模型和专业领域模型,如风控征信模型、公共安全模型、指数模型等,在AIGC商业落地上已经具备丰富的经验。

  • 大模型调优经验:拓尔思充分利用过往在NLP领域的工程技术积累,能基于行业场景任务对大模型进行校对和优化,使大模型高效适配行业场景,模型推理效果满足客户需求。
  • AI工程化能力:自成立以来的30年间,拓尔思丰富的行业大模型、机器模型的应用实践,已经覆盖政务、媒体、公共安全、知识产权等领域的多种场景,并积累了丰富的AI工程经验,不仅能搭建分布式训练架构,提高大模型训练速度,还具备涵盖数据标注、模型设计、模型训练、模型优化、模型评估、模型部署等一站式AI工程化落地工具和服务能力,有助于实现专业大模型贴合用户场景快速落地。

AIGC生态可分为通用大模型、行业大模型和智能应用三层。以上优势落到AIGC生态中,使得拓尔思具备打通行业大模型和智能应用的研发能力,以及为客户提供AIGC产品、服务和解决方案的能力。因此,拓尔思在AIGC的定位为深扎AIGC文本领域,提供自行业大模型到上层应用的一体化服务。其中,对于底层的通用大模型,拓尔思将通过生态合作的方式获取,对于中间层具备行业知识壁垒的行业大模型以及上层的智能应用则由拓尔思自主研发实现。

图2:拓尔思在AIGC生态的定位示意图

02 拓尔思“智创”AIGC平台,为客户提供内容生成底层能力和行业解决方案

也正是基于拓尔思在数据资产、模型可控性、AI工程化等能力上的优势,拓尔思已经着手研发“智创”AIGC平台,为客户提供AIGC产品、服务和解决方案做准备。

“智创”是一款专注文字生成类的内容自动生产平台,以拓尔思长期积累的自然语言处理技术和人工智能平台产品为基础,融合开源大模型,专注于辅助型、应用型、创作型等文本内容的自动生成。

图3:拓尔思“智创”AIGC平台架构图

“智创”的系统架构分为模型层、能力层、功能层和服务层四层。底层的模型层以拓尔思“智拓”人工智能平台为主,平台上积累了拓尔思30年来在不同领域不同场景下沉淀的文本和视觉模型资产,包括开源模型、自研模型。如文本模型中包括BERT模型、TS模型、BART模型、GLM模型等等。

能力层分为两个板块,“智语”和“智眼”。其中“智语”主要进行自然语言处理,具有智能增强、智能转译、语义理解等能力;“智眼”基于机器视觉对图像、视频进行处理,提供智能识别、基于模仿创作、基于概念创作等能力。

功能层是对场景的进一步细化,如在文本领域包括文本续写、文本摘要、文案生成、诗歌创作、情感改写等;在视觉领域,提供风格改写、图文生成、图文协同、关键词创作等。

服务层是拓尔思在不同领域的落地,如媒体领域的文案生成、辅助创作,政府领域的公文写作,金融领域的报告生成等,是落地的行业解决方案。

在客户侧,“智创”平台提供多种服务模式。如针对服务层的客户提供打包的解决方案,针对功能层的客户可通过API接口调用的方式集成,支持云平台调用和私有化部署。

03 拓尔思正实现丰富的AIGC应用场景落地

拓尔思AIGC技术核心围绕辅助性、创作型文本内容展开,在“智创”平台的加持下,已在政务、媒体、金融、元宇宙等多个领域的多样化场景中实现落地。

政务:结构化公文写作的辅助创作

在政务领域,拓尔思的机器写作可辅助公务人员提高公文写作效率。在公文写作中,部分诸如业务数据、单位名称、相关政策、份号、发文字号、发文机关等要素相对固化的内容,业务人员在写作时,仍需要查阅历史发文、政策法规、业务数据和关联机构等素材,而这些素材分散在各个系统中,查找起来费时费力。针对公文写作中常规固化的内容,拓尔思机器写作可基于过往的公文样例、模板进行自动生成,而对于公文中营商环境、政府意识等个性化内容,再由业务人员创作完成。

此外,拓尔思也将持续落地政务领域的政民互动服务、政务新媒体的创新应用、政策大脑的摘要/数据解读等应用场景。

媒体:知识型搜索引擎

在媒体领域,拓尔思通过知识型搜索引擎提高编辑人员写作效率。对于媒体领域的编辑、记者来说,一篇好文章是需要通过深入调研、持续求证才能获得的,而媒体自身的新闻数据库和历史资料库就是其中可求证的重要途径之一。实际工作中,由于一个主题的内容可能分布在不同系统,且以文字、语音、视频等不同的内容形式呈现,资料收集过程需要耗费大量时间。拓尔思可基于自身的NLP搜索能力与媒体合作,将媒体的新闻数据库和历史资料录入大模型做预训练,基于高针对性交互,形成权威且高效的内容输出,打造供媒体内部使用的知识型搜索引擎。知识搜索引擎可实现对媒体资料库的高维搜索,承担采访助手、辅助创作的角色。如针对历届两会中的教育内容,知识搜索引擎可自动整理相关内容给予完整呈现,为编辑人员提供充分的信息输入。

除知识搜索引擎外,在媒体领域,拓尔思还将持续关注机器人写稿、基于媒体大数据的自动报告生成(如热点舆情报告、传播力报告和榜单生成等)、多模态的自动配图(基于文本的图片、视频生成)等方向,丰富媒体创作工具。

元宇宙:聚焦数字人的智能问答和内容播报功能

在元宇宙方面,拓尔思基于语音语义识别、自图谱构建到运营的全链路知识图谱能力及丰富行业经验,让数字人具备知识储备、语义理解、推理分析、自主决策和交互表达能力,聚焦智能问答、内容播报两大方向,在各领域扮演具有专业知识的多种角色,如智能客服、合同智能审批、智能问答、直播带货等。

金融:研报摘要自动生成

拓尔思将深耕金融领域的自动报告生成(企业报告、产业报告等)、证券研报的智能解读和摘要生成、上市公司的信息检索等细分场景。

04 顺应AIGC发展大势,拓尔思锚定文本生成领域,行稳致远

2023年AIGC的火爆仅是AIGC市场飞速发展的开端,未来人们将见证层出不穷的AIGC技术和应用创新。单以内容生成这一视角切入,未来AIGC将迎来纵向质量和横向多模态的巨大飞跃。

纵向来看,基于AIGC技术的内容生成质量将持续迭代。当前落地形式以机器辅助生成为主,未来的商业化将以机器全自动生成为主,向更智能、生成质量更高、更有创作性的方向持续优化。

横向来看,不同于当前以文本、语音、视频等单模态生成内容为主,未来AIGC内容将以融合文本、语音、视频等多模态内容生成为主,跨模态内容生成更普遍。

图4:AIGC内容演进示意图

拓尔思将瞄准AIGC领域发展趋势,前瞻性地开展业务布局。一方面,在内容质量上,拓尔思基于通用AIGC大模型,全力投入行业大模型的研发。以预训练大模型、In-Context Learning、Instruction-tuning等技术为基础,重点研发大模型与外部知识库的融合、小样本学习、交互式生成等功能,提升行业大模型对专业场景的适配性,实现机器全自动生成能力。另一方面,在内容模态呈现上,拓尔思在聚焦文本模型的基础上,将持续拓展视觉模型,在跨模态内容生成方面持续发力。

AIGC将成为拓尔思“大展拳脚”、开拓发展新航路的新起点。拓尔思将锚定文本生成领域自行业大模型到上层应用的一体化服务,为B端G端客户提供高质量服务,持续探索C端市场,完善NLP商业生态,与行业知识专家、平台型企业、行业头部企业等各方参与者一起驰骋广阔的蓝海市场。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1