ChatGPT的问世,迅速获得了社会各界的关注。
ChatGPT实际上是一种基于自然语言处理(别称:“NLP”)模型—GPT开发的“对话式机器人”。凭借着高质量的文本理解和创作能力,ChatGPT的诞生标志着NLP进入一个新的纪元。
这一技术的爆棚也带火了NLP相关的就业岗位。
根据智联招聘、BOSS直聘等网站的数据,目前相关招聘岗位以NLP算法工程师等为主,而雇主基本都是互联网大厂,月薪在2万元到9万元之间,年薪百万的岗位也不在少数。
△某招聘网站相关在招岗位截图
作为当下高薪的“神仙”职业,NLP行业背后的故事也同样值得关注。
其实,NLP行业的发展历史已有70多年,过去70多年间,从简单的规则理解到构建类似“人脑”的神经网络,NLP已具备了像人脑一样理解自然语言的能力。
作为人工智能最为关键的核心技术之一,NLP正处于深度学习的NLP3.0关键阶段。
随着2022年ChatGPT的出现,彻底打响了NLP的名声,行业需求景气度飙涨。在这热火朝天的赛道中,中国玩家的身影也必不可少,百度、腾讯等国内互联网公司相继入局NLP产品研发。
不过,也有不少企业打着ChatGPT的旗号,高调宣称布局相关赛道,并且大肆招人,不免令人怀疑,在实质收益还没出现之前,究竟是“蹭流量”还是“硬实力”?
本文,头豹研究院将聚焦于中国NLP行业的发展现状,从产业链分析、应用场景及落地案例等分析维度,挖掘出中国NLP行业投资机遇与代表企业。
自然语言处理(NLP)技术是计算机理解和生成自然语言的过程,使计算机具有识别、分析、理解、加工和生成自然语言文本的能力,实现人机间的信息交流,是人工智能最为关键的核心技术之一。
ChatGPT是在GPT3.5大模型语言模型的基础上,加入“基于人类反馈的强化学习”来不断微调预训练语言模型,使得 ChatGPT学会理解用户输入的不同类型的指令,并通过多重标准(例如是否富含信息、内容丰富程度、是否对用户有帮助、无害、不包含歧视信息等标准)合理判断其生成和输出的内容是否为优质信息。
ChatGPT相较于传统NLP模型,不需要任何额外的训练就能在多种不同的领域中应用并快速输出高质量的文本。
● 中国NLP技术的专利布局呈现先平稳增长后爆发式增长的趋势
2015年之前中国NLP年度专利布局缓慢增长,由2011年1,207项增长至2,565项,年均复合增长率为20.74%。2015年后,在数据量上涨,芯片算力提升和深度学习算法更新迭代等因素的驱动下,NLP技术得以高速发展,推动中国NLP专利布局呈现指数级增长态势,B端NLP专利布局高度活跃。
● 百度以2019项的成绩占据NLP技术累计专利申请量的榜首
从中国NLP主要创新主体的专利申请量来看,截至2021年百度NLP技术专利申请量为2019项,位于业内榜首,由此表明百度在NLP技术领域具有领先的技术研发创新和专利布局战略优势;腾讯集团以1,336项的申请量位居第二,具有深厚的NLP技术基础。在科研院所中,浙江大学、清华大学、中科院所名列前茅,由此表明中国高校和科研机构的NLP技术创新活跃度较高。
过去5年,随着数据规模的不断扩大以及NLP技术的持续积累与突破,中国NLP行业市场规模呈现迅速增长态势,于2021年达到181.3亿元,CAGR为87.4%。
随着人工智能技术的不断融合与提升以及高度智能化机器人ChatGPT的问世,NLP技术的应用边界不断拓宽至营销、客服、智能问答、虚拟人、人机交互等领域,新兴技术将逐渐替代传统软件和应用市场,预计未来中国NLP行业市场规模将维持快速增长趋势,于2026年达到800亿元以上,CAGR为35.7%。
中国自然语言处理产业链上游主要为数据服务商、硬件设施厂商和云服务厂商,中游厂商可分为IT互联网企业、AI技术型企业和AI创业型企业三类,下游主要为应用场景,覆盖金融、零售、政务等多个行业。
NLP产业链上游的主要基础设施包括数据服务、AI芯片、云服务以及算法开源框架等,其中AI芯片和算法框架领域主要由海外厂商主导。
数据服务:数据采集、数据标注、数据评测等数据服务为自然语言理解、自然语言生成的算法和模型训练提供高质量的文本语料基础;
云服务:云服务为自然语言处理B端用户提供云平台,解决NLP平台用户的数据存储、运算以及调用问题;
AI芯片:AI芯片为NLP应用算法提供高性能算力服务,包括承载云端训练和云端推理以及终端训练和终端推理等任务,通用型芯片CPU、GPU几乎被美国厂商Intel、Nvidia所垄断,中国AI科技厂商正加速研发ASIC芯片以降低芯片对外依赖程度,如寒武纪发布NPU芯片;
NLP算法模型:算法模型决定了NLP应用的智能化水平,随着NLP算法模型的不断更新迭代,尤其是ChatGPT模型的问世,NLP加速向更多行业及应用场景渗透。
NLP技术赋予虚拟数字人像人一样的智慧能力,助力虚拟数字人在影视传媒、金融等行业塑造不同的专业形象。
NLP技术在虚拟数字人领域起到核心作用,通过积累各场景行业术语及知识语料,赋予虚拟数字人语义理解、推理分析、情感分析、自主决策和交互问答等智慧能力。
按照业务实现的不同,可塑造虚拟客服、虚拟专家、虚拟主播和虚拟偶像等人物形象,可在影视传媒、金融、医疗、游戏、教育等众多领域落地应用,助力实现人物形象及人设定制化塑造、以及解决人力资源短缺等痛点。
当前虚拟数字人行业处于快速发展阶段,落地应用与日俱增,行业规模高速增长,将推动NLP市场进一步增长。
● 多模态语言处理加速融合
深度学习神经网络的引进使得语言模态、文字模态、图像模态和视频模态的编码和解码可在同一个深度学习框架下统一运行。不同模态的对象可被同一模式编码与解码,同一模式的编码与解码即可使不同模态对象随意融合,各种语言分析的结果可与语音分析、图像分析结果结合应用,产生更多的产品应用模式。未来NLP技术必将与语音处理技术、图像处理技术等人工智能技术加速融合,赋予AI高度智能。
● 智能创作向高度智能化迈进
2022年AIGC概念和ChatGPT的横空出世,标志着智能创作在文字领域已进入了一个新的纪元。ChatGPT可根据用户输入的自然言语指令自动创作新的文本内容,其高质量的生产内容甚至可媲美专家级水平。百度推出的人工智能写作辅助平台“创作大脑”,其语义智能纠错功能识别准确率超95%,能为人类作者提供良好的纠错,提取信息等辅助写作服务。随着数据规模日益庞大及算法模型的不断进步,NLP模型亦呈现高度智能化的发展趋势。
● NLP数据服务将进入高质量发展阶段
NLP技术落地应用的智能化程度很大程度上依赖于上游数据语料的质量,只有被标注过的数据,AI算法才能够在此基础上进行训练和学习。同时,数据标注的质量越高,AI学习和产出的结果越精确,AI也就显得越智能。当前中国数据标注行业仅处于发展初期,大多数NLP标注数据仅能够将客服机器人训练到初级认知水平,若要想更高级的认知智能进一步发展,则需要质量更高、针对特定需求提供的NLP标注数据。对于头部企业而言,为了保持自身的竞争优势,追求高质量、符合自身业务需求的NLP标注数据将成为刚性需求。
*本文参考报告:《2023年中国自然语言理解行业概览:人与机器语言交互的核心技术》,首发于头豹科创网。
本文来自微信公众号“头豹”(ID:leadleopard),作者:头豹,36氪经授权发布。