ChatGPT火爆全球,打开AIGC想象空间。
来源|36氪研究院(ID:kr_research)
封面来源|视觉中国
(ChinaIT.com讯)2022年11月,智能对话机器人模型ChatGPT上线,用户可与该AI系统就日常生活,或协助写代码、文案创作、解决具体难题等相对复杂领域进行持续聊天,其回答有序且专业。ChatGPT的连续对话能力、强大的理解力、回答的准确度和创造性使其迅速走红。World Of Engineering数据显示,ChatGPT发布短短两个月时间,用户数便突破1亿。具体而言,ChatGPT能理解并生成文字,属于AIGC(AI-Generated Content,人工智能生产内容)技术应用中的文本生成模态应用模型。
发展环境
技术端:新技术驱动AIGC生成的内容质量提升,实用性不断增强
ChatGPT等AIGC模型的爆发式突破得益于生成算法、预训练模型、多模态技术等关键技术的落地。
生成算法模型。目前常用的算法模型包括生成式对抗网络(GAN)和Diffusion Model等。GAN是一种传统式深度学习模型,包含抓取数据、生成新数据的生成模型和判断数据是否真实的判别模型,主要用于图片和视频应用场景,但存在训练不稳定、样本重复和模型需根据需求压缩等问题。而深度学习模型Diffusion Model(扩散模型)则在2022年实现技术突破,其图像生成逻辑较其他模型更接近人的思维模式,生成内容更具有开放性、创造性、效率性,且图像质量更高。
预训练模型。预训练大模型的发展是近年来AIGC的使用门槛、成本降低、生成内容和质量提升的主要原因之一。ChatGPT即采用生成式预训练语言模型,使用大量参数和数据训练,并引入RLHF新技术(Reinforcement Learning with Human
Feedback,基于人类反馈的强化学习),提高内容产生质量和效率,帮助该系统达到与人类价值观、常识和需求相一致的效果。
多模态技术。多模态技术让AIGC可应用的广度不断扩展,可跨文字、图像、音频、视频等多种类型数据进行关联,提高内容生产能力。
需求端:内容需求呈指数上升,AIGC将成为未来内容生成主力
随着数字经济乃至元宇宙的快速发展,人们的内容需求不断多样化、个性化,从PGC到UGC,但现有内容生成方式受限于人们的创造力和知识储备量,已难以满足井喷式数字内容需求。ChatGPT等AIGC内容生成方式通过学习人类的思考方式,查阅、挖掘大量素材,以低边际成本、少人力限制等高效率的方式生成大量满足人们差异化需求的内容。
发展现状
应用场景:涵盖多个自然语言交互领域,应用前景广泛
文本生成。以ChatGPT为例,ChatGPT可与用户进行文字对话交互,也可生成各类文字,实用性较高,应用场景较为广泛。(1)聊天机器人。ChatGPT语言理解能力较强,可以针对用户问题,结合自身储存的行业知识,构建自动回复体系,为用户提供快速回答,基本可满足个性化提问需求,可被应用于专业客服、游戏NPC、虚拟人等领域。(2)搜索引擎。与传统搜索引擎“搜索框”不同,ChatGPT将其转化为“对话式”搜索。用户提出问题后,ChatGPT直接向用户提供完整语句答复,免去用户反复查找并点击跳转链接的麻烦,将对现有搜索行业竞争格局造成影响,业内主要搜索软件厂商百度、Google、微软等均开始布局ChatGPT类产品。近日,微软推出集成了ChatGPT的新版 Bing搜索引擎和Edg浏览器,新版Bing以聊天形式直接回复用户搜索结果,并支持多轮对话。(3)智能创作。ChatGPT具备文本等内容创作能力,可用于小说、新闻、专业学术写作、小说和新闻等摘要生成、采访助手等。(4)编程机器人。ChatGPT拥有编程相关知识,并有能力根据用户需求编写代码或查找bug,可作为辅助工具大幅提升用户编程效率和质量。
随着ChatGPT在以上领域的深度应用,尽管部分舆论认为客服、记者、编剧、程序员、金融分析师等职位将受到一定程度的冲击,但ChatGPT仅能根据已有的数据库进行内容创作,难以超越人类自身的创造性和智慧,未来将更多以辅助性工具的形式存在,帮助人们高效完成部分重复性强、规则性高的任务。
音频生成。音频生成除适用于有声读物制作、文字语音播报、语音客服和内容配音等音频的基础编辑制作外,也开始涉足医疗、辅助设计等行业,如可帮助无法说话的病人通过虚拟人开口。
图像生成。图像生成可分为生成图像、图像属性编辑、部分编辑和图像端到端生成。随着元宇宙的逐步落地,虚拟人物、场景的建设需求激增,AIGC将帮助进行图像建模,大幅提升制作效率并降低成本。除商业价值外,AIGC也可在文物修复等领域创造社会价值,如百度曾借助AIGC修复《富春山居图》。
随着AIGC应用场景的拓展,叠加国内外科技巨头纷纷推出相关产品,如谷歌将推出“ChatGPT竞品”Bard,百度也将推出类ChatGPT产品——文心一言,并将于三月份完成内测并对公众开放,拓展了AIGC的商业化想象空间。Acumen Research and Consulting 预测,2030年,AIGC行业相关市场规模将达到1,100亿美元。
此外,AIGC的快速发展将催生巨大的高性能网络、芯片、训练数据存储和数据传输市场。AIGC的持续商业化落地离不开算力与数据支撑。在算力侧,微软数据显示,GPT-3.5在微软Azure AI超算基础设施上消耗的总算力需7—8个30亿投资规模的数据中心支持运行;2月7日-9日,ChatGPT官网多次出现因为满负荷而无法进入的问题,训练AI所需算力呈指数级增长,AI芯片、高性能网络等基础设施作为算力底座,升级需求愈发明确。在数据侧,ChatGPT等AIGC模型依靠大规模数据进行训练,并将产生海量数据,由此产生快速增长的数据传输需求。
投融资情况:行业投融资热度持续提升,融资轮次多处于早期
CB Insights数据显示,近几年,全球AIGC行业整体投融资事件数和金额呈快速上升趋势,2019年融资金额激增是由于微软投资 OpenAI 10亿美元,这说明行业处于二八分化状态,业内顶尖企业获得大部分融资。此外,就融资轮次来说,超一半初创企业的融资进度在A轮或天使轮,行业仍处于发展初期。
发展局限:受限于技术能力上限,AIGC现仍存在一定缺陷并面临着发展瓶颈
一方面,目前实用性较强的ChatGPT也面临着因技术能力有限,给出答案准确性仍需提高,且重复性和对语料库的依赖度较高等问题。答案准确性不高、无意义的主要原因包括:(1)在强化学习过程中,没找到可使用的数据;(2)训练模型谨慎度提升,可能拒绝本可正确回答的问题;(3)监督训练中行为克隆对模型产生误导,导致信息失真。同时,训练数据的偏差和过度修正会导致ChatGPT过度使用某些短语,使答案过度冗长。此外,仅依赖大规模离线语料进行训练,无法像人类一样基于现有信息进行判断推测,导致ChatGPT算力、训练成本偏高,实时性不够及智能程度不足。
另一方面,AIGC无法避免学习到存有偏见或不道德的答案,也无法明确用户使用目的,人工智能安全和伦理性问题依然存在。例如,学生使用ChatGPT完成考试是否为作弊、ChatGPT生成内容的著作权归属及用于训练算法模型的数据是否侵犯他人版权等问题尚未有统一定论。
发展展望
关键技术提升,催生更多应用场景与行业新业态
当前,部分行业顶尖的AIGC公司已进行商业化落地,但应用场景、行业相对较窄,内容生产效率仍有待提高,主要原因是整体技术仍处在快速成长中。随着关键技术与基础理论不断突破,大算力、大数据、大模型将成为未来重点发展方向,带动自然语言处理、翻译模型、生成算法和数据集等细分要素持续提升,推动产出的内容细节、类型更丰富、质量更高。以ChatGPT为例,其新一代模型GPT-4预计将于今年发布。GPT-4的训练数据量、token数、模型参数量将有所提升,从而提高模型规模,降低训练成本和使用门槛的同时,有望完全通过图灵测试(如通过则认为具有人类智能),达到人类智慧水平,这意味着ChatGPT将被更多地应用在心理咨询、情感陪伴等需人类感情的场景和金融、医学等专业行业中。
来源:36氪