文章转载自量子位
2023年,估计没有比「AIGC」更热的话题了。
一款叫ChatGPT的聊天机器人程序在全网爆火,迭代速度更是呈指数级发展,由此引发了全球对于 AIGC技术及其话题的热议。此后,多个科技巨头持续加码布局,AI绘画、AI语音智能生成等AIGC产品集中发布,可以预见的是,数字内容产业的技术革命已近在眼前,未来内容领域的作业模式将进一步向“工业化”时代迈进。面对数字世界和物理世界加速融合带来的海量数字内容需求,AIGC作为一种新型的内容生产方式,将为内容生产领域带来巨大变革。
ChatGPT问答,图片来源于量子位
大有可为的数字内容产业
数字内容产业又称内容产业、信息内容产业、文化创意产业,该产业是信息技术与文化创意高度融合的产业形态,并非传统意义上的独立产业,而是由多个细分领域交叉融合而成的一个庞大产业集群。这些细分领域虽然边界模糊,领域之间存在交叉渗透,但其共同点都是以数字内容为核心,涵盖了文字、图片、声音、视频、可交互的图形图像等多种载体形式。综合来看,数字内容产业既是科技与文化融合的未来产业,也是接地气、聚人气的“温度”产业,还是生生不息、引领潮流的“新潮”产业,具有巨大的产业爆发力和社会影响力。
近年来,随着数字经济的蓬勃发展,以数字技术为载体的内容产业高速增长,创造出了巨大的经济社会价值,逐渐成为当今社会发展中的重要产业之一 。 据Research and Markets预测,2020—2024年,全球数字内容市场将增长5198.3亿美元(约35855.27亿元),其间年复合增长率达15%。同时,各行业数字内容消费需求的井喷式增长,推动了创作者经济的蓬勃发展,过去两年,超过1.65亿创作者加入了创作者经济,目前全球的创作者数量达到3.03亿,数字内容产业迎来巨大的市场空间。
供需鸿沟催生数字内容生产方式变革
随着数字经济与实体经济融合程度不断加深,人类对于数字内容总量和形式的要求不断提高,各行业衍生了海量数字内容需求,并且内容的形态着朝向三维化、交互化、沉浸式演进。
纵观整个数字内容生产方式的发展历程,内容消耗与供给的缺口是生产方式演进的直接动因。从Web1.0时代的PGC到Web2.0时代的UGC,当前,内容生产方式正朝向PGC、UGC、AIGC“人-机”协同生产进化。
根据公开资料绘制
Web1.0时代:PGC(专业生成内容)为主,以平台创造、平台所有为主要特征,内容质量高,但受制于专业人力资源的供给侧限制,创作门槛高、生产周期长、制作成本高、内容传播具有单向性,难以满足大规模内容需求。
Web2.0时代:UGC(用户生成内容)为主,虽然降低了生产成本及中心化程度,内容丰富性提升,在一定程度上解决PGC产能瓶颈,但内容质量难以保证,内容传播仍以单向性为主,优质内容存在巨大供需缺口。
Web3.0时代:PGC、UGC、AIGC“人-机”协同生产。在数字经济及元宇宙时代, PGC、UGC的生产方式难以满足井喷式的数字内容需求。同时,随着虚拟现实、增强现实、数字孪生等新形态内容生产及消费需求激增,传播转向双向互动,内容的创作门槛和成本显著增高。AIGC基于人工智能技术生成内容, 能够兼顾内容产能和质量,同时还可以定制风格,满足个性化需求,三种创作方式协同生产,有助于弥合优质数字内容供需鸿沟,打造新的数字内容生成和交互形态。
受内容需求牵引,当前,AIGC已经从概念走向现实,在文本生成、绘画生成、音乐生成等方面有大量应用问世。例如,在文本生成方面,Jasper 以“AI 文字生成”为主打产品,用户可以基于其轻松生成 Instagram 标题,完成编写 TikTok 视频脚本、广告营销文本、电子邮件内容等略复杂的重复性工作;在绘画生成方面,借助AI绘图工具Midjourney完成的《太空歌剧院》画作在美国科罗拉多州博览会艺术比赛中获得一等奖;在音乐生成方面,索尼计算机科学实验室(CSL)发布的AI辅助音乐制作应用程序Flow Machines Mobile,利用AI技术辅助音乐制作,能够根据创作者选择的风格提示旋律、和弦和贝斯线生成音乐。
由AI制图工具Midjourney生成的《太空歌剧院》,图片来源于网络
AIGC可生成内容的当下与未来
数字内容产业是最典型的技术密集、知识密集产业,也是一种劳动密集型产业。AIGC主要以技术嵌入工具软件的方式帮助数字内容产业大大提升生产效率,通过强大的AI生成能力广泛服务内容生产的各类场景和内容生产者,将在内容生产中产生变革性影响。
从市场规模来看,AIGC目前处于落地初期,但已经显现出巨大的市场发展潜力,未来将进一步释放其价值。据Gartner预测,在未来2-5年内,生成式AI将实现规模化应用;到2025年,AI生成数据占比将达到10%。此外,据红杉资本《Generative AI:A Creative New World》分析,AIGC有潜力产生数万亿美元的经济价值。
部分AIGC技术场景,图片来源于量子位
从内容模态来看,最初,AIGC可生成的内容形式以文字为主。但经过2022年指数级的发展增速,AIGC技术可生成的内容形式已经拓展到了包括文字、代码、图片、声音、视频等多种内容形式。但是结合产业实际,如AIGC想要在制造业、建筑业、医疗等巨型垂直实体领域中得到广泛应用,其生产的内容就不能仅停留在图片和文字领域,而是需要进入信息更为丰富的3D内容生产领域,多模态3D内容生产是大势所趋。例如,在医疗领域,3D内容能够清晰的展示出真实器官的内部复杂结构,帮助医生更直观、更深入地了解病灶与周围组织的空间位置关系,还可以根据需求进行交互操作,拆解展示组织、器官、肌肉或骨骼的细节,有效降低诊疗及人才培育的试错成本。
从发展阶段来看,红杉资本曾在2022年9月对 AIGC 做出了以下预测:文字类 AI 生成将在 2023 年进入黄金时期,图片类 AI 生成黄金时期将在 2025 年左右抵达,3D 和视频类 AI 生成在 2023 年可能正处于草稿阶段,进入黄金时期或许在 2030 年。不可否认,文字与图片的 AI 生成确实走在了前面,但 3D 数字内容生成作为未来趋势,也已经开始有厂商进行探索。
红杉资本预测,图片来源于网络
AIGC赋能3D内容生产创作
事实上3D内容以其独一无二的优势长期存在于数字内容世界,3D 视觉是人类的本能,3D数字内容所携带的光、影、材质、几何等多维度信息,能够带来远超2D内容的感官体验和交互体验,3D内容在展现事物结构、人机交互等多种领域表现极其出色,越是复杂多维的领域,它相较于其他形式的内容,就表现的越好,未来如果要生成可以精准表达设计的成果,需要向3D和更高信息维度去迈进。
尽管用户对于3D内容的需求从未改变,只是因其生产效率低下和展示终端的限制缘故,3D内容一直未能像2D内容那样被大规模应用。不是内容生产者不想使用3D内容,而是当下3D内容生产面临技术门槛高、生产周期长和成本高等问题,生产的质量和效率亟待提升。
随着数字经济的不断发展及技术的不断演进, 3D数字内容将迎来增长拐点。据头豹研究院数据显示,预计2025年VR内容市场规模将达到832.7亿元。根据调研机构MarketsandMarkets预测,预计2027年全球数字孪生市场规模将增长到735亿美元。未来5年,仅这两个关联市场的内容需求量就已十分惊人。急速上升的3D数字内容需求,唯有通过生产力的跃升才能得以满足,我们坚信AIGC将会为3D内容生产大规模解放生产力,而且未来也定会成为元宇宙内容基建的最好助手。接下来,AIGC需要重点攻破的就是视频与实时3D内容了。
3D AIGC的技术支撑是“AI”,生成的AIGC属于“内容与场景”,背后还需要“后端基建(算力)”、“底层架构(渲染引擎)”的支撑。
谁是3D AIGC技术领域的潜在新星?
技术的进步离不开业内企业的积极推动,一些优秀公司在这方面的探索已经悄然走在了世界前列,具备了很多的底层技术基础、场景基础和数据基础。
在算力方面,随着生成式AI应用创新周期的到来,以微软、谷歌为代表的科技巨头拉开了大模型训练的序幕,算力需求迎来确定性爆发增长。据业内人士分析,ChatGPT需要TB级的运算训练库,甚至是P-Flops级的算力。半导体行业资讯机构SemiAnalysis估算,以GPU衡量,ChatGPT训练需要约3617台英伟达HGX A100服务器,也就是28936块A100。不同形态内容智能生产中模型训练面临的任务复杂度有所不同,那么未来3D AIGC势必带来更高体量的算力需求。在2022年英伟达GTC大会上,黄仁勋多次提及“下一个时代的AI”,并且推出采用Hopper架构的新一代加速计算平台,同时发布了首款基于Hopper架构的的NVIDIA H100 Tensor Core GPU,展现出英伟达对于算力的领先布局。
NVIDIA H100 Tensor Core GPU,图片来源于英伟达官网
该GPU结合 NVIDIA® NVLink® Switch 系统,可连接多达 256 个 H100 来加速百亿亿级 (Exascale) 工作负载,另外可通过专用的 Transformer 引擎来处理万亿参数语言模型,进一步拉大了与追赶者的差距。此外,英伟达已经推出了AI云服务产品,允许客户在云端访问其DGX AI超级计算机。从其商业动作来看,英伟达全面聚焦AI算力产业革命, 从2016年前后的GPU并行计算架构,到如今完成硬件、软件、平台、应用层的全面部署,英伟达押注AI多年获得丰厚回报,其市值在2023年初两个月内增长超过 2100 亿美元。随着3D AIGC的发展,其市场潜力将得到进一步释放。
NVIDIA H100 Tensor Core GPU性能跃升,图片来源于英伟达官网
除算力外,渲染引擎也是支撑3D AIGC发展的关键技术。数字内容生产软件是图形、图像、交互等领域复杂知识的代码化沉淀,其底层算法引擎技术积累需要非常长的时间,这是一个进入壁垒很高、对开发周期、资金要求很高的高科技赛道,不仅开发难,验证和跑通也很难,只是做一个 Demo,并不能证明一款引擎的能力和通用特性,需要经过很长时间的验证和算法优化。
值得一提的是,国内一家名为艾迪普的公司,在这方面已经拥有了深厚的技术储备,并且已经开始在3D AIGC领域进行深度布局,持续围绕实时三维图形图像领域进行AI技术研发和探索。
目前,艾迪普已经研发出完全自主知识产权的实时三维图形图像引擎、数字内容生产全链路工具集和3D数字资产云平台,能够很好的满足从三维设计、快编包装、虚拟合成、实时交互到可视化呈现的数字内容多样化的制作需求,可以广泛的应用于虚拟现实、增强现实、虚拟仿真、数字孪生、大数据可视化等领域。
图片来源于《2023·爱分析元宇宙厂商全景报告》
艾迪普通过将自研引擎的核心能力进行封装,针对不同行业领域、应用场景及应用开发需求,抽取了2000+算法模组,这些基础功能的算法模组,可以结合不同行业客户的业务应用场景,像“搭积木”一样高效组合成更多的AI应用,实现智能化的数字内容生产 。据悉,其已经在旗下自研的数字内容生产工具中引入AIGC技术,实现了AI数字人融合、天气预报视频智能生成、2D转3D、音乐卡点等功能,并通过无代码编程方式快速创作出交互式的3D内容,这将大大推动3D内容生产朝着更高效和更富创造力的方向发展。
数字人视频:其推出的iClip实时三维图形快编包装工具基于深度学习、自然语言处理、计算机图形学、语音合成、图像合成、肢体动作合成等技术,能够快速生成形象逼真、能说会动的3D数字人创意短视频。同时,通过3D数字人与数字场景、三维模型、图文动画、动态特效进行深度融合,能够极大增强数字人在不同应用场景中对客户进行内容、产品的服务能力,适配资讯播报、电商带货、赛事解说、泛知识讲解等多元场景应用需求。
气象播报视频:其研发的气象短视频生成工具作则能够实时接入外部天气数据,结合数字人形象,用户只需通过简单技术指令,即可一键自动生成不同城市、不同天气状况、不同虚拟场景、不同AR前景、不同数字人角色的3D气象高质量播报视频,可以大幅降低新形态播报内容的制作周期和成本。
气象播报视频,图片来源于艾迪普公开信息
2D转3D:传统的3D模型制作需要经过原画、建模、UV拆分、烘焙贴图、绘制材质、渲染等多个环节,艾迪普的iArtist实时三维可视化创作工具基于智能算法,在2D图像输入时自动进行深度预估和几何捕捉,实现 2D 平面内容到 3D 立体模型的实时智能化生成,模型生成后,创作者可以根据需求,在工具中对模型进行自由编辑和精细调整,能够极大减少建模所需时间。
2D转3D功能演示,图片来源于艾迪普公开信息
音乐卡点:艾迪普的iClip实时三维图形快编包装工具,还可以基于算法构建音乐分析模型,通过波形分析自动标记音频节奏点。未来,该功能有望基于多模态训练框架,结合数字图形资产云平台,实现音频、图片、视频之间的跨模态内容检索、精确匹配和自动生成,大幅提高视频创作效率。
结语
社会又一次来到了新的发展节点,转型窗口期已经悄然开启。每一轮产业和技术升级,必定会出现一系列全新的“现象级应用”。虽然目前AIGC还处于发展初期,但随着人工智能技术的持续发展,数字内容生产力将进一步得到释放,融合文字、图片、音频、视频、虚拟场景、3D模型等多模态的数字内容生产终将成为现实,我们的工作与生活场景,也将迎来颠覆性的改变,我们共同期待这一天的早日到来。