当前位置:首页|资讯|AIGC|生成式AI

AIGC复刻《极乐净土》名场面,可控生成式AI或将颠覆视频创作行业

作者:智境云创发布时间:2024-01-10

原标题:AIGC复刻《极乐净土》名场面,可控生成式AI或将颠覆视频创作行业

近日,《浪姐4》高调开播,与之前不同的是,芒果台这次大手笔,准备走国际化, 放眼望去尽是俄罗斯、美国、日本、韩国、德国、越南姐姐齐聚一堂争奇斗艳,缔造了同期综艺节目的天花板。不过本季浪姐的流量剧本似乎未按照预期上演,在国内“几乎无知名度”的二次元美女美依礼芽(MARiA),凭借一首《极乐净土》人气迅速上升,断崖甩开其他选手,直接霸榜第一,打翻了本季浪姐剧本。

美依礼芽《极乐净土》

AIGC版《极乐净土》点燃B站

美依礼芽和《极乐净土》究竟是何来头?早在7年前《极乐净土》就曾以其入耳的旋律、律动感强烈的舞步血洗B站,吸引了一大批二次元粉丝,成为B站镇站歌曲,如今时隔7年后,《极乐净土》再度翻红出圈,点燃了B站网友们的二创热情。有网友使用AIGC技术,复刻了《极乐净土》舞蹈的名场面,引发热议,播放量甚至超过B站舞蹈区知名大UP翻跳版。

百变换衣,人不变,生成式AI迎来技术突破

AIGC版的《极乐净土》,甚至比原版舞蹈更为上头(毕竟谁不喜欢小姐姐在跳舞时一秒一换衣呢)。之前大家熟知的AIGC图像生成,多应用于图像领域。因为无法做到稳定的多帧连续图像生成,所以鲜有高质量的AI生成视频。而AIGC版的《极乐净土》却实现了对图像的精准控制,动作、服饰连续多变,但人物却始终保持较为稳定的状态,其原因正是生成式AI技术迎来了新的技术突破。

2023 年,一款叫ControlNet(译为控制网)的Stable Diffusion插件发布,这款插件在短短的2天时间就在GitHub狂揽4.6K Stars,成为了AI绘画领域最热门的新星。ControlNet的出现代表着生成式AI技术开始可控,而生成式AI技术能否被精确控制,正是AIGC技术是否进入实际生产环境中最为关键的一环。

此前,如果想通过AIGC技术,生成带有运动轨迹的稳定连续图像(多张图片,转换成视频)是非常困难的,由于生成式AI技术的不可控,导致生成的图像,每一帧都会有极大的差异,无法用于合成视频。如果说在使用生成式AI技术作画时,不可控在某些场景下还算是个优点,能够帮助创作者发散思维,提供更多可能性。那么在视频创作领域,生成式AI技术的不可控,将导致生成的画面无法使用(想象一下,一部电影,上一秒挥拳的还是杰森斯坦森,下一秒就变成了巨石强森),所以在影视领域,AIGC技术的普及速度远远落后于其他产业。

通过引入额外的输入,实现精准控制生成式AI

ControlNet 作者提出了一个新的神经网络概念,通过引入额外的输入来控制扩散模型,如 stable diffusion,然后在新生成的图像中保留这些信息,比如人物姿态、深度、画面结构等,以实现用户对生成的图像进行精细化控制。

在此之前,如果想要实现对图像进行精细控制,需要对prompt提示词进行详细描写,或者用图生图加上详细的prompt才能小概率生成目标图像,ControlNet 出现后,实现难度大幅降低。通过引入额外的输入(如Canny 边缘检测、Openpose 骨骼绑定),ControlNet就可以对模型加以约束,以保证生成的图像可以依照使用者的意图进行生成、调整,从而实现对模型的精细化控制。

ControlNet 原理

边缘检测作为额外输入

姿态检测作为额外输入

从技术原理层面分析,ControlNet会先复制一遍扩散模型的权重,得到一个“可训练副本”,这个副本的参数是被“锁定”的,相比原扩散模型的海量预训练数据,这个“可训练副本”只需要在特定任务的小数据集上训练,因此相当于给大模型上了“锁”,有了条件控制。它很好的解决了文生图大模型的关键问题:只有关键词的控制方式无法满足对细节控制的所有需要。

ControlNet连续图片生成效果

AIGC将颠覆视频创作

如果在技术上实现对生成式AI的精准控制,那么生成式AI的前景将更为广阔。目前在图形图像生成式AI技术领域,海外的「midjourney」、「stable diffusion」都在大力攻克可控AIGC技术,并已实现技术突破。同时,元境科技「MetaSurfing-元享智能云平台」也率先将AIGC引入虚拟数字人生产流程、虚拟数字人驱动流程、虚拟数字人视频内容生成流程中。多模态、生成式AI技术,让虚拟数字人摆脱只有“皮囊”的刻板印象,赋予“灵魂”与“思想”。

目前生成式AI已经对插画和平面等行业产生冲击。可控AIGC技术实现后,动画、影视等产业将会迎来新一轮技术革命。往后,动画只需要手绘粗线稿,就可以生成精美的动漫作品。电影可以通过生成式AI技术,生成虚拟数字人代替演员完成“拍摄”。将AIGC技术介入到影视制作及后期流程后,可减少演员、特效、场地、道具、灯光等支出,制片成本将会得到极大降低。从理论上来说,生成式AI技术,完全可以实现生成一部影视作品所需的全部条件。

元享智能云平台大模型控制器正在Alpha测试

随着元境科技对AIGC技术的不断探索,在「MetaSurfing-元享智能云平台」已实现文字和语音内容的可控生成,平台智播模块,生成式AI可自动编写直播脚本,开启虚拟数字人24小时无人值守直播,并根据商品内容,实现文生文、图生文,并转换成语音,驱动AIGC多模态虚拟数字人声情并茂的进行直播互动。在图形图像领域,内测版的元享智能云平台使用自研的控制器模型,通过引入额外的输入,锁定模型生成内容,在技术层面达到了国际先进水平。用户仅需简单的提示词,即可实现「文生图」的「图生图」「图生视频」功能,并且可对生成内容进行幅度设置,以达到对AI生成内容的精细控制。同时元享智能云平台内置的数字商城,包含庞大的数字资产,大幅降低了生成式AI的创作与使用门槛,初学者首次使用也可轻松创造出令人惊叹的图形、视频和动画。

元境打造零门槛数字人内容创作应用平台

对于视频内容创作者,元享AIGC模块将带来巨大的效率提升,原本需要投入大量人力物力成本,花费数周时间才能完成的视频的将在一两天内完成。智能化的使用体验,极大降低了视频的制作成本与周期。并且随着AIGC技术的不断更新迭代,效率效果还将持续提升,在不久的未来,AIGC技术将颠覆视频创作流程,成为影视行业新时代数字生产力。

拓展AIGC应用领域,元享生成式AI+大模型,开启多模态虚拟数字人交互新篇章

元境科技计划将AIGC技术扩展到更多领域。目前内测版元享智能云平台已将AIGC、大模型技术应用到虚拟数字人肢体驱动,通过卷积神经网络提取音频特征与动作库特征,建立双向映射关系,通过预训练大模与型神经网络解码器得到肢体动作关键点位置信息,生成式AI将音频信息与动作关键点位置信息结合,生成并驱动虚拟数字人动作、表情。实验室环境进行双盲测试,接入到内测版元享智能云平台的元趣AI,在虚拟数字人电商直播间的效果对比评分高于真人。由于元享虚拟数字人每一次说话时的动作表情都是由生成式AI生成的全新的动作,且能够与直播音乐频谱相结合,在直播时互动更加多样,表现更加生动自然。

在相同话术,不同音乐韵律下,虚拟数字人每次的交互动作不尽相同,实时生成的新动作打破了以往虚拟数字人只能根据动作库进行关键词匹配,且动作模型少、肢体表情僵硬不自然等问题,能够更好地处理复杂的互动场景。此项技术的落地将有效提升虚拟数字人在影视、教育、金融、文娱、电商、本地生活等诸多行业的应用效果,拥有无穷动作的虚拟数字人将成为虚拟人行业发展的重要里程碑。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1