今天分享的是AIGC系列深度研究报告:《AIGC专题:生成式AI下一颗最闪亮的星视频引擎》。
(报告出品方:天风)
报告共计:31页
海量/完整电子版/报告下载方式:公众号《人工智能学派》
生成算法模型不断突破创新,下游应用场景不断拓展
生成对抗网络(GAN)是早期最著名的生成模型之一,尽管在图像生成上产生了卓越的效果,但其训练常常受到梯度消失和模式崩 溃等问题的影响。与GAN相比,扩散模型(Diffusion Model)只需要训练“生成器”,不需要训练别的网络(判别器、后验分布 等),训练时仅需模仿一个简单的前向过程对应的逆过程,实现简练过程的简化。扩散模型相对GAN来说具有更灵活的模型架构和 更精确的对数似然计算,生成图像质量明显优于GAN,已经成为目前最先进的图像生成模型。
此前扩散模型主要适用于生成2D图像,23年Runway的最新研究成果将扩散模型扩展到视频领域,在未加字幕的视频和配对的文本 -图像数据的大规模数据集上训练出视频扩散模型。
NeRF(神经辐射场)的出现为3D场景生成带来了新的可能性,进一步拓宽生成算法领域下游的应用场景。NeRF (Neural Radiance Field)是一种基于神经网络的 3D 重建技术,不同于传统的三维重建方法把场景表示为点云、网格、体素等显式的表达, NeRF将场景建模成一个连续的 5D 辐射场隐式存储在神经网络中,输入多角度的 2D 图像,通过训练得到神经辐射场模型,根据模 型渲染出任意视角下的清晰照片。
Open AI技术路径剖析:Shap-E-隐式3D生成模型
在Shap-E的模型架构设计中,首先训练一个编码器来生成隐式表征(implicit representation),然后在编码器产生的潜表征 (latent representation)上训练扩散模型。生成步骤:
➢ 3D编码器:给定一个已知三维资产的稠密显式表征,训练一个编码器来生成隐式函数的参数。 如下图编码器架构所示,给编码器提供点云和三维资产的渲染视图,输出多层感知器(MLP)的参数,将资产表示为一个隐式函 数。Shap-E只用NeRF渲染目标对编码器进行预训练,因为研究人员在实验中发现这个操作比基于网格(mesh-based)的目标 更稳定,而且可以进行优化。
➢ 潜扩散(Latent Diffusion):对于生成部分,采用Point-E的基于Transformer的扩散结构,并用潜向量序列替代点云。 潜表征为shape 1024×1024的序列,可以将其作为1024个token的序列送入Transformer,其中每个token对应于MLP权重矩 阵的不同行。因此,该模型在计算上与基本的Point-E模型大致相当(即具有相同的上下文长度和宽度),同时由于输入和输出通 道的增加,在一个更高的维度空间中生成样本。
NVIDIA技术路径剖析:从逆向渲染到Instant NeRF
3D MoMa 采用的是被英伟达图形研究副总裁 David Luebke 称之为“统一计算机视觉和计算机图形的圣杯”的逆向渲染技术。 逆向渲染,即将一系列静态 2D 照片重建成物体或场景的 3D 模型的技术,而 3D MoMa 则是通过将每一个逆向渲染问题都定义为 GPU 加速的可 微分组件,使用现代 AI 机器和英伟达 GPU 的原始计算能力来快速生成 3D 对象,使创造者可以在现有工具中不受限制地对其导入、编辑和扩展。 3D MoMa正是基于逆向渲染流程,可从2D图片中提取3D信息、材质和照明数据。
Apple:发布3D生成API Object Capture与3D场景生成模型GAUDI
2021年6月,苹果发布了面向Mac的摄影测量API“Object Capture”。 Apple Object Capture 为Apple设备用户提供了一种相对快速和简单的方法来创建现实世界对象的3D表示——这意味着可 以将物理对象转换为数字对象。使用iPhone或iPad,可拍摄对象的照片,并使用macOS Monterey上新的对象捕获API将其转换为针对增强现实(AR)进行优化的3D模型。物体捕捉功能使 用摄影测量技术将 iPhone 或 iPad 上拍摄的一系列照片转换为 USDZ 文件,这些文件可以在 “AR 快速查看”中查看,无缝整合到 Xcode 项目中,或在专业的 3D 内容工作流程中使用。
2022年7月,来自苹果的 AI 团队推出了 3D 场景生成的最新神经架构—— GAUDI 。GAUDI是一 个能够捕捉复杂而真实的三维场景分布的生成模型,可以从移动的摄像机中进行沉浸式渲染,采用 了一种可扩展但强大的方法来解决这个具有挑战性的问题。
Meta: Meta MCC实现图像生成3D模型
为了简化AR/VR内容开发方式,Meta于2023年1月研发了一种RGB-D图像生成3D模型方案: MCC。MMC全称是多视图压缩编码,它是一种基于Transformer的编码器-解码器模型,可根据 一帧RGB-D图像合成/重建3D模型,潜在应用场景包括AR/VR、3D视觉重建、机器人导航、数字 孪生/虚拟仿真等等。
Transformer:一种采用自注意力机制的深度学习模型,谷歌曾使用它来增强搜索引擎,而近期热 门的ChatGPT模型也是基于Transformer。起初,Transformer更常用与自然语言处理领域,而 随着它与大规模、通用类别的学习模型结合,便也开始被用于语言处理之外的领域,比如图像合成、 图像分析。
RGB-D:与普通彩色2D图像不同,RGB-D是具有深度的彩色图像,相当于普通RGB三通道彩色 图像加上深度图(Depth Map)。
Runway是一家生成式AI内容平台,致力于让所有人都能进行内容创作。Runway得到众 多资本青睐,获得谷歌领投的D轮融资。
主要产品为Gen-1和Gen-2,Gen-1可实现用文字和图像从现有视频中生成新视频, Gen-2可实现文字生成视频功能。
Gen-1:不需要灯光、相机和动捕,通过将图像或文本提示的结构和风格应用于源视 频的结构,逼真且一致地合成新视频,且具有表现力、电影感和一致性。
Gen-1提供给用户五种不同的视频制作模式:
1)Stylization:将任何图像或提示的 风格转移到视频的每一帧;
2)Storyboard:将模型变成完全风格化和动画的渲染。
3) Mask:隔离视频中的主题并使用简单的文本提示对其进行修改;
4)Render:通过应 用输入图像或提示,将无纹理渲染变成逼真的输出;
5)Customization:通过自定义 模型以获得更高保真度的结果,释放 Gen-1 的全部功能。
Gen-1的性能优势:基于用户研究,GEN-1 的结果优于现有的图像到图像和视频到 视频的转换方法,比Stable Diffusion 1.5 提升 73.83%,比 Text2Live 提升 88.24%。
Gen-2是一个多模态的人工智能系统,可以用文字、图像或视频片段生成新颖的视频。 Gen-2在Gen-1的基础上迭代,保留通过将图像或文本提示的结构和风格应用于源视 频的结构合成新视频的功能,新增了只用文字便可生成视频的的功能。
Gen-2在Gen-1的五种视频制作模式上新增了三项新的模式:
1)Text to Video:仅 通过文本提示合成任何风格的视频;
2)Text + Image to Video:使用图像和文本提 示生成视频;
3)Image to Video:用一张图片生成视频(变体模式)。
Gen-2在Gen-1的五种视频制作模式上新增了三项新的模式:
1)Text to Video:仅 通过文本提示合成任何风格的视频;
2)Text + Image to Video:使用图像和文本提 示生成视频;
3)Image to Video:用一张图片生成视频(变体模式)。
Runway的Gen-1是一种基于扩散模型(Diffusion Model)的视频生成技术。用户可以通过文字和图像来生成新的视频,同时保留 现有的视频结构和内容。 扩散模型是一种概率生成模型,通过添加噪声逐步解构数据,然后学习逆转扩散过程来生成样本。
Gen-1提出了一个可控的结构和内容感知的视频扩散模型,将时间层引入预训练的图像模型,将扩散模型扩展到视频生成,在大规模的 未标注视频和配对的文本-图像数据上进行训练。
Gen-1实现了对时间、内容和结构一致性的完全控制,首次展示了在图像和视频数据上联合训练可以在推理时控制时间一致性。对于结 构一致性,Gen-1在生成效果中的不同细节级别上进行训练,实现高度自定义化推理过程。
Luma AI是一家3D内容解决方案平台。Luma AI深耕3D领域,也发布多项3D生成产品。
NeRF,即神经辐射场(Neural Radiance Field),是一种基于神经网络的隐式3D场景展现法。基于输入的2D图像,NeRF能够生成 和渲染逼真的3D场景。NeRF可以从任何新视角生成2D图像,而无需生成完整的传统3D模型。
Point-E是一个3D模型生成器,可以在几分钟内生成3D图像。Point-E是一个机器学 习系统,可以通过文本输入制作3D物体,由OpenAI于2022年12月发布到开源社区。2023年5月,OpenAI再次发布了一款升级模型Shap-E。相比基于点云的显式生成模型Point-E,Shap-E直接生成隐函数的参数来渲染纹理 网格和神经辐射场,收敛速度更快,在更高维的多表示输出空间中实现了更好的样本 质量。
Point-E:基于目前主流的两种text-to-3D模型进行融合尝试,结合了文本-图像模型与图像 -三维模型这两类方法的优点。使用文本到图像的扩散模型生成一个单一的合成视图,然后使 用第二个扩散模型生成一个三维点云,该模型以生成的图像为条件。Point-E在采样质量方面 达不到最先进的水平,但它的采样速度要快一到两个数量级,为一些用例提供了实用的权衡。
报告共计:31页
海量/完整电子版/报告下载方式:公众号《人工智能学派》