当前位置:首页|资讯|AIGC

AIGC专题:SORA文生视频迭代,光网络核心受益!(附下载)

作者:烟树晚雁发布时间:2024-02-27

原标题:AIGC专题:SORA文生视频迭代,光网络核心受益!(附下载)

今天分享的是AIGC系列深度研究报告:《AIGC专题:SORA文生视频迭代,光网络核心受益!》。

(报告出品方:中万宏源研究

报告共计:11

海量/完整电子版/报告下载方式:公众号《人工智能学派》

SORA 在视频生成稳定性、一致性、连贯性均突破

OpenAI 2 月 16 日凌晨发布了文生视频大模型 Sora。从目前官网公布案例看, Sora 稳定性、一致性、连贯性均突破,对此前 Runway Gen 2、Pika 等 AI 视频工具碾压。

1)Sora 能够根据用户提供的文本描述生成长达 60S 的视频,这些视频不仅保持了 视觉品质,而且完整准确还原了用户的提示语。官网案例中连贯视频普遍也在 10s 以上, 此前连贯视频在 4s 左右。

2)实现多镜头切换,且保持角色和视觉风格一致性,此前视频都是单镜头。这种能 力对于制作电影预告片、动画或其他需要多视角展示的内容非常有用。

3)创造的角色表达情感更加丰富,可以同时绘制多个角色,背景和动作更加精确。 Sora 能够生成包含多个角色、特定运动类型以及主题精确、背景细节复杂的场景。它能 够创造出生动的角色表情和复杂的运镜,使得生成的视频具有高度的逼真性和叙事效果。

4)可以部分实现虚拟影像和现实物体的交互感,即 Sora 可能掌握了部分物理世界 规则,多模态模型展现出一定的涌现能力。Sora 能够模拟现实世界中的人物、动物和环 境等某些特征,且并没有依赖于现有明确 3D 建模、物体识别等规则,而是纯粹通过生成自然涌现,即能够模拟真实物理世界的运动,如物体的移动和相互作用。

“大力出奇迹“思路下,Spacetime latent patch 等技术更新

同时 Open AI 公布了相关报告1,但报告并未涉及模型和具体技术细节。整理来看, OpenAI 沿用了图片生成中常见的扩散 transformer 模型,同时使用了大模型思路“大力出奇迹”:

1)素材:足够大量的视频和图像素材包;

2)标注:用多模态模型给视频做标注,把不同格式的视频编码成统一的视觉块嵌入;

3)用足够大的网络架构+足够大的训练批次(batch size)+ 足够强的算力,让模型对足够多的训练集做全局拟合(理解),在模型更好地还原细节的同时让模型出现智能涌现能力。

通过此前 Open AI GPT-4v、dall-E 3 等工作,我们猜测目前大部分涌现能力仍然来 源于 LLM 语言模型,例如产业界猜测 GPT-4 的视觉多模态来自于类似 Flamingo 的架构, 即不是直接训练一个多模态模型,而是在已经预训练好的语言大模型中引入图像理解能力。 视频本质上就是由连续帧构成的,但包含的时空信息远超图像,如何较好的表达视频信息, 一直是一个难题。我们认为,技术文档中提到的时空包(Spacetime latent patches) 就重点解决了这一问题。

我们猜测,Open AI 可能找到了一个合适的视频信息表达,即技术文档中的时空包 (Spacetime latent patches)技术。在可视数据的处理上,Open AI 借鉴了大语言模 型的成功经验。大语言模型通过 token 将各种形式的文本代码、数学和自然语言统一起来, 而 Sora 则通过视觉包(patches)实现了类似的效果。Open AI 发现,对于不同类型的 视频和图像,patches 是一种高度可扩展且有效的表示方式,对于训练生成模型具有重要意义。

把原始视频转化为时空包。Open AI 首先将视频压缩到一个低维度的潜空间(latent space),这是通过对视频进行时间和空间上的压缩实现的,这个潜空间可以看作是一个 “时空包(Spacetime latent patches)”的集合。

Open AI 专门训练了一个视频压缩网络用于降低视觉数据的维度。Sora 模型就是在 这个压缩后的潜空间中接受训练,并最终生成视频。此外 Open AI 还设计了一个解码器 模型,它可以将生成的 latent space 重新映射回像素空间,从而生成可视的视频或图像。

Patch 的方式展示出很强兼容性。一个静态图像即是时间=0 的一个 patch, 不同的像 素尺寸,、不同的时间长短,,即是不同大小的 Patch。

报告共计:11页

海量/完整电子版/报告下载方式:公众号《人工智能学派》


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1