AIGC专题：SORA文生视频迭代，光网络核心受益！（附下载）

作者：烟树晚雁发布时间：2024-02-27

AIGC

今天分享的是AIGC系列深度研究报告：《AIGC专题：SORA文生视频迭代，光网络核心受益！》。

（报告出品方：中万宏源研究）

报告共计：11页

海量/完整电子版/报告下载方式：公众号《人工智能学派》

SORA 在视频生成稳定性、一致性、连贯性均突破

OpenAI 2 月 16 日凌晨发布了文生视频大模型 Sora。从目前官网公布案例看， Sora 稳定性、一致性、连贯性均突破，对此前 Runway Gen 2、Pika 等 AI 视频工具碾压。

1）Sora 能够根据用户提供的文本描述生成长达 60S 的视频，这些视频不仅保持了视觉品质，而且完整准确还原了用户的提示语。官网案例中连贯视频普遍也在 10s 以上，此前连贯视频在 4s 左右。

2）实现多镜头切换，且保持角色和视觉风格一致性，此前视频都是单镜头。这种能力对于制作电影预告片、动画或其他需要多视角展示的内容非常有用。

3）创造的角色表达情感更加丰富，可以同时绘制多个角色，背景和动作更加精确。 Sora 能够生成包含多个角色、特定运动类型以及主题精确、背景细节复杂的场景。它能够创造出生动的角色表情和复杂的运镜，使得生成的视频具有高度的逼真性和叙事效果。

4）可以部分实现虚拟影像和现实物体的交互感，即 Sora 可能掌握了部分物理世界规则，多模态模型展现出一定的涌现能力。Sora 能够模拟现实世界中的人物、动物和环境等某些特征，且并没有依赖于现有明确 3D 建模、物体识别等规则，而是纯粹通过生成自然涌现，即能够模拟真实物理世界的运动，如物体的移动和相互作用。

“大力出奇迹“思路下，Spacetime latent patch 等技术更新

同时 Open AI 公布了相关报告1，但报告并未涉及模型和具体技术细节。整理来看， OpenAI 沿用了图片生成中常见的扩散 transformer 模型，同时使用了大模型思路“大力出奇迹”：

1）素材：足够大量的视频和图像素材包；

2）标注：用多模态模型给视频做标注，把不同格式的视频编码成统一的视觉块嵌入；

3）用足够大的网络架构+足够大的训练批次（batch size）+ 足够强的算力，让模型对足够多的训练集做全局拟合（理解），在模型更好地还原细节的同时让模型出现智能涌现能力。

通过此前 Open AI GPT-4v、dall-E 3 等工作，我们猜测目前大部分涌现能力仍然来源于 LLM 语言模型，例如产业界猜测 GPT-4 的视觉多模态来自于类似 Flamingo 的架构，即不是直接训练一个多模态模型，而是在已经预训练好的语言大模型中引入图像理解能力。视频本质上就是由连续帧构成的，但包含的时空信息远超图像，如何较好的表达视频信息，一直是一个难题。我们认为，技术文档中提到的时空包（Spacetime latent patches）就重点解决了这一问题。

我们猜测，Open AI 可能找到了一个合适的视频信息表达，即技术文档中的时空包（Spacetime latent patches）技术。在可视数据的处理上，Open AI 借鉴了大语言模型的成功经验。大语言模型通过 token 将各种形式的文本代码、数学和自然语言统一起来，而 Sora 则通过视觉包（patches）实现了类似的效果。Open AI 发现，对于不同类型的视频和图像，patches 是一种高度可扩展且有效的表示方式，对于训练生成模型具有重要意义。

把原始视频转化为时空包。Open AI 首先将视频压缩到一个低维度的潜空间（latent space），这是通过对视频进行时间和空间上的压缩实现的，这个潜空间可以看作是一个 “时空包（Spacetime latent patches）”的集合。

Open AI 专门训练了一个视频压缩网络用于降低视觉数据的维度。Sora 模型就是在这个压缩后的潜空间中接受训练，并最终生成视频。此外 Open AI 还设计了一个解码器模型，它可以将生成的 latent space 重新映射回像素空间，从而生成可视的视频或图像。

Patch 的方式展示出很强兼容性。一个静态图像即是时间=0 的一个 patch, 不同的像素尺寸,、不同的时间长短,，即是不同大小的 Patch。

报告共计：11页

海量/完整电子版/报告下载方式：公众号《人工智能学派》

AIGC专题：SORA文生视频迭代，光网络核心受益！（附下载）

SORA 在视频生成稳定性、一致性、连贯性均突破

“大力出奇迹“思路下，Spacetime latent patch 等技术更新

推荐体验

相关资讯

AIGC专题报告：从文生图到文生视频技术框架与商业化（附下载）

AIGC专题：视频生成模型 Sora 发布再度引爆人工智能市场（附下载）

AIGC专题：Sora有望带来AI生成视频领域的新一轮变革（附下载）

AIGC专题：从Sora看多模态大模型发展（附下载）

AIGC专题：Sora算力倍增，国产架构+生态崛起（附下载）

近期资讯

苏州捷得宝取得具备金属栅线的CIGS薄膜电池片专利，提高最终电池片的光电转换效率

超聚变申请一种测试设备及测试方法专利，能够自动实现对PCIE链路进行信号质量的测试

深圳市纽纳精工科技取得红外光学芯片专利，有效保护芯片免受外界影响

浙江久电热压科技取得一种光伏组件专利，提升光伏组件的整体外观

晶品新能源取得耐热性高的单晶硅片结构专利，提高了单晶硅片的耐热性

长川科技申请 pattern 与电流电压联动测试方法、测试机及存储介质专利，节省通信时间提升测试效率

致茂电子申请 USB-C 连接埠的测试系统专利，能在无需重新插拔缆线的情况下执行正反插各自对应的功能测试

上海电气集团恒羲光伏取得异质结太阳能电池专利，有效降低异质结太阳能电池制造成本

珠海一微半导体申请不良内核的自检方法专利，实现对多核芯片内不良内核的检测

光能电力安装取得装配式单晶组件的拼接结构专利，实现操作人员无需工具完成单晶组件安装操作

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响