阿里发布“神笔马良版Sora”：寥寥数笔，动画自成

作者：AI研习所发布时间：2024-08-06

AI视频生成赛道风起云涌，国内外新颖的文生、图生视频产品层出不穷。在各大厂商的“内卷”之下，当下的视频生成模型各方面已经接近“以假乱真”的效果。例如，OpenAI 的 Sora 和国内的 Vidu、可灵等模型，通过利用 Diffusion Transformer 的扩展特性，不仅能够满足各种分辨率、尺寸和时长的预测要求，同时生成的视频更符合物理世界的表现。

但与此同时，大部分视频生成模型的准确程度、遵循指令的能力还有待提升，生成视频仍然是一个“抽卡”的过程，往往需要用户生成许多次，才能获得符合需求的结果。这也造成算力成本过高、资源浪费等问题。

为了解决这些问题，阿里云提出了一种基于 DiT 架构的轨迹可控视频生成模型 Tora。Tora能够根据任意数量的物体轨迹，图像和文本条件生成不同分辨率和时长的视频，在 720p分辨率下能够生成长达204 帧的稳定运动视频。值得注意的是，Tora继承了DiT的scaling特性，生成的运动模式更流畅，更符合物理世界。

三种模态组合输入，精准控制运动轨迹

Tora支持轨迹、文本、图像三种模态，或它们的组合输入，可对不同时长、宽高比和分辨率的视频内容进行动态精确控制。

轨迹输入可以是各种各样的直线、曲线，其具有方向，不同方向的多个轨迹也可以进行组合。

例如，你可以用一条S型曲线控制漂浮物的运动轨迹，同时用文字描述来控制它的运动速度。下面这个视频中，所使用的提示词用到了“缓慢”、“优雅”、“轻轻”等副词。

与目前常见的运动笔刷功能有所不同的是，即使没有输入图像，Tora也可以基于轨迹和文本的组合，生成对应的视频。

例如下面这个视频中的1、3两个视频，就是在没有初始帧，只有轨迹和文字的情况下生成的。

Tora也支持首尾帧控制，不过这个案例只以图片形式出现在官方给出的论文里，并没有提供视频演示。

方法介绍

基于OpenSora框架，创新两种运动处理模块

如下图所示，Tora包括一个Spatial-Temporal Denoising Diffusion Transformer，（ST-DiT，时空去噪扩散变换器）、一个Trajectory Extractor（TE，轨迹提取器）和一个Motion-guidance Fuser（MGF，运动引导融合器）。

Tora 的 ST-DiT 继承了 OpenSora v1.2 的设计，将输入视频在时空维度上压缩成Spacetime visual patches（时空视觉补丁），再通过交替的spatial transformer block（空域变换器块）和temporal transformer block（时域变换器块）进行噪声预测。

为了实现用户友好的轨迹控制，TE 和 MGF 将用户提供的轨迹编码为多层次的Spacetime motion patches（时空运动补丁），再通过自适应归一化层将这些patches无缝整合到每个DiT block中，以确保生成视频的运动与预定义的轨迹一致。