Meta版Sora无预警来袭！抛弃扩散模型，音视频生成/画面编辑全包，92页论文无保留公开

作者：量子位发布时间：2024-10-21

Sora

梦晨衡宇发自凹非寺

量子位 | 公众号 QbitAI

刚刚，Meta抢在OpenAI之前推出自己的Sora——Meta Movie Gen

Sora有的它都有，可创建不同宽高比的高清长视频，支持1080p、16秒、每秒16帧。

Sora没有的它还有，能生成配套的背景音乐和音效、根据文本指令编辑视频，以及根据用户上传的图像生成个性化视频。

Meta表示，这是“迄今为止最先进的媒体基础模型（Media Foundation Models）”。

只需一句“把灯笼变成飞向空中的泡泡”，就能替换视频中的物体，同时透明的泡泡正确反射了背景环境。

上传一张自己的照片，就能成为AI电影的主角。

生成的视频不再无声，也不只是能安一个背景音乐。

比如看这里！视频会配合滑板轮子转动和落地配上逼真音效。（注意打开声音）

有人表示，随着大量创作者学会使用AI视频编辑工具，很难想象几年后长视频和短视频会变成什么样。

这一次，与Sora只有演示和官网博客不同，Meta在92页的论文中把架构、训练细节都公开了。

不过模型本身还没开源，遭到抱抱脸工程师贴脸开大，直接在评论区扔下Meta的开源主页链接：

在这等着您嗷。

Meta在论文中特别强调，数据规模、模型大小、训练算力的扩展对于训练大规模媒体生成模型至关重要。通过系统地提升这几个维度，才使得如此强大的媒体生成系统成为可能。

其中最另业界关注的一点是，这一次他们完全扔掉了扩散模型和扩散损失函数，使用Transformer做骨干网络，流匹配（Flow Matching）做训练目标。

用Llama3架构做视频模型

具体来说Movie Gen由视频生成和音频生成两个模型组成。

Movie Gen Video：30B参数Transformer模型，可以从单个文本提示生成16秒、16帧每秒的高清视频，相当于73K个视频tokens。

对于精确视频编辑，它可以执行添加、删除或替换元素，或背景替换、样式更改等全局修改。

对于个性化视频，它在保持角色身份一致性和运动自然性方面取得SOTA性能。

Movie Gen Audio：13B参数Transformer模型，可以接受视频输入以及可选的文本提示，生成与视频同步的高保真音频。

Movie Gen Video通过预训练-微调范式完成，在骨干网络架构上，它沿用了Transoformer，特别是Llama3的许多设计。

预训练阶段

在海量的视频-文本和图像-文本数据集上进行联合训练，学习对视觉世界的理解。这个阶段的训练数据规模达到了O(100)M视频和O(1)B图像，用以学习运动、场景、物理、几何、音频等概念。

微调阶段

研究人员精心挑选了一小部分高质量视频进行有监督微调，以进一步提升生成视频的运动流畅度和美学品质。

为了进一步提高效果，模型还引入了流匹配（Flow Matching）作为训练目标，这使得视频生成的效果在精度和细节表现上优于扩散模型。

扩散模型通过从数据分布逐渐加入噪声，然后在推理时通过逆过程去除噪声来生成样本，用大量的迭代步数逐步逼近目标分布。

流匹配则是通过直接学习样本从噪声向目标数据分布转化的速度，模型只需通过估计如何在每个时间步中演化样本，即可生成高质量的结果。

与扩散模型相比，流匹配方法训练更加高效，计算成本更低，并且生成的结果在时间维度上具有更好的连续性和一致性。

在整体架构上，首先通过时空自编码器（Temporal AutoEncoder， TAE）将像素空间的RGB图像和视频压缩到一个时空潜空间，学习一种更加紧凑的表征。

接着，输入的文本提示被一系列预训练的文本编码器编码成向量表示，作为模型的条件信息。这里用到了多种互补的文本编码器，包括理解语义的编码器如UL2、与视觉对齐的编码器如Long-prompt MetaCLIP，以及理解视觉文本的字符级编码器如ByT5。

最后，生成模型以Flow Matching的目标函数进行训练，从高斯分布采样的噪声向量作为输入，结合文本条件，生成一个输出潜码。这个潜码经过TAE解码，就得到最终的图像或视频输出。

此外Movie Gen Video在技术上还引入了多项创新：

为了让模型同时适配图像和视频，设计了一套因子化的可学习位置编码（factorized learnable positional embedding）机制。对高度、宽度、时间三个维度分别编码，再相加。这样即适配了不同宽高比，又能支持任意长度的视频。

针对推理效率问题，它采用了线性-二次时间步长调度（linear-quadratic t-schedule）策略。仅用50步就能逼近1000步采样的效果，大幅提升了推理速度。

为了进一步提高生成效率，Movie Gen Video模型还采用了基于时间平铺（temporal tiling）的推理方法。应对生成高分辨率长视频时，直接对整个视频进行编码和解码可能会遇到的内存限制问题。

在时间平铺推理中，输入视频在时间维度上被分割成多个片段，每个片段独立进行编码和解码，然后在输出时将所有片段重新拼接在一起。这种方法不仅降低了对内存的需求，还提高了推理的效率。

此外，在解码阶段使用了重叠和混合的方式来消除片段边界处的伪影问题，即通过在片段之间引入重叠区域，并对重叠区域进行加权平均，确保生成的视频在时间维度上保持平滑和一致。

另外Meta还开源了多个基准测试数据集，包括Movie Gen Video Bench、Movie Gen Edit Bench和Movie Gen Audio Bench，为后续研究者提供了权威的评测工具，有利于加速整个领域的进步。

这篇长达92页的论文还介绍了更多在架构、训练方法、数据管理、评估、并行训练和推理优化、以及音频模型的更多信息。

感兴趣的可到文末链接查看。

One More Thing

AI视频生成这块，这两天热闹不断。

就在Meta发布Movie Gen之前不久，OpenAI Sora主创之一Tim Brooks跳槽谷歌DeepMind，继续视频生成和世界模拟器方面的工作。

这让很多人想到，就像当年谷歌迟迟不推出大模型应用，Transformer 8个作者纷纷出走。

现在OpenAI迟迟发布不了Sora，主要作者也跑了。

不过另外也有人认为，Tim Brooks选择现在离开，或许说明他在OpenAI的主要工作完成了，也让人开始猜测：

Meta的发布会迫使OpenAI放出Sora来回应吗？

（截至目前为止，Sora的另一位主创Bill Peebles还未发声。）

现在Meta放出了带有视频编辑功能的模型，再加上10月1日Pika 1.5更新，主打给视频中物体加上融化、膨胀、挤压等物理特效。

不难看出，AI视频生成下半场，要开始卷向AI视频编辑了。

论文地址：

https://ai.meta.com/static-resource/movie-gen-research-paper

参考链接：

[1]https://ai.meta.com/research/movie-gen/

[2]https://x.com/AIatMeta/status/1842188252541043075

— 完—

评选征集中

「2024人工智能年度评选」

量子位2024人工智能年度评选已开启报名通道，评选从企业、人物、产品三大维度设立了5类奖项。

欢迎扫码报名评选！评选结果将于12月MEET2025智能未来大会公布，期待与数百万从业者共同见证荣誉时刻。

点这里👇关注我，记得标星哦～

科技前沿进展日日相见 ~

图像处理中颜色平面的抽取（彩色图像转灰度图像）在图像处理中，很多时候会将彩色图像转换成灰度图像的过程，因为针对灰度图像的函数更多一些，大部分的函数都只支持灰度图像，而不支持彩色图像。而这个转换过程，是通过提取颜色模型中的颜色平面来完成的（如果通过阈值法得到的不是灰度图像，而是二值图像）。不同颜色模型可以由不同的颜色平面组成。如RGB颜色模型就是由红R、绿G、蓝B三种颜色平面组成。因此，如果需要将彩色转换成灰度图之类的，需要根据实际情况抽取特征最突出的颜色平面。例如一个绿色的产品在黑背景中，那么抽取绿色平面

石鑫华视觉 2024-12-29

Hi，我是蒙，欢迎来到猛将潜意识，带你运用潜意识快速成长，重塑人生！潜意识有猛将，人生再无阻挡！每日一省写作274/1000天信仰是什么？我们生活在一个信仰流派繁多的时代，从宗教到哲学，再到现代心理学，几乎每个领域都在传递着不同的信念系统。那么，在这片信仰的森林中，该信哪一套呢？我们又该如何形成属于自己的信仰，在这个充满不确定性的世界中，找到一条明亮的道路？这篇文章将帮助你了解信仰的真谛，探索信仰选择的核心原则，并为你提供一个简单却深刻的思考框架，帮助你发现内心的力量，走向更清晰、更自由的人生。什么是信仰

心觉潜意识 2024-12-28

Meta版Sora无预警来袭！抛弃扩散模型，音视频生成/画面编辑全包，92页论文无保留公开

推荐体验

相关资讯

Meta版Sora无预警来袭！抛弃扩散模型，音视频生成/画面编辑全包，92页论文无保留公开

Meta版Sora无预警来袭！音视频生成编辑全包，92页论文无保留公开

Meta版Sora无预警来袭

基于豆包大模型为音视频生成字幕-完整代码可用版

Descript：OpenAI投资，像编辑文档一样编辑音视频

近期资讯

谈一谈浮躁的时代该怎么自处

制作木乃伊并不是人类的专利，大自然也会制作木乃伊

《大学物理》郝玉英第六版第十二章（介质中的磁场）习题解析

ICT半导体集成电路测试有限公司取得像差校正器和带电粒子束装置专利，提升装置的性能

痛包、痛桌、痛厕所，年轻人为何“痛一切”？

图像处理中颜色平面的抽取（彩色图像转灰度图像）

用户体验常见误区及解决办法

“别逗了，连人的问题都没解决，AI谈何发展？”

数据分析误区系列（二）：数据揭示的谎言

猛将：如何在众多信仰中找到属于自己的力量？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响