SOra是什么?关于OpenAI的新文本到视频模型，您需要了解的一切

作者：WmFhgN17LwLxFeFa发布时间：2024-03-18

索拉（Sora）是视频的dall·e，甚至是同一个人建造的。

您键入文本提示符，并且AI模型可以最好地生成匹配的视频。有道理的是，一旦AI模型可以产生体面的图像，下一个挑战就是让它们生成良好的录像带，这就是Sora所开始的。

配对AI与自动化将改变您的工作方式

了解更多

尽管Sora仍在测试中，但Openai证明的结果令人印象深刻，尽管它们确实具有超现实的视频游戏质量。

您可以自己判断它们是否真正现实。但是首先，让我们看看什么是Sora，它的工作原理以及如何使用它。

什么是索拉？

Sora Landing页面

Sora是由Chatgpt和Dall的制造商Openai开发的生成性文本对视频AI模型。我认为“现实”可能会超越东西 - 至少目前也缺乏声音 - 但它从书面提示中产生的视频看起来确实很棒。

除了使用文本提示外，Sora还可以拍摄图像并将其转换为视频，或者拿一个视频剪辑并将其向前或向后扩展。

Sora可以创建长达60秒长的视频，其中有多个字符，相机运动以及持久而准确的细节。多亏了它的培训（我将在下面深入研究），它对现实世界中的事物的存在有深刻的了解 - 如果不是总是如何在物理上进行互动。

Sora如何工作？

Sora建立在Open AI的Dall·E和GPT模型以及大量新颖创新背后的想法之上。

它接受了未指定的视频录像的培训，这些视频片段似乎包括从自拍照视频到电影，电视节目，现实世界录像，视频游戏录音等的所有内容。所有这些训练录像都大多由AI加上标题，因此Sora可以对自然语言及其与物理世界的关系有深刻的了解。

带有补丁的象征性视觉数据

在技术报告中，OpenAI研究人员解释说，他们受到像GPT这样的大型语言模型（LLM）的启发，仅通过大量数据接受培训，就可以在各种任务上具有令人难以置信的胜任。

其中很大的一部分是因为LLMS模拟了单个“令牌”之间的关系 - 有意义的文本大约四个字符的构图 - 大约四个字符 - 包括多种语言，数学和计算机代码，包括不同的域。以数十亿个网页为食，它们具有可以用来解决问题并结合使用的结构。

为了在视频中获得一些相同的好处，Openai使用“时空补丁”。从本质上讲，视频中的每个帧都被分解为一系列称为补丁的较小段。每个段如何通过视频的长度进行变化，还在时空补丁中编码，因此名称为Spacetime。至关重要的是，从垂直社交媒体视频到宽屏电影，这使得Sora可以接受各种不同的视觉数据培训，因为每个剪辑不必被裁剪或压缩到一组特定的尺寸。

它确实很快就变得非常复杂，因此，如果您想了解更多信息，请查看技术报告或本文介绍数据科学，或者继续阅读以获取更多详细信息。

使用变压器扩散网络生成补丁

为了生成视频，Sora使用与DALL·E相同的扩散方法，具有类似于GPT的变压器体系结构，使其能够生成长，详细的，多重组件的剪辑。

扩散始于随机的噪声场，AI反复进行编辑，以使其越来越接近目标提示。这听起来很疯狂，我在Zapier对最佳AI Image Generator的综述中进行了更详细的解释，但它与现代图像模型非常有效。这就是稳定的扩散，Midjourney，Dall·E 3，以及其他所有AI Art Generator都能够创造出如此有趣的结果。

Sora的最大发展是它不会逐帧生成视频。相反，它使用扩散一次生成整个视频。该模型具有未来框架的“远见”，即使它们进出框架，也可以使其在整个剪辑中保持一致的生成细节，也被其他对象遮盖了，或者虚拟摄像机通过3D空间移动。

在此处和此处查看OpenAI的一些示例视频，您将看到所有这些。这些剪辑通常看起来具有一致的细节，而不会产生太多怪异的文物。

要深入了解AI背后的技术，这里有一些资源：

什么是AI？

什么是自然语言处理？

机器学习与AI

Chatgpt如何工作？

Sora可以使用什么？

从最基本的角度来看，Sora可用于从文本提示中生成视频。这在现实世界中有多有用还有待观察。 AI生成的图像尚未取代摄影师和其他艺术家，但他们

E肯定被广泛使用 - 尤其是在线。

但是，如果相信Openai的预览，Sora可以做更多的事情：

它可以将静态图像和图纸转换为视频。

它可以为现有图像和视频添加特殊效果。

它可以及时扩展前向后的视频。

它可以将任何视频剪辑转换为无缝循环。

它可以在两个无关的视频剪辑之间插值。

它可以编辑现有视频，用其他内容代替背景或主题。

这些功能中的一些至少有可能使人们能够创建和生成新的视频，至少不诉诸于视频编辑和特殊效果程序，例如Adobe After Effects。

当然，这是Openai的宏伟/未来派视觉的典型代表，Sora对于创建视频并不有用。显然，它可以模拟像视频游戏之类的人工过程，因此，研究人员认为“视频模型的持续扩展是通往物理和数字世界高度能力模拟器的有前途的途径，对象，动物，动物和生活在其中的人。” 如果Metavers终于起飞，我们可能要责怪Sora。

当然，有潜力。虽然现有的视频编辑和AI工具已经使其易于创建，但文本到视频AI模型可以增强不道德的人几乎没有努力生成它们的能力。视频质量尚不十分令人信服，但这并不意味着它永远不会，或者有些人不会试图将AI视频转移到真实的情况下。

值得称赞的是，他们通常放置了强大的护栏，这些护栏很难滥用和滥用模型，但是对于使用类似的开源模型构建的其他服务也不能说同样的话。当然，我们肯定会看到接下来的几年很奇怪，而整个社会则对虚假视频的生产更加容易，更便宜。

索拉有多好？

Openai的Sora演示看起来很棒，但是这一切都挂着一些大的警告。

根据Openai的说法，Sora可能会在复杂的场景中准确模拟物理，并且并不总是钉死原因和作用。他们给出的例子是，某人可能会从饼干中咬一口。同样，它在一个视频演示中掉落时也无法建模玻璃粉碎。该模型还可以混合空间细节，例如左派和权利，并且可能无法遵循“随着时间的推移发生的事件的精确描述，例如遵循特定的摄像头轨迹”。

不过，最大的问号是樱桃挑选了Openai的例子。如果视频演示是Sora可以通过给定提示可以做什么的相当准确的代表，那么当它被释放给公众时，它将很有趣。另一方面，如果这些剪辑只是最好的，并且剪切室的地板上还剩下很多不良的镜头，那么索拉（Sora）至少在最初的刺激性会少一些。一旦Openai获得了使用它的人的大量培训，无论如何，它很可能会迅速改善。

什么时候可以使用Sora？

SORA目前可供“红色团队”（Red Teamers），AI研究人员使用，他们专门研究AI模型中的弱点和脆弱性，尤其是弄清楚如何使他们创造各种可怕的事情。然后，OpenAI将使用他们的测试结果来训练Sora，以便更适合向公众发布。

尽管没有明确的时间表可以实现，但是您今天可以尝试其他一些文本对视频AI模型。跑道Gen-2是大牌，但是Google的Lumiere和Meta的Make-A-Video都可以作为Pytorch扩展名，如果您有技术上可以运行它们。或者，您可以查看Zapier的最佳AI视频生成器列表。

否则，我建议您只能前往Sora页面，以查看该工具中的大量示例。