当地时间 2 月 15 日,OpenAI 发布了一个名为 Sora 的新型视频生成模型。它可以根据简短的文字提示(prompt),将其转化为长达一分钟的高清视频,镜头感堪比电影。
图 | Sora 所生成视频的截图(来源:Sora)
在新闻公布之前,OpenAI 给《麻省理工科技评论》发送了四份样片。这家总部位于旧金山的公司已然再次定义了“文本到视频生成”的可能性:这是一个热门的研究方向,《麻省理工科技评论》将其视为 2024 年值得关注的科技发展趋势之一。
OpenAI 的科学家蒂姆·布鲁克斯(Tim Brooks)说:“我们认为,建立能够理解视频的模型,并理解我们世界中所有这些非常复杂的交互,对于未来所有的人工智能系统而言,是非常重要的一步。”
但 OpenAI 给我们分享的视频附加了严格的保密条件。如果我们想提前看到有关 Sora(日语苍穹的意思)的信息,就必须等到该模型的消息公开发表之后,才能咨询和征求外部专家的意见。
OpenAI 尚未发布有关 Sora 的详细技术报告,也未解释或证明该模型如何有效。它还表示不会很快向公众发布 Sora。以下是我们收到的视频片段:
第一个可以从文本中生成视频的生成式人工智能模型出现在 2022 年末。但 Meta、谷歌和一家名为 Runway 的初创公司的早期成果充满了各种小问题,看起来也比较粗糙。
自那以后,这项技术发展得很快。Runway 在 2023 年发布的 Gen-2 模型可以制作质量接近大型工作室动画的短片。但大多数成果仍然只有几秒钟长。
而 OpenAI Sora 的演示视频是高清的,充满了丰富的细节。OpenAI 还表示,它可以生成长达一分钟的视频。
一段东京街头场景的视频显示,Sora 已经学会了三维世界中的物体是如何组合在一起的:当一对夫妇路过一排商店时,摄像机会切入这个场景并跟随他们。
OpenAI 还表示 Sora 能够很好地处理遮挡。现有模型的一个问题是,当一些物体从视线中消失后,它们可能无法继续跟踪这些物体。例如,如果一辆卡车从路牌前面经过,路牌可能就彻底消失了。
在一段纸制水下场景的视频中,Sora 在不同镜头之间进行了无缝转换,模型在它们之间保持了一致的风格。
当然,Sora 生成的视频还不完美。在东京的视频中,左边的汽车看起来比旁边的人还小。它们也会在树枝之间进进出出。
布鲁克斯说:“在长期一致性方面,肯定还有一些工作要做。例如,如果有人长时间离开视线,他们就不会再出现了。模型有点忘记了他们应该出现在那里。”
尽管我们看到的视频片段很惊艳,但这些展示视频无疑是经过精心挑选的,以展示 Sora 的最佳表现。
如果没有更多详细信息,我们很难知道它们在多大程度上代表了模型的平均水平。
我们可能还需要一段时间才能清楚地知道 Sora 的水平。OpenAI 今天宣布的有关 Sora 的消息,更像是一次科技圈的造势。
该公司表示,目前没有向公众发布 Sora 的计划,但它将首次开始与第三方安全测试人员共享该模型。
该公司尤其担心,这些看起来很逼真的视频可能被滥用。OpenAI 的科学家阿迪蒂亚·拉梅什(Aditya Ramesh)表示:“我们在这一点上非常谨慎,我们必须确保在将其交付给公众之前已做好铺垫。”此前他曾创建了该公司的文本到图像模型 DALL-E。
但 OpenAI 正计划在未来某个时候进行一次产品发布。除了安全测试人员,该公司还与一些视频制作者和艺术家分享了这款模型,希望搞清楚 Sora 如何更好地帮助专业创意人士,发挥更大的价值。
拉梅什说:“(此时公布新闻的)另一个目标是向每个人展示即将到来的东西,一窥这些模型的能力。”
为了构建 Sora,该团队调整了 DALL-E 3 背后的技术,这是 OpenAI 最强文本到图像模型的最新版本。
像大多数文本到图像模型一样,DALL-E 3 使用了所谓的扩散模型。经过训练后,它们可以将随机而模糊的像素变成图片。
Sora 也采用了同样的方法,只不过是将其应用于视频而非静态图片上。但研究人员也在其中加入了另一种技术。
与 DALL-E 或大多数其他视频生成模型不同,Sora 结合了扩散模型与 Transformer 神经网络。
Transformer 非常擅长处理长序列的数据,比如单词。这使它们成为 OpenAI GPT-4 和谷歌 Gemini 等大型语言模型中的灵魂。但视频不是由文字构成的。
因此,研究人员必须找到一种方法,将视频分割成块,并让 Transformer 将其视为文字一样的东西。
他们想出的方法是,在空间和时间上对视频进行分割。布鲁克斯说:“这就像你把所有的视频帧堆在一起,然后从中切下一个一个小方块。”
Sora 使用的 Transformer 可以处理这些视频数据块,其方式与大型语言模型中 Transformer 处理文本块中的单词的方式非常相似。
研究人员表示,这使他们用来训练 Sora 的视频类型更加丰富,比其他文本到视频模型更多,包括不同的分辨率、持续时间、纵横比和方向。
布鲁克斯说:“这真的对模型有帮助。这是我们在现有工作上还没看到的事情。”
“从技术角度来看,这似乎是一个非常重大的飞跃。”专门研究视频技术使用和滥用的人权组织 Witness 的执行董事山姆·格雷戈里(Sam Gregory)说,“但凡事都有两面性,这种表达能力为更多人提供了使用视频讲故事的潜力,但也存在潜在的滥用可能。”
OpenAI 非常清楚视频生成模型所带来的风险。我们已经看到深度伪造图像的大规模滥用,逼真的(虚假)视频很可能将这一问题提升到另一个层次。
格雷戈里指出,你可以使用这样的技术来误导人们关于冲突地区或抗议活动的信息。他说,视频生成风格的种类范围也很有趣。如果你能制作出不稳定的镜头,看起来像是用手机拍摄的,那么它会显得更真实。
我们的技术水平还没发展到那里,但人工智能视频生成技术在短短 18 个月内就从零发展到了 Sora。格雷戈里说:“我们将进入一个宇宙,在这个宇宙里,将有完全合成的内容、人类生成的内容以及两者的混合。”
OpenAI 团队计划借鉴 2023 年为 DALL-E 3 进行的安全测试。Sora 已经内嵌一个过滤器,可以筛选发送给模型的所有提示,该过滤器将阻止对暴力、性、仇恨和已知人物图像的请求。
另一个过滤器将查看生成的视频帧,并屏蔽违反 OpenAI 安全政策的内容。
OpenAI 表示,它还将把为 DALL-E 3 开发的虚假图像检测器用到 Sora 上。该公司将把行业标准的 C2PA 标签,即说明图像是如何生成的元数据,嵌入到 Sora 输出的所有内容中。
但这些措施远非万无一失。虚假图像检测器可能会犯错,元数据也很容易删除,因为大多数社交媒体网站默认会将其从上传的图像中删除。
拉梅什说:“在我们向公众正式发布这款模型之前,我们肯定需要获得更多的反馈,了解更多与视频有关的风险类型。”
布鲁克斯对此表示赞同。他说:“我们现在谈论这项研究的部分原因是,我们可以开始获得所需的投入,从而开展必要的工作,找出安全部署它的方式。”
作者简介:威尔·道格拉斯·海文(Will Douglas Heaven)是《麻省理工科技评论》人工智能栏目的高级编辑,他在这里报道新的研究、新兴趋势及其背后的人。此前,他是英国广播公司(BBC)科技与地缘政治网站 Future Now 的创始编辑,也是 New Scientist 杂志的首席技术编辑。他拥有英国伦敦帝国理工学院计算机科学博士学位,深谙与机器人合作的体验。
支持:Ren
运营/排版:何晨龙