OpenAI 的视频生成工具 Sora在2月份让业界大吃一惊,其流畅、逼真的视频似乎远远领先于竞争对手。然而这场精心策划的首次亮相,留给了大众太多不为人知的细节。
近日, OpenAI 大火的宣传短片的制作团队之一的Shy Kids接受了媒体采访,并分享了自己作为少数最早使用Sora技术的视频创作者的酸甜苦辣。
OpenAI Sora宣传短片之一(Air Head 气球人)
Shy Kids 是一个位于多伦多的数字制作团队,被 OpenAI 选为少数几个主要出于 OpenAI 宣传目的制作短片的团队之一,他们在创作“Air Head”时被赋予了相当大的创作自由。
而且值得注意的是,这些短片并不完全是由Sora生成的,在接受媒体采访时,后期制作艺术家 Patrick Cederberg 将“实际使用 Sora”描述为“这只是他作品的一部分”。
然而大众却可能会先入为主地认为:这些逼真生动的短片完全是由 Sora 制作的。
然而,事实是这些都是专业制作,配有强大的故事板、编辑、色彩校正,以及动态观察和视觉特效等后期工作。
就像苹果公司在宣传时说“在 iPhone 上拍摄”,但事后没有展示工作室设置、专业灯光和色彩工作一样,Sora 的帖子只谈论它让人们做什么,而不是他们实际上是如何做到的。
Cederberg 的采访很有趣,而且非常非技术性。尽管Sora模型令人印象深刻,但它可能并没有我们想象的那般美好。
并没有适当的功能集来完全控制一致性
目前,控制仍然是最令人渴望的,也是最难以捉摸的。……我们能得到的最接近的结果就是在提示中进行过度描述。解释角色的服装以及气球的类型是我们解决一致性的方法,因为逐个镜头/一代又一代,还没有适当的功能集来完全控制一致性。
换句话说,传统电影制作中的简单问题(例如选择角色服装的颜色)到了Sora这里,反而需要更为复杂的解决方法,同时需要在生成系统中进行检查,因为每个镜头都是独立于其他镜头创建的。这种情况后续可能会改善,但目前肯定还是非常费力。
此外,还必须注意Sora的输出是否有多余的元素:Cederberg描述了模型如何在气球上生成一张脸(主角的头部),或者一条挂在前面的绳子。如果他们无法通过提示可以删除这些脸或绳子,那么就必须通过后期删除它们,这是另一个耗时的过程。
人物或摄像机的精确时间和动作的控制,实际上也是做不到的:“对于这些不同动作在实际生成中发生的位置有一点时间控制,但这并不精确......这有点像在黑暗中拍摄,”说Cederberg。
例如,与手动动画不同,对像挥手这样的手势进行计时是一个非常近似的、“建议驱动”的过程。像角色身体向上平移这样的镜头,也并不总是能呈现出电影制片人想要的内容。在这种情况下,团队不得不自己渲染一个纵向构图的镜头,并在后期进行了裁剪平移。生成的剪辑也经常是慢动作,没有特殊原因。
Sora的一个镜头以及它如何在短片中生成的
Cederberg说,事实上,使用电影制作的日常语言,比如“向右平移”或“跟踪镜头”,一般来说是不一致的,团队发现这非常令人惊讶。
“研究人员在让艺术家使用这个工具之前,并没有真正像电影制作人那样思考,”他说。
结果,该团队进行了数百次生成,每次生成 10 到 20 秒,最终只使用了其中的少数作品。Cederberg 估计该比例为 300:1 — 但当然,我们可能都会对普通拍摄的比例感到惊讶。
此外,该团队实际上制作了一些幕后视频来解释他们遇到的一些问题。就像许多与人工智能相关的内容一样,这些评论对整个努力相当批评——尽管不像我们最近看到的受到嘲笑的人工智能辅助广告那么谩骂。
Sora有某种机制拒绝涉嫌版权问题的生成
最后一个有趣的问题与版权有关:如果你要求 Sora 给你一个“星球大战”剪辑,它会拒绝。如果你试图用“复古未来派宇宙飞船上拿着激光剑的长袍男子”来绕过它,它也会拒绝,因为它通过某种机制识别出你想要做什么。它还拒绝进行“阿罗诺夫斯基式镜头”或“希区柯克变焦”。
一方面,这是完全有道理的。但它确实提出了一个问题:如果 Sora 知道这些是什么,是否意味着模型接受了该内容的训练,可以更好地识别它是否侵权?OpenAI 将其训练数据卡保密到了荒谬的地步,就像首席技术官 Mira Murati 接受乔安娜·斯特恩 (Joanna Stern) 的采访一样,几乎可以肯定永远不会告诉我们。
至于 Sora 及其在电影制作中的使用,它显然是一个强大且有用的工具,但它的作用并不是“用整块布制作电影”。“那会是后来的事。”