Sora爆红视频幕后：被骗了，用了成吨的后期才有这效果

作者：机器之心Pro发布时间：2024-04-29

机器之心报道

机器之心编辑部

「不怕 AI 消灭人类，就怕用 AI 的人太聪明。」

今年 2 月份，OpenAI 发布了人工智能文生视频大模型 Sora，并放出了第一批视频片段，掀起了 AI 生成视频浪潮。目前，Sora 仍未进行公测，只有一些视觉艺术家、设计师、电影制作人等获得了 Sora 的访问权限。他们发布了一些 Sora 生成的视频短片，其连贯、逼真的生成效果令人惊艳。

最近，被誉为「朋克摇滚皮克斯」的加拿大多媒体制作公司 Shy Kids 发布了一段借助 Sora 制作的视频短片《Air Head》，在社交媒体上迅速引起广泛关注。

据悉，这部制作精美的短片主要由 3 个人完成，花费不到 2 周的时间。其中，Sidney Leeder 担任制片人，Walter Woodman 担任编剧和导演，而 Patrick Cederberg 负责后期制作。

本周，知名视觉特效总监 Mike Seymour 采访了 Patrick Cederberg，就《Air Head》制作过程、技术难点等信息展开了提问，并在 fxguide 上发布一篇文章介绍了 Sora 在视频实际制作过程中发挥的作用和存在的问题。

Patrick Cederberg

其中，Patrick 表示：「Sora 是一款非常强大的工具，我们已经在思考如何把它融入现有电影制作流程中，但目前 Sora 仍处于测试阶段，在影片制作过程中也会『翻车』。例如，气球的颜色在每次生成中都会改变、镜头中会出现一些瑕疵等等，要想获得最佳表现效果，仍需大量后期制作。」

AI 生成视频并非仅仅是图像生成器的进阶版。更准确地说，它们可能是我们向通用人工智能（AGI) 迈出的重要一步。但正如 Sora 开发团队本周接受采访时所说的，当前的 AI 视频模型仍处于早期阶段。

OpenAI 研究科学家，Sora 项目领导者 Tim Brooks 表示：我觉得现在 Sora 位置，就像是视觉模型新范式的 GPT-1 阶段。

《Air Head》是如何完成的？机器之心对 Mike Seymour 的文章进行了不改变原意的编译、整理，以下是该文章原文：

用户界面（UI）

Sora 的用户界面允许用户输入一段文本 prompt，然后 ChatGPT 将其转换为一个更长的字符串，再触发视频片段的生成。目前，没有其他输入方式 —— 还没有实现多模态输入。这一点很重要，因为尽管 Sora 因其生成结果中的对象一致性而受到称赞，但目前还没有任何方法来帮助匹配两个镜头（即两次生成）的内容。即使第二次运行相同的 prompt，生成结果也会不同。

Patrick 介绍说：「我们尽可能做到的是在我们的 prompt 中给出超级详细的描述，例如解释角色的服装、气球的类型。这是我们获得一致性的方法。从一个镜头到另一个镜头 / 一次生成到下一次生成，还没有完全控制一致性的方法。」

单个视频片段的确可以展现 Sora 令人惊叹的技术，但使用这些片段取决于你对隐式或显式镜头生成的理解。

假设你要求 Sora 在厨房里进行一个长镜头跟踪拍摄，桌子上有一个香蕉。在这种情况下，它将依赖其对「香蕉属性」的隐式理解来生成一个展示香蕉的视频。通过训练，Sora 已经学习了一些香蕉属性：比如「黄色」、「弯曲」、「有深色的末端」等等。没有香蕉的实际记录图像。没有「香蕉数据库」，而是有一个更小的、压缩的、隐藏的「潜在空间」，描述了香蕉是什么，每次运行都会展示对潜在空间的一种新解释。你的 prompt 依赖于对香蕉属性的隐式理解。

制作角色

为了制作《Air Head》，团队根据大致的剧本生成了多个视频片段，但是没有明确的方式来确保黄色气球头在每个镜头中都保持相同。有时，当 prompt 要一个黄色气球时，生成结果甚至可能不是黄色的。有时，气球上可能嵌入了一张脸，或者似乎在气球的正面画了一张脸。由于现实生活中许多气球都有绳子，因此生成结果中称为 Sonny 的气球人经常会在衣服前襟处有一根绳子。这是因为 Sora 隐式地将绳子与气球联系起来，因此在后期制作中这些需要被移除。

分辨率

《Air Head》只使用了 Sora 生成的镜头，但其中很多镜头都经过了调色、处理和稳定化，所有镜头都被提高了分辨率。团队处理的这些片段最初是以较低分辨率生成的，然后使用 Sora 或 OpenAI 之外的 AI 工具进行超分。

「你可以采用 720p 的分辨率，我相信已经有 1080p 了，但它需要一段时间来渲染。为了速度，《Air Head》的所有镜头都是以 480p 制作的，然后使用 Topaz 来提高分辨率」，Patrick 介绍道。

在关键帧方面，Patrick 解释道：「在实际生成中，不同动作的发生有一点时间控制，但并不精确，甚至有点像是碰运气 —— 目前还不确定 Sora 是否真的能完成这一点。」不过，Shy Kids 使用的是最早版本的模型，Sora 仍在不断开发中。

除了选择分辨率，Sora 还允许用户选择长宽比，比如肖像模式或风景模式（或正方形）。这在从 Sonny 的牛仔裤向上摇摄到他的气球头的镜头中非常有用。遗憾的是，Sora 无法原生渲染这样的移动，总是希望镜头的主要焦点 —— 气球头出现在镜头中。因此，团队以肖像模式渲染了这个镜头，然后通过后期的裁剪手动创建了向上摇摄的效果。

摄像机方向

对于许多生成式 AI 工具来说，训练数据附带的元数据是宝贵的信息来源，比如摄像机元数据。例如，如果在静态照片上进行训练，摄像机元数据将提供镜头尺寸、光圈值以及其他许多对模型训练至关重要的信息。

在电影镜头中，「跟踪」、「平摇」、「竖摇」、「推进」等概念都不是元数据所能捕捉的术语或概念。

描述镜头对影片制作来说非常重要，Patrick 指出：「最初 Sora 中并没有这个功能。不同的人描述电影镜头的方法也不同。OpenAI 的研究人员在艺术家使用这个工具之前，并没有真正像电影制作人那样思考。」

Shy Kids 知道他们使用的是 Sora 早期版本，但「初始版本的 Sora 在摄像机角度方面有点随机。」Sora 是否真的能理解 prompt 还不得而知，OpenAI 的研究人员只是专注于视觉生成，或许不考虑故事讲述者将如何使用它。

「Sora 正在改进，生成控制还没有完全到位。输入一个『摄像机摇摄』，我认为十次中有六次会得到想要的结果」，Patrick 说道。

这不是一个个例问题，几乎所有 AI 视频生成公司都面临着同样的问题，Runway AI 可能是在提供描述摄像机运动方面最先进的，但 Runway 渲染片段的质量和长度都不如 Sora。

渲染时间

视频片段可以以不同长度的时间段进行渲染，如 3 秒、5 秒、10 秒、20 秒，最长可达一分钟。渲染时间取决于一天中的时间段（例如早、中、晚）以及云服务的需求量。

Patrick 介绍：「一般来说，每次渲染大约需要 10 到 20 分钟。根据我的经验，我选择的渲染时长对渲染时间的影响很小。如果渲染时长是 3 到 20 秒，渲染时间往往不会在 10 到 20 分钟的范围内变化太大。」

虽然所有画面都是 Sora 生成的，但《Air Head》仍然需要大量后期工作。例如，有时会有一张脸在气球人 Sonny 上，就好像是用记号笔画上去的，这些瑕疵将在后期工作中被移除。

原始素材 vs 最终成品 ——300:1

Shy Kids 的方法是像制作纪录片一样进行后期制作和编辑，即有很多镜头，你需要从这些素材中编织出一个故事，而不是严格按照剧本拍摄。虽然这部短片有一个剧本，但团队需要灵活适应。

「这就像是得到一大堆镜头，然后尝试以一种有趣的方式剪辑到旁白中」，Patrick 介绍道。

对于最终出现在影片中的 90 秒镜头，Patrick 估计他们生成了「数百个 10 到 20 秒的片段」。他补充说：「我猜原始素材和最终成品的比例大概是 300:1。」

奇怪的「慢动作」

《Air Head》的许多片段生成时就好像是以慢动作拍摄的，尽管这并没有在 prompt 中被要求。这种情况发生的原因尚不清楚，但许多片段因此需要重新调整时间，以使其看起来像是实时拍摄的。这似乎与训练数据有关。

值得一提的是，Shy Kids 在他们的 prompt 中使用了「35 mm film（35 毫米胶片）」这个关键词，并发现这在一定程度上给了他们所追求的一致性。

版权问题

OpenAI 试图尊重版权，不允许生成可能侵犯版权或侵犯肖像权的内容。例如，如果用户的 prompt 类似于「35 毫米胶片，在一个未来主义的太空船中，一个男人拿着光剑向前走」，Sora 将不允许生成该片段，因为它太接近《星球大战》了。

Patrick 回忆说，当他们最初只是想测试 Sora 时：「我不假思索地输入了『阿罗诺夫斯基类型的镜头』，然后就被告知不能这样做。」Sora 出于版权问题会拒绝这类 prompt。

值得注意的是，Sora 生成的视频都是没有声音的，《Air Head》中主角 Sonny 的声音是 Patrick 本人的声音。

Shy Kids 团队表示已经开始为《Air Head》制作一部精彩的、人物有自我意识的、或许带点讽刺意味的续集。但对于电影制作等实际项目来说，Sora 可能还需要一段时间才能达到创作者所需的精确度。

参考链接：

https://www.fxguide.com/fxfeatured/actually-using-sora/

https://www.youtube.com/watch?v=reMnn6bV_fI

https://twitter.com/dotey/status/1783765343975960915

近期资讯

华大时空 2024-12-25

空间蛋白组：点亮脑科学研究的璀璨星辰

由于采样的高难度以及伦理方面的严格限制，我们对于大脑在发育以及疾病进展过程中的蛋白质分子特征和动态演变，始终了解尚浅。空间蛋白组学技术恰似一颗璀璨的新星，在脑科学浩瀚夜空中冉冉升起，为深入探索大脑神秘世界开启了一个全新窗口。它能够与现有的空间转录组学、原位杂交等技术相结合，同时检测带有空间信息的RNA和蛋白质等生物分子，构建出高分辨率的脑图谱；也能够更好地和免疫荧光染色、H&E图像结合在一起，共同还原脑内微环境[1]。空间蛋白组学研究可以为揭示人脑的信号网络、通路的形成和变化提供重要参考，并能揭示驱动大脑

华大时空 2024-12-25

新疆保华润天航空培训中心：无人机CAAC执照培训的精英摇篮

在浩瀚的天空中，无人机如同灵动的舞者，翩翩起舞。你是否也曾仰望那片蓝天，梦想驾驭无人机自由翱翔？如今，这个梦想不再遥远——新疆保华润天航空培训中心，作为无人机CAAC执照培训的精英摇篮，正等待着你的加入！保华润天航空培训中心位于风景秀丽的新疆，这里不仅有着得天独厚的地理优势，更汇聚了一流的师资力量和先进的教学设备。我们的教师团队由经验丰富的行业专家组成，他们将用最专业的知识和最热情的态度，为你量身打造一套完整的无人机培训课程。在这里，你将学到无人机的基本构造、飞行原理、操控技巧等基础知识，还能亲自上手操作

新疆无人机考证中心 2024-12-25

车用镀膜湿巾，让爱车时刻 “高光” 出行

车友们，今天我来给大伙分享一款特别棒的车用镀膜湿巾！这镀膜湿巾的效果那叫一个好！拿它轻轻一擦，车子就变得又亮又新，好像刚从 4S 店开出来一样。它里面加了巴西棕榈蜡和苯扎氯铵。精选巴西棕榈蜡重现皮革自然光泽，苯扎氯铵清洁的同时还能除菌。我老公那开了好几年的宝骏，特别旧，有一些小划痕和污渍，用了这镀膜湿巾，划痕不怎么看得出来了，污渍也很容易就擦掉了，而且车亮了好久。有了它，不用老是往洗车店跑啦，自己在家就能把爱车保养好。车友们让你的车成为路上抢眼一下吧！

固特威官方 2024-12-25

全焦段人像摄影的新标杆！vivo S20 Pro深度评测

最醉科技 2024-12-25

什么是第三方检测机构？能为企业做什么？

第三方检测机构，也称为公正检验机构，是指独立于产品或服务的提供者和使用者之外，提供公正、客观、科学检测和评估服务的组织。这些机构依据相关法律、标准或合同进行商品检验、测试等活动，以确保产品或服务的质量和安全性。它们的存在对于政府监管是有效的补充，帮助政府摆脱信任危机，同时也支持产业转型升级，为产业发展提供服务平台。第三方检测机构的服务内容广泛，包括但不限于产品质量检测、环境检测、食品安全检测、建筑工程检测和医疗器械检测等，安畅检测主要业务范围是软硬件检测。这些机构必须获得国家相关部门的资质认可，如中国合

齐鲁物联网测试中心 2024-12-25

Sora爆红视频幕后：被骗了，用了成吨的后期才有这效果

推荐体验

相关资讯

Sora被喷“造假”，幕后团队揭秘：大量人工后期参与

使用chatgpt有问题，感觉被骗了

Sora遭遇强敌，造梦机器爆红：实测效果让人意外

ChatGPT似乎没那么厉害，别被骗了！

必备教程|“网上的大小和单双被骗了r

近期资讯

【新疆专业无人机培训】加入保华润天航空，开启你的无人机飞行梦！

【独家】微软游戏解决方案架构师专访：谈人工智能如何改变游戏行业！

时空日报|Adv. Sci：单细胞与空间转录组学描绘肝内胆管癌前沿区域的微结构和免疫景观

空间蛋白组：点亮脑科学研究的璀璨星辰

新疆保华润天航空培训中心：无人机CAAC执照培训的精英摇篮

车用镀膜湿巾，让爱车时刻 “高光” 出行

全焦段人像摄影的新标杆！vivo S20 Pro深度评测

什么是第三方检测机构？能为企业做什么？

全套资料看这里，记得一键三连哟！

DSE各科详解 —— 物理考什么？转轨DSE的学生都选什么内容？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响