Sora「翻车」：猴子长出鹦鹉尾巴，物体学会「穿墙术」

作者：极客公园发布时间：2024-02-29

「一只鹦鹉飞过青翠的哥斯达黎加丛林，然后降落在树枝上与一群猴子一起吃一块水果的俯视图；黄金时段，35毫米胶片。」这是彭博社给到 OpenAI 研究人员的提示词，后者使用这些提示词在 Sora 上创建了场景。

23日，彭博社联系 OpenAI 对 Sora 进行了测试，从结果来看， Sora还未到「黄金时段」。

在给到的四句提示语中，由于时间限制，Sora 团队只将其中两句提示词生成了视频。

问题出现了。

在时长仅有10秒的视频中，一只鹦鹉在丛林中飞翔，乍看正常，细看就会发现，鹦鹉的翅膀在飞过猴子时会扭曲，并且，提示语中之要求「一只鹦鹉」， Sora 输出的视频里却出现了好几只，并且，视频中一只猴子的臀部似乎还有一条鹦鹉的尾巴。这么看，似乎有点「翻车」即视感。

Sora生成的鹦鹉与猴子｜视频来源：彭博

对此，OpenAI 研究科学家 Bill Peebles （比尔·皮布尔斯）也对彭博承认了这一点，「确实片段中到一些奇怪的动作。」

在The Verge 截取发布在TikTok上的这段由 Sora 生成的视频片段中同样可以看到一些不合理的情况，包括物体相互穿过、变形，这背后反映的是 Sora 在还不能够准确理解和呈现物体的物理特性：篮球穿过篮筐的侧面，狗在走路时相互穿过，手的形状也有点奇怪。

篮球穿过篮筐的侧面｜图片来源：TikTok

狗在走路时相互穿过｜图片来源：TikTok

YouTube上也有一位博主更为详细地解析了 Sora 产出的视频中存在的问题，与The Verge展现的类似，除了狗狗似乎在互相穿过身体的那支视频，在一只柯基犬的 vlog 里，有一只海鸥飞到了相机前却又突然消失，随后画面里又出现了另一只，以怪异的方式在行走；在一个建筑工地的视频里，一辆叉车似乎可以不受周围物体的影响轻松通过。此外还有一个生日派对的场景，参与者的表情和动作看起来都有种说不出的诡异感。

看起来，虽然 Sora 可以生成出色的视频，但当场景复杂时，它可能会给出一些不符合现实场景的动作。OpenAI 官方也表示，Sora 还有很长的路要走，有很多技术挑战需要解决——包括前面提到的身体部位的杂乱问题和对物理学的理解水平。

OpenAI 在 Sora 的技术报告中指出，Sora 作为视频生成模型在模拟现实世界时面临一系列挑战和局限性。具体来讲，Sora 在技术层面存在以下主要局限：

物理交互的准确性：Sora 在模拟一些基本的物理交互现象时存在不足，例如无法准确模拟玻璃破碎等物理现象。
对象状态变化的一致性：在模拟如进食等交互时，Sora 可能无法产生正确的物体状态变化，导致视频中出现不连贯的视觉效果。
长期样本的连贯性：在生成较长时间跨度的视频样本时，Sora 可能会出现连贯性问题，导致视频中出现不自然的过渡或物体的突然变化。
物体的自发出现：Sora 有时会在视频中自发地生成物体，这些物体可能与场景不匹配或在逻辑上不合理。
手部和身体部位的处理：Sora 在处理手部和身体部位时存在问题，如手部可能表现得不自然或与其他物体发生不真实的交互。
计算资源的需求：Sora 生成视频需要较多的计算资源和时间，这限制了其在实时或快速响应场景中的应用。
模型的泛化能力：尽管 Sora 在某些特定场景下表现出色，但它在泛化到新场景和处理多样化输入方面可能还有待提高。
视频编辑和扩展的能力：虽然 Sora 能够执行一些视频编辑任务，如扩展视频或改变场景设置，但这些功能可能在复杂场景中表现不佳。

由于上述技术局限，在让外界惊鸿一瞥后，Sora 的短暂「翻车」似乎也并不令人意外。

作为一款文本转视频模型，Sora 采用了Diffusion transformer技术（包括特征提取、编码、序列组合等多个步骤）。

与大模型处理文本的原理类似，Sora将视频内容分解成一系列patch（视觉编码块），这些patch类似于视频的视觉词汇，然后，它会对这些patch进行降维处理，以便于分析和理解，在这一过程中，Sora通过去噪技术，从带有噪声的patch中预测出清晰的原始图像信息，最终合成为连贯的视频。换句话说，Sora 的训练过程类似于人类的认知过程，这一点让它极大地优化了视频生成的效果。

随着技术的突破，问题会解决。对于推新飞快的 OpenAI 来说，应该用不了很久。

Sora「翻车」：猴子长出鹦鹉尾巴，物体学会「穿墙术」

推荐体验

相关资讯

Sora「翻车」：猴子长出鹦鹉尾巴，物体学会「穿墙术」

Sora「翻车」：猴子长出鹦鹉尾巴

外媒体验Sora：猴子长出鹦鹉尾巴，OpenAI称还有很长路要走

仅需一小时，教你用豆包 MarsCode 学会图像物体识别

鹦鹉视频聊天结识网友，LeCun：将大模型称为随机鹦鹉是辱鹦鹉

近期资讯

许昌恒昊申请具有荷叶效应蚀刻玻璃制作方法专利，实现水滴迅速滚落

厦门晟厉取得一种钣金件冲压定位辅助装置专利，解决冲压配合问题

佛山市陶莹新型材料申请超立体渗花釉及其制备工艺专利，使制得的超立体渗花釉成品有更好的质感

昆山合德欣取得金属板材加工用冲压模具专利，提高效率

苏州宇浩申请新型超薄玻璃单面减薄方法专利，能够提升减薄效果与质量

龙工（江西）机械有限公司取得一种销轴校正夹紧夹具专利，能够快速夹紧校正焊接后变形的销轴板

博莱诺（昆山）新能源科技有限公司取得料带送件机构专利，更加方便地调节支座对料带进行限位

厦门市锐研机械设备有限公司取得适用于不同直径的找圆心定位装置专利，操作方便

清创智申请光纤预制棒石英把棒熔接热防护涂层专利，涂层强度高、耐高温

科瑞森取得用于滚弧机的板材保护支撑板专利，可有效保护板材且提高安全性

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响