当前位置:首页|资讯|OpenAI

Sora可能使用的AI核心技术猜测

作者:AI_Fox发布时间:2024-02-18

全球网友都在猜测,OPENAI的Sora,到底使用了哪些技术,使生成的视频超越同行几个维度

从目前Sora的视频表现来看,Sora可能使用的核心技术有以下几个,首先就是DiT








DiT

Sora的核心技术源自Diffusion Transformers (DiT)模型

最初由伯克利和纽约大学的两位研究人员在2022年12月提出,如今其中一位投身于Meta AI,另一位则为OpenAI效力...

DiT汇聚了VAE、ViT、DDPM等强大组件。

自编码器(VAE)被巧妙地融入,专攻视频数据处理,确保生成的视频在时间上呈现出流畅的一致性。

视觉变换器(ViT)则使得Sora更具灵活性,能够巧妙处理各类不同的视频数据,甚至只专注于视频中的某些特定部分。

DDPM为Sora注入了高质量视频生成的灵感和支持。




Sora的“视频压缩网络”实际上是一个在原始视频数据上训练的VAE自编码器,标记化在保持优秀的时间一致性方面发挥着关键作用。

在DiT项目的精髓中,强调了模型的简单性和可扩展性。ViT的灵活性让模型在处理输入数据时更加自如,而Sora生动展示了DiT的缩放定律在视频领域同样得心应手。

Sora的重要进展之一是其“新兴模拟能力”,尤其在长视频生成方面,以及对训练数据来源和构建的深入讨论。

或许,Sora还巧妙地融入了Patch n’ Pack(NaViT),以适应不同的分辨率、持续时间和宽高比。

NaViT模型,作为一种全新的视觉变换器,能够处理任意分辨率和纵横比的输入,摆脱了传统上需要将图像调整到固定分辨率的限制。


其灵活性和高效性不仅在使用上提供了巨大便利,而且在大规模监督学习和图像-文本对比学习中展示了卓越的训练效率。



NaViT更是展现了跨任务应用能力,能够高效迁移到图像和视频分类、对象检测、语义分割等标准视觉任务,并在这些任务上表现出色。

在推理阶段,NaViT的灵活性更是独具匠心,允许根据需要灵活调整输入分辨率,以在计算成本和模型性能之间找到最佳平衡。


SiT:

DiT在Sora中的应用表现出色,NYU的团队最近发布了一个新的DiT模型,名为SiT,保持了相同的架构却提供了更高的性能和更快的收敛速度。对其在视频生成上的表现引起了广泛兴趣。


相关链接:

  • DiT项目地址:https://wpeebles.com/DiT

  • DiT论文:https://arxiv.org/abs/2212.09748

  • Patch NaViT论文:https://arxiv.org/abs/2307.06304

  • SiT论文:https://arxiv.org/pdf/2401.08740.pdf






Copyright © 2025 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1