图片来源:由无界AI生成
文章来源:机器之心
作者:机器之心编辑部
一篇论文回顾 Sora 文生视频技术的背景、技术和应用。
追赶 Sora,成为了很多科技公司当下阶段的新目标。研究者们好奇的是:Sora 是如何被 OpenAI 发掘出来的?未来又有哪些演进和应用方向?
Sora 的技术报告披露了一些技术细节,但远远不足以窥其全貌。
在最近的一篇文章中,微软研究院和理海大学的研究者根据已发表的技术报告和逆向工程,首次全面回顾了 Sora 的背景、相关技术、新兴应用、当前局限和未来机遇。
背景
在分析 Sora 之前,研究者首先盘点了视觉内容生成技术的沿袭。
在深度学习革命之前,传统的图像生成技术依赖于基于手工创建特征的纹理合成和纹理映射等方法。这些方法在生成复杂而生动的图像方面能力有限。
如图 3 所示,在过去十年中,视觉类的生成模型经历了多样化的发展路线。
生成对抗网络(GAN)和变分自动编码器(VAE)的引入标志着一个重要的转折点,因为它在各种应用中都具有非凡的能力。随后的发展,如流模型和扩散模型,进一步增强了图像生成的细节和质量。人工智能生成内容(AIGC)技术的最新进展实现了内容创建的民主化,使用户能够通过简单的文本指令生成所需的内容。