OpenAI于今日凌晨发布了一项重大突破——其首个文生视频模型Sora正式亮相。这一创新性的模型能够直接生成长达60秒的细致视频,其中包含了精细的背景描绘、多角度的复杂镜头切换,以及富有情感的角色表现。
目前,OpenAI的官网上已经展示了48个由Sora生成的视频示例。从这些示例中,我们可以清晰地看到Sora的强大能力:它不仅能够准确地呈现细节,还能深刻理解物体在现实世界中的存在状态,并生成具有丰富情感的角色。此外,该模型还能根据用户提供的提示、静止图像或现有视频中的缺失帧来生成相应的视频内容。
据了解,Sora的工作原理是基于扩散模型。它从一个类似于静态噪声的视频开始,通过多个步骤逐渐去除噪声,使视频从最初的随机像素转化为清晰的图像场景。值得一提的是,Sora采用了Transformer架构,这使得它具有极强的扩展性。在视频和图像的处理上,Sora将数据划分为较小的单位集合,称为“补丁”,每个“补丁”都类似于GPT中的一个标记(Token)。这种统一的数据表达方式使得Sora能够在更广泛的视觉数据上进行训练和扩散变化,包括不同的时间、分辨率和纵横比。
Sora的发布无疑将对内容创作行业产生深远的影响。一位在YouTube上拥有15年经验的博主Paddy Galloway表示:“OpenAI刚刚的展示让我无言…动画师/3D艺术家们有麻烦了,素材网站将变得无关紧要,任何人都可以无壁垒获得难以置信的产品。内容背后的‘想法’和故事将变得更加重要。”
然而,尽管Sora在视频生成方面取得了显著的进展,但它仍然存在一些局限性。OpenAI坦承,Sora可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。例如,在模拟人咬饼干的过程中,饼干上可能不会留下咬痕;而在呈现玻璃破碎的场景时,物理过程也可能无法被准确还原。尽管如此,Sora的出现仍然为AI技术在视频生成领域的发展开辟了新的道路。