当前位置:首页|资讯|OpenAI|DALL·E

OpenAI发布研究文章,揭秘 Sora 更多技术细节

作者:我是张大宁发布时间:2024-02-16

当全世界还沉浸在对 Sora的惊叹中,OpenAI发布了一篇关于Sora模型的研究文章《作为世界模拟器的视频生成模型》,披露了更多的细节,我并非专业人士,但通读了几遍文章,查了些资料,虽然还是有很多不懂,也能提炼出一些相对比较重要的信息。

1.他们能训练出这个模型的基础是:找到了一种统一的用文本描述视频材料的范式,得以让大量的视频以及对应的描述材料去训练模型,得到这个模型能力就是文本和视觉呈现之间的某种互相生成关系(能力),那如何得到大量带有相应文本字幕的视频呢?他们应用了 DALL·E 3 中的重构字幕技术(原来是针对图片的)到视频。首先训练一个高度描述性的字幕生成器模型,然后使用它为训练集中的所有视频生成文本字幕。 可以想见,训练及使用模型耗费的算力惊人,所以不太可能在短期内大范围开放

2.大的框架是:扩散模型+时空补丁,基于深度学习的扩散模型,让一个随机噪声分布(指向图像的)转变成有意义的图像或视频内容,而时空补丁,定义了一个时间序列,使画面的的变化符合时间逻辑;

3.Sora 可以采样宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频。因为是直接生成而不是裁剪视频,在取景,动态效果上也有一定优势;

4.这个模型还有几个出人意料但合理的能力:

a.它可以从一个时间点,向前或者向后去延伸视频,也就是说以某个画面为基点,生成这个时点之前的一段视频或之后的一段视频;

b.自如改变视频的风格和环境;

c.通过插值方式自然的将两个视频连接起来;

d.这一点非常重要,就是这个模型涌现出了一定的“现实模拟”能力,在展示视频中我们看到的不同的镜头运用,包括 3D画面的一致性(比如同一物体因为镜头变化,呈现出的在视觉上保持形状的一致),还包括现实物体的交互(比如要面包后面包上的咬痕)并非刻意设计,或者“建模”的结果,而是自然涌现的,这点我们在纯语言模型上已经见识过了。而在这个模型上面涌现出的能力,用文章中的原话来描述“是开发物理和数字世界以及生活在其中的物体、动物和人的强大模拟器的一条有前途的道路。”

我们可以对比一下,用来制作游戏的物理引擎,虽然也可以一定程度上对现实进行模拟,但因为它是通过“确定一些规则”来建模的方式构建一切,因而对现实的模拟颗粒度会很快达到算力和规则复杂度的上限,而这种模型的模拟能力,因为不是基于规则而使基于大量数据产生的涌现,其上限要高得多。

所以,不仅仅是生成个逼真的视频这么简单,OpenAI负责 Sora模型开发的技术专家在社交媒体上发文称“他们相信这是通往 AGI的关键一步”。 



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1