当前位置:首页|资讯|OpenAI|腾讯|人工智能

效果惊人!OpenAI发布首个文生视频模型:能看到狗与雪花互动

作者:腾讯新闻潜望发布时间:2024-02-16

效果惊人!OpenAI发布首个文生视频模型:能看到狗与雪花互动

腾讯新闻《潜望》 纪振宇 发自硅谷

地球上最炙手可热的人工智能初创公司OpenAI,在美国时间2月15日又出其不意地放出了大招。这家公司当天公布了最新文生视频大模型Sora,展示的视频效果惊人,再度奠定了自己在生成式人工智能领域至今无可撼动的地位。

OpenAI称,Sora为能理解和模拟现实世界的模型提供了基础,这将是实现 AGI (通用人工智能)的重要里程碑。

OpenAI的这一描述十分准确,尽管过去两年人工智能文字机器人ChatGPT爆火,对文字展现出非凡的理解力和逻辑性,但其中所缺失的最大短板在于对人所处的真实环境的感知和理解,但Sora模型所展现出的能力,展现出模型已经对于空间以及空间内物体之间的真实物理关系,有了准确的理解,这无疑是OpenAI向其所宣称的达成AGI的目标迈出了一大步。

OpenAI公布的数十个视频演示,用肉眼已经非常难以察觉这些视频与真实世界拍摄的差异,尤其是视频中所展现出的物体和物体之间的真实物理反馈,正如OpenAI所说,这为模型理解和模拟现实世界提供了基础,是一次具有里程碑意义的重要发布。

Sora

模型生成视频与真实场景几无差异

OpenAI在15日当天发布Sora模型,该公司表示,Sora可以通过文字生成真实和想象的场景,目前Sora可以生成的单个视频时长为1分钟以内。

OpenAI在当天的官方博客中表示,Sora有能力创建“有众多人物的复杂场景,以及特定的动作,准确的对象细节和背景”,该公司还表示,该模型能够识别物体“在真实物理世界中的存在”,以及“准确解读提示词并生成对象来表达丰富的情绪”。

根据OpenAI官方描述,Sora模型还能够基于静态图片生成视频,以及在现有视频中插入图像帧。在当天OpenAI展示了部分由Sora模型生成的视频的惊人效果,包括行人在日本街头行走、狗在雪地中玩耍等丰富场景。

OpenAI提出,模型有时可能会在准确地模拟复杂物理世界场景中出现困难,但就OpenAI公布的部分Demo视频的效果来看,已经有十分惊人的表现,例如狗在雪地中玩耍的场景,无论是雪从狗身上滑落,还是狗与雪花之间的互动,都与真实物理世界的场景惊人一致,并没有出现明显的逻辑上的错误。

生成式人工智能领域由文字、图像正在逐渐向视频过渡,除了OpenAI外,Runway、Pika等相关领域的初创公司在近期都在文生视频领域取得显著的进展。此外,谷歌的Lumiere被认为是未来OpenAI在文生视频领域主要竞争者之一。

OpenAI当天表示,目前Sora仅向“ red teamers”开放,在大规模发布之前需要经过潜在的风险评估,OpenAI还向部分视觉艺术家、设计师、电影工作者等开放了Sora的早期使用,希望从早期使用者中获得反馈。

Sora

的背后技术

在公布Sora模型的同时,OpenAI也大致解释了Sora模型的背后技术。OpenAI表示,Sora 是一种扩散模型,它通过从一个类似静态噪声的视频开始,通过多步骤去除噪声,逐渐转换生成视频。

Sora 能够一次性生成整个视频,或者扩展已生成的视频使其更长。通过让模型一次预见多帧,解决了确保主体即使暂时离开视野也能保持不变的挑战性问题。

OpenAI表示,类似于GPT模型,Sora 使用了Transformer架构,解锁了更优越的扩展性能。在训练阶段,OpenAI将视频和图像拆解为数据的更小单元集合,称为“补丁”,每个“补丁”类似于 GPT 中的一个令牌。通过统一拆解数据的方式,可以在比以前可能的更广泛的视觉数据上训练扩散transformer,包括不同的持续时间、分辨率和纵横比。

由于Sora也是扩散模型,给定输入的噪声补丁(和条件信息,如文本提示),它被训练来预测原始的“干净”补丁。重要的是,Sora是一种扩散transformer。Transformer在包括语言建模、计算机视觉和图像生成等多个领域展现了显著的扩展性能。

Sora 建立在 DALL·E 和 GPT 模型的过去研究之上。它使用了来自 DALL·E 3 的重新标注技术,为视觉训练数据生成高度描述性的标题。因此,模型能够更忠实地根据用户的文本指令生成视频。

OpenAI称,Sora能够生成宽屏1920x1080p视频、竖屏1080x1920视频以及介于两者之间的所有内容。这使得Sora可以直接以不同设备的原生宽高比创建内容。它还允许以全分辨率生成内容之前,使用同一模型快速原型化较小尺寸的内容。

Sona模型的思路延续了OpenAI之前成功的GPT大语言模型的经验, OpenAI表示,从之前大语言模型的经验中获得了灵感,用于训练互联网量级的数据。

“大语言模型范式的成功部分由于使用Token来让文本、代码、数学和各种自然语言整合在一起,在这方面,我们考虑视频数据如何沿用这些经验。”OpenAI说。

过去生成图片和视频的方案通常是要将原始训练数据重新调整剪裁为统一格式,例如4秒的256*256分辨率的视频,但OpenAI则采取了更为通用的原生尺寸视频训练的方案。

OpenAI表示,这样的训练方式有几方面的好处,首先是取样上的灵活,让Sora可以根据不同的设备尺寸生成原生宽高比例适配的视频。OpenAI也表示,通过训练原生尺寸的视频数据,可以改善生成视频剪裁不合理的问题。

对于用简洁的文字提示就能够生成相对场景复杂的视频,OpenAI表示,这需要大量的有相应文字标题的视频数据作为训练,OpenAI将DallE模型上所使用的再生成标题技术运用到视频训练中,首先训练详细描述视频的标题模型,然后将其用于生成所有训练集视频的文字标题生成。

OpenAI称,与DallE3模型类似,Sora也运用了GPT的能力,将用户输入的较短的提示词,转为更长更详细的标题并输入到模型中,这能够让Sora在遵循用户提示词的基础上,生成更高质量的视频。

除了直接用文字生成视频以外,OpenAI表示,Sora模型还能够根据静态图像延展生成视频,并能够在已经生成的视频的基础上,继续将时间线向前或向后推移,生成更多内容。此外,扩散模型还能够在现有视频的基础上,通过更改文字提示对视频进行编辑。

Sora既然能够生成视频,自然也能够生成图片,也就是一帧的画面。OpenAI称,Sora能够生成不同尺寸的图片,最大分辨率达到2048x2048。

OpenAI表示,在训练Sora模型过程中,也发现了模型展现出一定的涌现能力,这让Sora能够模拟人、动物和环境在真实物理世界中的一些互动关系。“这些完全是规模带来的现象。”OpenAI说。

尽管Sora模型目前生成的视频演示结果已经十分惊艳,但OpenAI表示,Sora当前作为环境模拟依然面临许多局限性。例如,它并不准确地模拟许多基本互动的物理特性,如玻璃破碎;其他互动,如吃食物,不总是能产生正确的物体状态变化。OpenAI在当天的发布中,也将这些局限性展现在部分视频演示中。

OpenAI

朝着

AGI

又更近了一步

当天Sora的发布,再度对外展现了OpenAI超群的技术力,展示的生成视频已经用肉眼很难区别出是否是真实的场景,这其中更为重要的是,Sora模型展现出了对真实物理空间的理解力,这也进一步巩固了将通用人工智能(AGI)作为最终目标的OpenAI对目前所走技术路线的信心。

回过头来看,在一年多前推出的ChatGPT,是OpenAI所迈出的第一步,这款让所有人都能体会到人工智能潜力的现象级产品,展现出了文字对于过去人工智能的理解力和逻辑能力的超越,随后,OpenAI的开发重点又逐步过渡到图像的生成,Dall-E模型在生成图像方面也获得了巨大的突破,如今的Sora模型,是在ChatGPT和Dall-E的基础上自然的过渡。

从纯文字向多模态的过渡,是生成式人工智能领域几乎所有人都可以预见的路径,但现阶段比拼的依然是底层的技术力,从像谷歌这样的大公司到像Runway这样的初创公司,尽管都已经展示了类似的文本生成视频的AI项目,但OpenAI表示,Sora的区别在于其惊人的逼真度,以及其生成比其他模型通常做的短片段更长的剪辑的能力,长达一分钟。

要生成这样的内容所消耗的算力资源也是巨大的,虽然OpenAI目前对于生成一个这样的视频需要多长时间并没有准确的披露,但据内部员工透露,大概是出门吃个便饭的时间。尽管这样的速度要比生成文字或静态图像慢得多,但是如果效果是超逼真的视频内容,这样的生成时间目前来看也并不算离谱。

英伟达高级人工智能研究院Jim Fan在当天表示,不能将Sora简单理解为像Dall E那样生成图片的玩具,而是一个由数据驱动的物理引擎。

“它是许多,无论是真实的还是幻想的世界的模拟器。”Jim Fan说。

OpenAI表示,“Sora今天所展现的能力让我们相信,持续扩展视频模型是一条开发我们身处的物理和数字世界可行的路径。”


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1