当前位置:首页|资讯|AIGC|OpenAI|Sora

AIGC专题:Text-to-Video的GPT-3时刻已来:OpenAI的SORA模型引领新技术突破

作者:烟树晚雁发布时间:2024-03-01

原标题:AIGC专题:Text-to-Video的GPT-3时刻已来:OpenAI的SORA模型引领新技术突破

今天分享的是AIGC专题系列深度研究报告:《AIGC专题:Text-to-Video的GPT-3时刻已来:OpenAI的SORA模型引领新技术突破》。

(报告出品方:天风证券)

报告共计:12

海量/完整电子版/报告下载方式:公众号《人工智能学派》

SORA 模型具有强大视频生成能力

2 月 16 日,OpenAI 发布了新一代视频生成大模型 SORA,模型可以直接输出长达 60 秒的 视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。相比较 而言,Runway Gen 2、Pika 等 AI 视频工具,都还在突破几秒内的连贯性,而 OpenAI, 已经达到了史诗级的纪录。OpenAI 表示目前已交由 Team Red(网络安全演习中扮演敌 人或竞争对手角色的群体)测试 SORA,评估潜在的危害或风险。此外 OpenAI 还邀请了 一支专业的创意人士测试,用于反馈其在专业环境中的实用性。OpenAI 计划根据这些反 馈意见改进 SORA,确保它能有效满足用户的需求。演示视频非常超现实。

SORA 模型展现出了涌现能力

OpenAI 在训练 SORA 模型后发现在大规模训练后,模型展现出了一些有趣的涌现能力。 这些能力能让 SORA 从物理世界中模拟现实世界中的一些人、动物和环境。这些能力表明 不断地扩大视频模型的规模是构建世界模拟器的有效道路。这些纯粹是规模效应的现象, 是 SORA 自己根据训练的内容,判断出的现实世界中的一些物理客观规律,并非通过为 3D、物体等添加明确的归纳偏置而产生。

(1)三维一致性:SORA 可以生成动态摄像机运动的视频。当摄像机移动和旋转时,人和 场景元素在三维空间中一致地移动。人工智能理解三维物理世界跟人类理解三维物理世界 的方式不一样,它采用了一种拓扑结构上的理解。SORA 的真实感非常强,换句话说,纹 理映射在拓扑结构上就得非常准确。三维一致性能力使 SORA 能够模拟来自现实世界中人 物、动物和环境的某些方面。

(2)长范围的时间一致性和物体持久性:OpenAI 研究发现 SORA 经常能够有效的的模 拟短期和长期的依赖关系。

(3)与世界互动:SORA 能够以简单的方式模拟影响世界的动作,例如一个人可以吃汉堡 后留下咬痕。

(4)模拟数字世界:SORA 可以模拟人工过程例如视频游戏,例如 SORA 可以在 Minecraft 控制玩家,同时遵守这个世界的基本逻辑,还能够呈现出这个世界的动态高保真。这些功 能可以通过给 SORA 的 prompt 中包含 Minecraft 这一方式来完成。

对此,英伟达高级研究科学家 Jim Fan 认为:SORA 是一款数据驱动的物理模拟引擎,通 过一些去噪和梯度计算来学习复杂的渲染、「直觉」物理、长远规划推理和语义基础。它 直接输入文本/图像并输出视频像素,通过大量视频、梯度下降,在神经参数中隐式地学习 物理引擎。对比而言,UE5 是一个(非常复杂的)生成视频像素的过程,不同的是 UE5 是 人工制作和精确的,而 SORA 纯粹通过数据和“直觉”来学习。

SORA 模型依然存在“幻觉”等问题

目前 SORA 模型也存在一些缺陷,模型不能总是准确地模拟许多基本相互作用的物理过程, 并且可能无法理解因果关系。例如,一个人可能咬了一口饼干,但后来饼干可能没有咬痕。 该模型还可能混淆提示的空间细节,例如,混淆左和右,并且可能难以精确描述随时间发 生的事件,例如遵循特定的相机轨迹。我们认为就像 LLM 存在幻觉问题,SORA 可能也存 在 “幻觉”现象。

将不同类型的视觉数据统一为时空 latent Patches

OpenAI 认为,大语言模型 LLM 范式的成功部分是通过使用 token 来实现的,这些 token 优雅地统一了文本代码,数学和各种自然语言的各种形式。因此在 SORA 的训练中,OpenAI 思考生成模型的视觉数据如何继承这样的好处,而 Patches 先前已被证明是一种有效的表 示模型的视觉数据。OpenAI 认为 Patches 是一种高度可扩展和有效的表示方法,可以在不 同类型的视频和图像上训练生成模型。因此 SORA 训练过程中首先将视觉数据压缩后转化 为时空 Latent Patches,再让模型通过对数据的训练获得能力。

报告共计:12页

海量/完整电子版/报告下载方式:公众号《人工智能学派》


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1