就在那边 Google 的量子计算芯片 Willow 横空出世、引发科技圈热议之际,这边的 OpenAI 经过 10 个月的预览测试,于今日正式推出视频生成模型 Sora 的全新版本——Sora Turbo(https://sora.com/),成功抢占了一波热度。
如果你是 ChatGPT Plus 用户(20 美元/月,约 145 元),能直接免费使用 Sora,每月可生成最多 50 个 480p 分辨率的视频,或少量 720p 分辨率的视频,算下来,平均每条视频需要 2.9 元。而 Pro 版本(200 美元/月)可以拥有 10 倍的生成配额、更高的分辨率和更长的视频时长。同时,OpenAI 透露,其内部正在开发针对不同用户需求的定制定价方案,计划于明年年初推出。
时下,Sora Turbo 一经发布便引发热潮,用户蜂拥而至想要抢先体验,却导致 OpenAI 服务器一度无法访问。对此,OpenAI 也有些无奈地宣布,暂时禁用了 Sora 账户创建功能,等后续会再开放。
最高 1080p、时长 20 秒的 Sora Turbo 正式上线
作为一款旨在理解和模拟现实的 AI 基础模型,OpenAI 表示,Sora 是开发能够与物理世界交互的模型的重要一步,也是实现 AGI 里程碑事件。
简单来看,只需要一句普通的自然语言,Sora Turbo 就能够迅速生成分辨率高达 1080p 的视频,时长最长可达 20 秒,同时还支持宽屏、竖屏或方形画幅:
另外,你也可以导入自己的素材对视频进行扩展、混合或重制,进而通过文本 Prompt 生成全新内容。
正如网友 @blizaine 展示的,他把两个不同的镜头视频合二为一,得到了右边的完整视频,谁能想到这是 AI 生成的:
来源:https://x.com/blizaine/status/1866208282500530503
当然你也可以基于同一个 Prompt,得到两个视频,然后通过 OpenAI 提供的 Blend 功能将视频合并。不过,这里也不难看出 Sora Turbo 最初生成的右边视频还是有些缺陷的,但是可以通过 Blend 功能进一步修复:
https://x.com/blizaine/status/1866249790192783523
值得注意的是,OpenAI 还为 Sora Turbo 开发了新的界面,基于简单的流程,用户就可以通过文本、图像和视频向 Sora 提示得到想要的视频内容。在新版 Sora 中,OpenAI 还带来了一项名为“分镜”的工具,允许用户为每一帧精确指定输入内容,也可以通过“精选”和“最近”两个动态更新的内容流,欣赏其他人生成的最新作品。
许多人直观地感受到,这是否意味着视频剪辑师即将迎来“解放双手”的时代?随着像 Sora Turbo 这样的 AI 视频生成工具的推出,繁琐的剪辑流程似乎正在被重新定义,让创作者可以将更多精力投入到创意构思和内容策划上了。
Sora 背后的技术
从技术角度来看,据 OpenAI 官方介绍,Sora 以 DALL·E 和 GPT 模型为基础,它使用的是一种扩散模型(Diffusion Model)和 Transformer 架构。
OpenAI 表示,它「从一个看起来像静态噪声的基础视频开始,逐步去噪生成完整的视频。通过为模型提供同时预测多个帧的能力,Sora 成功解决了一个棘手问题——确保当拍摄对象即使短暂离开视野时,其视野仍然保持一致。」
在细节技术应用维度,OpenAI 称,Sora 借鉴了 DALL·E 3 中的重描述(recaptioning)技术,这种技术是通过增强训练数据的文字描述来提高模型的理解力和生成能力,确保 Sora 能够更精准地根据文本指令生成视频内容,这种方法有效缩小了用户指令与生成结果之间的差距。
除了根据文本指令生成视频外,Sora 还可以将现有的静态图像转换生成视频,准确地为图像内容添加动画效果,进行细节处理等,不难设想,这一应用倒是可以与电商场景中的产品展示能够完美契合。与此同时,模型还可以基于现有视频进行扩展或补全缺失帧。
给一张静态图
,时长00:05
得到一个全方位展示的视频
至于如何做到这一点的,OpenAI 解释道,Sora 模型借鉴了 LLM 的设计理念。LLM 通过在海量互联网数据上训练,具备了通用能力,其成功的一部分来自于 token 机制。这种机制将文本的多种形式,如代码、数学公式和自然语言,统一为一种通用的表达方式。Sora 将这一理念应用到视觉数据中。
不过,与 LLM 使用文本 token 有所不同的是,Sora 采用的是“视觉补丁”(visual patches)的方式。也有研究表明,视觉补丁是一种高效的图像和视频数据表示方法,尤其在处理多样化的视频和图像生成任务时表现出强大的扩展能力和效果。实现这一点的过程分为两步:先将视频压缩成低维度的潜在空间,再将其拆解为可以表示时空信息的补丁(spacetime patches)。
而在数据来源方面, OpenAI 表示,Sora 的训练数据主要涵盖了三大类:
公开数据:包括行业标准的机器学习数据集和从互联网爬取的公开数据。
专有数据:通过合作伙伴关系获取的非公开数据。例如,Sora 的开发团队与 Shutterstock 和 Pond5 合作,提供 AI 生成的图像,并定制了适合模型需求的专用数据集。
人工数据:来源于 AI 教练、压力测试团队以及员工的反馈,用于不断优化模型性能。
Sora 版本仍然存在许多局限性
时下,想必动作快的人已经率先体验上的 Sora 强大的生成视频能力。据悉,这款工具已经向美国用户以及“可用的多数国家”公开上线,但该公司尚未确定在欧洲、英国以及其他一些国家推出该工具的“时间表”,或许是因为监管的风险。
在体验过程中,OpenAI 也提前在官方通告给众人先打了一波预防针——目前上线的 Sora 版本存在许多局限性。它经常生成不符合物理规律的内容,并且在处理长时间复杂动作时表现欠佳。
这不,已经有用户实测 Sora 的文字转视频功能,发现了一些问题,譬如:
在生成的视频中出现随机字幕故障
稳定性也仍需要改进
有时,人物会移动,但背景会保持静止
最终这名用户得出结论,Sora 虽然很有潜力,但相比之下,Runway、Kaiber 等视频生成模型竞争对手还没有退出这场竞争。
其实,这也是为什么 Sam Altman 称要将其视为 GPT-1 时刻而非 GPT-4 时刻的主要原因,当前 Sora 生成的视频还是需要人类参与校正与优化。
尽管还有许多不完善之处,但 OpenAI 还是选择此时将这款模型面向用户开放,其表示——Sora Turbo 上线的主要目的是为社会提供时间去探索其潜力,并共同制定规范和保障措施,确保随着技术的发展能够负责任地使用它。
充满争议视频生成 AI 工具
随着聊天机器人和图像生成器逐步渗透消费者和商业领域,视频毋庸置疑正成为生成式人工智能的下一个竞争前沿。
纵观视频生成领域,各大科技巨头动作频频:今年 1 月,谷歌推出了 Lumiere;Stability AI 发布了 Stable Video Diffusion;亚马逊推出了 Create with Alexa;国内腾讯的混元大模型几天前刚刚上线视频生成功能,并开源了相关技术。此外,还有传闻称 Kimi 正在内部灰度测试 AI 视频生成功能。在这一背景下,Sora 率先向公众开放,既备受期待,又伴随着争议。
事实上,Sora 的发展之路并不顺利。因为就在上个月,一些提前获得该工具的电影制作人、艺术家在 AI 开源社区 Hugging Face 上故意泄露 Sora 模型的 API 试用接口,怒批 OpenAI 不够开放,其表示:“我们被邀请成为 Sora 的早期测试人员、红队成员和创意合作伙伴,但事实却是被引导进行‘艺术清洗’,目的是向外界宣传 Sora 对艺术家的友好性。”
这些艺术家进一步指出,他们在测试和反馈过程中为 OpenAI 提供了大量无偿劳动。“数百人免费贡献自己的时间和创意,但只有极少数通过比赛获选,有机会展示使用 Sora 创作的作品。这些回报少得可怜,与 OpenAI 因此获得的巨大公关和营销价值相比,根本无法相提并论。”
OpenAI 发言人当时表示:“我们 Alpha 版中的数百名艺术家塑造了 Sora 的发展,帮助确定了新功能和保障措施的优先顺序。参与是自愿的,没有提供反馈或使用该工具的义务。我们很高兴为这些艺术家提供免费访问权限,并将继续通过赠款、活动和其他计划为他们提供支持。”
如果说版权、Sora 对艺术冲击只是争议的一方面,那还有更多未知的风险也随技术的广泛应用而出现。为了应对潜在的一些风险,OpenAI 称会在 Sora 模型中阻止特别有害的滥用形式,例如儿童性虐待材料和色情深度伪造。此外,OpenAI 限制用户上传真实的人物照片或者视频素材,仅面向 Sora 的部分用户提供该功能的访问权限,待深度伪造防范技术更加完善后再逐步推广。
最后,OpenAI 警示道,所有 Sora 生成的视频都附带 C2PA 元数据,用于标明视频来自 Sora,以及该团队还设置了默认可见的水印,并开发了一款内部搜索工具,通过识别技术特性验证视频是否由 Sora 生成。
参考:
https://openai.com/index/sora-is-here/
https://openai.com/sora/