OpenAI推新款大模型Sora，可根据文本生成60秒视频

作者：澎湃新闻发布时间：2024-02-16

·Sora可根据文本指令生成60秒视频，可生成具有多个角色、特定类型运动及精确主题和背景细节的复杂场景，并在单个生成视频中创建多个镜头，准确保留角色和视觉风格。

·OpenAI正在教AI理解和模拟运动中的物理世界，目标是训练模型来“帮助人们解决需要现实世界互动的问题”。不过，Sora在提示空间细节方面会混淆左右，也无法理解因果关系的具体实例。

Sora生成的视频：几只巨大的猛犸象穿过一片白雪覆盖的草地，长毛在风中轻轻飘动，远处是白雪覆盖的树木和大山。

开发出热门聊天机器人ChatGPT后，OpenAI继续在生成式人工智能上玩出新花样。2月16日，OpenAI推出新的AI大模型Sora，该文生视频大模型可通过快速文本提示创建“逼真”和“富有想象力”的60秒视频。

OpenAI表示，Sora能够根据文本指令生成长达60秒的视频，同时保持视觉质量并遵守用户提示。Sora可生成具有多个角色、特定类型运动以及精确主题和背景细节的复杂场景。该模型对语言有深刻理解，能够准确领会提示，生成令人信服的角色。Sora还可以在单个生成视频中创建多个镜头，准确保留角色和视觉风格。

Sora生成的视频：一只猫叫醒了正在睡觉的主人。

“这个模型不仅能理解用户在提示中要求什么，还能理解这些东西在现实世界中是如何存在的。”OpenAI表示，正在教人工智能理解和模拟运动中的物理世界，目标是训练模型来“帮助人们解决需要现实世界互动的问题”。

除了能够仅从文本指令生成视频外，该模型还能够利用现有的静止图像从中生成视频，精确地将图像内容动画化，也可以利用现有视频进行扩展或填充缺失的帧。

Sora有时会生成不合情理的动作，譬如在跑步机上倒着跑步。

不过，Sora仍在开发中，存在明显“弱点”，特别是在提示空间细节方面会混淆左右，也无法理解因果关系的具体实例，比如制作了一个视频，视频中有人咬了一口饼干，但之后饼干上没有咬痕。

Sora生成的视频：五只小狼在一条砾石路上嬉戏追逐，周围长满了草。Sora的缺点是动物或人会凭空出现，特别是在包含许多实体的场景中。

Sora生成的视频中，动物或人会凭空出现，特别是在包含许多实体的场景中。此外，Sora难以精确描述随时间推移发生的事件，例如跟踪摄像机的特定轨迹。

Sora生成的视频：一把普通的塑料椅子在沙漠中被发现，人们小心翼翼地挖掘并掸去沙子。在这个例子中，Sora没有将椅子建模为一个刚性物体，导致不准确的物理交互。

对于模型安全性的考量，OpenAI表示，计划与一个专家团队合作测试最新模型，密切关注错误信息、仇恨内容和偏见等。OpenAI还表示正在开发帮助检测误导性信息的工具，比如检测分类器可以判断视频是何时由Sora生成的。其文本分类器可检查并拒绝违反使用政策的文本输入提示，例如极端暴力、性内容、仇恨图像、名人肖像等。“我们还开发了鲁棒性的图像分类器，用于审查每个生成视频的帧，以帮助确保它在显示给用户之前符合我们的使用政策。”

OpenAI表示，Sora将首先提供给网络安全教授，以评估产品的危害或风险。一些视觉艺术家、设计师和电影制作人也能获得Sora的访问权限，以此收集关于创意专业人士如何使用Sora的反馈。

Sora生成的视频：在“赛博朋克”背景下，一个机器人的生活故事。

市场研究公司ABI research高级分析师里斯•海登（Reece Hayden）表示，尽管多模态大模型并不新鲜，而且文生视频的模型已经存在，但OpenAI声称Sora具有的长度和准确性使其与众不同。海登认为，这类人工智能模型可能会对数字娱乐市场产生重大影响，新的个性化内容将在各个渠道传播，“一个明显的用例是电视，创造简短的场景来支持叙事。”

OpenAI推新款大模型Sora，可根据文本生成60秒视频

推荐体验

相关资讯

OpenAI发布文生视频模型Sora，可根据文本生成60秒高清大作

OpenAI 推出首个文本生成视频模型“Sora”

突发！OpenAI震撼发布文本生成视频模型Sora

openai sora 只能根据文本生成视频？不，TA 是通用物理世界模拟器

王炸！OpenAI推出文本生成视频模型可根据文字生成逼真视频周鸿祎：中美AI差距将进一步拉大

近期资讯

2024年，35岁大学班主任工作分享

如何有效检测与解决 Kafka 中的消息积压问题？

MoonBit海外首秀｜新加坡Meetup精彩回顾

《爆肝整理》保姆级系列教程-玩转Charles抓包神器教程(6)-Charles安卓手机抓包大揭秘

19 个CSS小技巧

美团后端暑期一面，本来收到感谢信，但又复活了！

网页多模态建模思考

ByteHouse技术详解：基于OLAP构建高性能GIS地理空间能力

React前端权限管理思路

语音合成技术在货拉拉的应用

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响