Sora炸裂登场，文生视频模型到底多“可怕”！

作者：Tonews发布时间：2024-03-25

新年刚刚开工，AI又来抢人类饭碗了。

2月16日，OpenAI在其官网发布了文生视频模型Sora。Sora作为OpenAI首推的文本转视频模型，能够严格根据用户输入的提示词、文本指令或静态图像，生成长达1分钟的视频，并且保持较高的视觉质量，其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。同时也接受现有视频扩展或填补缺失的帧。

横空出世的Sora，实现了三大突破：

一是Sora可生成60秒一镜到底视频。60秒的视频长度，远高于Pika Labs的3秒、Meta Emu Video的4秒和Runway公司Gen-2的18秒的视频时长，并且能保持视频主体与背景的高度流畅性与稳定性。

二是单视频多角度镜头，Sora在一个视频内实现了多角度镜头，分镜切换符合逻辑且十分流畅。

三是理解真实世界的能力，OpenAI利用大语言模型优势，让Sora实现了对现实世界的理解和对世界的模拟两层能力。Sora产生的视频里，它能像人一样理解坦克是有巨大冲击力的，坦克能撞毁汽车，而不会出现汽车撞毁坦克这样的情况。同时Sora对于光影反射、运动方式、镜头移动等细节也处理得十分优秀，极大地提升了真实感。

目前其官网已更新了48个视频demo，在这些demo中，Sora不仅能准确呈现细节，还能理解物体在物理世界中的存在，并生成具有丰富情感的角色。无论从视频流畅度还是细节表现能力上，Sora的效果都相当惊艳。

AI想象中的龙年春节，红旗招展人山人海。有紧跟舞龙队伍抬头好奇观望的儿童，还有不少人掏出手机跟拍，海量人物角色各有各的行为。

例如一个Prompt（大语言模型中的提示词）的描述是：在东京街头，一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上。

在Sora生成的视频里，女士身着黑色皮衣、红色裙子在霓虹街头行走，不仅主体连贯稳定，还有多镜头，包括从大街景慢慢切入到对女士的脸部表情的特写，以及潮湿的街道地面反射霓虹灯的光影效果。

对于存在的不足，OpenAI也没有刻意回避，目前Sora可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系。在OpenAI发布的技术报告中有一段Sora模型生成的错误视频，展示了桌上的水杯会先从底部流出果汁，然后沿着错误的方向和角度倒在桌上。

OpenAI一直在教AI理解和模拟运动中的物理世界，目标是训练模型来帮助人们解决需要现实世界交互的问题。这次发布Sora只是小试牛刀，未来可能带来更具颠覆性的成果。

作为视频生成工具，Sora可以降低视频制作的门槛和成本，使得更多人能够轻松创建高质量的视频内容。这将对影视、广告、游戏、新闻、教育、VR\AR等诸多行业产生深远的影响。同时也将对视频剪辑师、后期制作等岗位产生冲击。后期制作包括剪辑、特效、音效等环节，这些工作都可以通过AI技术进行自动化或半自动化处理。

目前Sora模型还处于测试阶段，预计再经过一段时间的安全测试和用户反馈后才会正式提供服务。