新年刚刚开工,AI又来抢人类饭碗了。
2月16日,OpenAI在其官网发布了文生视频模型Sora。Sora作为OpenAI首推的文本转视频模型,能够严格根据用户输入的提示词、文本指令或静态图像,生成长达1分钟的视频,并且保持较高的视觉质量,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。同时也接受现有视频扩展或填补缺失的帧。
横空出世的Sora,实现了三大突破:
一是Sora可生成60秒一镜到底视频。60秒的视频长度,远高于Pika Labs的3秒、Meta Emu Video的4秒和Runway公司Gen-2的18秒的视频时长,并且能保持视频主体与背景的高度流畅性与稳定性。
二是单视频多角度镜头,Sora在一个视频内实现了多角度镜头,分镜切换符合逻辑且十分流畅。
三是理解真实世界的能力,OpenAI利用大语言模型优势,让Sora实现了对现实世界的理解和对世界的模拟两层能力。Sora产生的视频里,它能像人一样理解坦克是有巨大冲击力的,坦克能撞毁汽车,而不会出现汽车撞毁坦克这样的情况。同时Sora对于光影反射、运动方式、镜头移动等细节也处理得十分优秀,极大地提升了真实感。
目前其官网已更新了48个视频demo,在这些demo中,Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。无论从视频流畅度还是细节表现能力上,Sora的效果都相当惊艳。
AI想象中的龙年春节,红旗招展人山人海。有紧跟舞龙队伍抬头好奇观望的儿童,还有不少人掏出手机跟拍,海量人物角色各有各的行为。
例如一个Prompt(大语言模型中的提示词)的描述是:在东京街头,一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上。
在Sora生成的视频里,女士身着黑色皮衣、红色裙子在霓虹街头行走,不仅主体连贯稳定,还有多镜头,包括从大街景慢慢切入到对女士的脸部表情的特写,以及潮湿的街道地面反射霓虹灯的光影效果。
对于存在的不足,OpenAI也没有刻意回避,目前Sora可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。在OpenAI发布的技术报告中有一段Sora模型生成的错误视频,展示了桌上的水杯会先从底部流出果汁,然后沿着错误的方向和角度倒在桌上。
OpenAI一直在教AI理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题。这次发布Sora只是小试牛刀,未来可能带来更具颠覆性的成果。
作为视频生成工具,Sora可以降低视频制作的门槛和成本,使得更多人能够轻松创建高质量的视频内容。这将对影视、广告、游戏、新闻、教育、VR\AR等诸多行业产生深远的影响。同时也将对视频剪辑师、后期制作等岗位产生冲击。后期制作包括剪辑、特效、音效等环节,这些工作都可以通过AI技术进行自动化或半自动化处理。
目前Sora模型还处于测试阶段,预计再经过一段时间的安全测试和用户反馈后才会正式提供服务。