一句话生成一段高清视频,OpenAI再次给业内带来震撼。
2月16日,OpenAI正式发布了首款文生视频大模型Sora,范例视频一经发布迅速引发业内热议,其接近商业化的水准的运镜呈现能力让网友直呼,“又有一个行业的人要失业了”。
高稳定性AI视频
2月16日,据相关媒体报道,美国人工智能公司OpenAI发布了首款文生视频模型——Sora。
随着此消息一起发布的,还有一段时长为1分钟的范例视频。
这段视频采用一镜到底的方式拍摄,值得关注的是,不同于此前许多AI大模型文生图时,人物形象前后不一致,此次OpenAI的视频大模型中女主角、背景人物,都展现了极强的一致性。
并且在随后公布的多段AI生成的视频中,无论镜头如何切换,人物前后都保持了高度的稳定性。
据OpenAI官网介绍,此次大模型“通过一次性为模型提供多帧的预测,我们解决了一个具有挑战性的问题”。据了解,此次大模型完美继承DALL·E 3的画质和遵循指令能力,能生成长达1分钟的高清视频。
对于此次新发布的大模型,OpenAI的创始人山姆·阿尔特曼(Sam Altman)显然也自信满满,他在社交平台上发布多条动态推荐,还亲自下场为网友生成视频:“你们随意来prompt,我一一输出。”
“从图片到视频是大模型技术的一轮提升。”一家国内大模型厂商工程师表示,由于此前的AI文生图都具有一定随机性,因此若一帧一帧生成视频很容易出现主体人物前后不一致的问题。
而从此次Sora展现出来的超强稳定性来看,这款大模型从技术上应该实现了重要突破。
对于技术,目前OpenAI方面并未做过多的透露,从其官网简介来看,Sora是一种扩散模型,从噪声开始,能够一次生成整个视频或扩展视频的长度。关键之处在于一次生成多帧的预测,确保画面主体即使暂时离开视野也能保持不变。
同时,与GPT模型类似,Sora使用了Transformer架构,有很强的扩展性。在数据方面,OpenAI将视频和图像表示为patch,类似于GPT中的token。
商业性令人期待
自去年大模型热潮兴起以来,围绕大语言模型,国内外的厂商推出了大量相关的大模型应用。不过从目前来看,除了对话类的大模型外,大部分大模型在商业上的性能均有待提高。
而此次OpenAI的新模型则让业内看到了文生视频系大模型商业化的前景。此次Sora在范例演示中展现的多种性能已经非常接近视频工业中的日常需求。
其一便是多机位的灵活切换。
在此次演示的多段视频中,从手持相机视角到无人机空中俯拍,Sora生成的视频可以自动采用多机位、多景别的拍摄手法。而相比之下,此前的AI视频大模型大都只能以一个机位固定演示视频。
机位与景别的灵活切换,意味着Sora对指令语言有着更为深刻的理解,能够准确从用户的文字指令中提取需求,并将这些元素在现实的复杂环境中自然呈现出来。而这甚至包含了一些现实世界中物理法则的自然运用。
另一方面,Sora展现的超强学习能力,令其在动画方面展示出“无师自通”的天赋。
在此次放出的示范视频中,有一段指令为“一个短毛绒怪物跪在一支红蜡烛旁的动画场景”的视频令人印象深刻。
根据这段指令,Sora生成了一段类似于皮克斯动画电影中的怪物形象。而在这段3D动画中,Sora展现了对动画毛发特性与纹理的惊人理解。
而要知道,作为3D动画中极为重要的一部分,毛发的渲染一直是行业里“费事费力”的一环。公开报道显示,皮克斯动画作品《怪兽公司》曾经花费数月的时间只为渲染出动画中怪物自然飘逸的毛发。
而如今,Sora能在短短数分钟之内完成这一工作。
该项目的研究科学家Tim Brooks表示,“这并非我们预先设定的——它完全是通过观察大量数据自然而然地学会的。”
不过,目前Sora在部分细节的生成上依然存在问题,如会凭空生成目标。同时对于一些复杂的物理场景,Sora也可能会生成错误的物体,如沙滩上浮空的塑料椅子等。
OpenAI表示,Sora将首先提供给网络安全教授,以评估产品的危害或风险。一些视觉艺术家、设计师和电影制作人也能获得Sora的访问权限,以此收集关于创意专业人士如何使用Sora的反馈。
来源:上海证券报