东京街头,一位戴着墨镜、身穿红裙、踩着皮靴的女人在悠闲漫步,这段视频不是实拍,也不是CG合成,而是由AI自动生成,这就是最近引发关注的OpenAI发布的首个视频生成模型Sora,不仅如此,OpenAI还公布了其他几段视频,几只巨大的猛犸象在雪地奔跑、一只毛茸茸的小怪物跪在蜡烛旁边……视频质量媲美“大片”,视觉效果也十分逼真。
OpenAI介绍,Sora可以实现视频中的主题始终保持一致,即使暂时离开视野也不会发生变化,并可以一次性生成多机位视频,还可以依靠对语言的深入理解准确地解释提示词,保留角色和视觉风格。从ChatGPT到Sora,从文本到视频,AI大模型真的越来越神了吗?
海量数据让Sora越来越理解“人类世界”
“确实是非常难的,特别是要生成和现实世界接近的画面尤其难。”达观数据副总裁王文广说道,“它需要对我们整个物理世界有深刻的理解,比如人从一个地方走到另一个地方,空间上会有变化,前景可能会遮挡人物,层次关系很复杂,要完美地生成一个视频是非常不容易的。”
“OpenAI发布Sora的时候就提到,它是通过模拟世界去生成视频。在这个过程中,系统性地把世界怎么运行的视频样本学习了一遍,并且把这些数据信息压缩在它的模型中”看见概念创始人胡修涵表示。所以,在他看来,Sora的厉害之处,不在于它能生成视频而在于它会“思考”了。
能生小视频的AI能“拍”大电影吗?
最近,一个名为“AI疯人院”的博主在网上发布了一部令人震撼的《猴王问世》动画短片。这部短片利用AI技术制作而成,全长约3分56秒,其令人身临其境的逼真视觉效果让众多网友惊叹不已。动画短片以《西游记》中的经典情节为蓝本。视频中,宫殿群依山而建,错落有致,彰显出天庭的威严和神秘感;而花果山郁郁葱葱的树木,配合飞流直下的瀑布以及石桥,宛如一个世外桃源。视频制作者冯先生表示,自己会使用到ChatGPT、Midjourney、Runway等多个软件,简而言之就是先构思分镜头脚本、用文字生成静态图片、将图片生成动画、后期配音剪辑。
王文广表示,从理论上来讲是可以的,但是“要把这个模型训练出来,很贵”,目前Sora的训练经费已经达到百亿级别。这就是为什么,国内的大模型尽管也能生成视频,但效果上差距还是蛮明显的。说到差距,“从技术角度来说,大家大差不差,差别在于Sora是直接通过一段文本生成一个比较逼真的视频,但是我们国家很多企业现在做的更多还是类似动画,这个相对来说要简单一些,对模型能力和算力的要求也不需要像Sora那么强”,王文广说道。
“大家如果已经用过很多文字对话类生成的产品,也会发现,它还是会出现记忆丢失,或者根本不能通顺地写完所有内容的情况。”胡修涵表示,在他看来,我们目前直接通过文生视频生成一部电影长片,还有一段路要走。他也展示了一个自己公司的作品,通过输入《青花瓷》的歌词,自动生成了一段具有中国特色的动画视频,长35秒。“大模型学习了一个多月,在几十到上百个机器上进行训练,得到的一个基础模型”,胡修涵说道。
面向C端 持续优化
如何让大模型越来越“聪明”?胡修涵给出了自己的见解,他表示,“我们之前更多的产业应用是关注在一个特定行业去做一个比较定制的模型,这种模式服务的是一些大型客户和行业垂直的领袖,这种情况下数据其实是不能通用的。如果要让应用层带的AI发展继续往前走,我们需要有更多偏向C端的应用,让大家都能用得上的一些AI的应用,通过大量的数据反馈,持续去优化一个通用的AI模型。”