OpenAI新产品Sora在年初面世的消息堪称炸裂,它可从文本直接生成视频,最长60秒。
一年前,AI生成的视频还只能当做恐怖片来看。视频中的人物面部会随机破裂,也无法形成完整的手部形状,画面更是随着镜头移动支离破碎。任何人都能一眼看出它与真实的区别。
一年后,Sora生成的视频,已经可以以假乱真。比如下面这段航拍,如果我不提前说明,这是Sora生成的画面,没人能看出破绽。
观众大概率会将它当做众多无人机航拍视频中的一段,一晃而过。假设用着这样的视频做素材,无需设备投入,无需航拍许可,无需购买版权,成本直线下降。效果糊弄普通观众绰绰有余。
还有这一段,大量老电视摆在一起的画面。
以前需要找道具,现在直接AI生成。
Sora目前还没有开放给公众使用,但可以在OpenAI的网站上,直接观赏官方放出来的视频片段。
那一段,长达60秒,1080p高清,时尚女性在东京街头漫步的短视频,甚至连倒影细节都照顾到,难辨真伪。
这段视频的提示词,并不复杂:
Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.more
当然,官网放出的视频,必然经过挑选,效果炸裂可想而知。Sam Altman也在Twitter在线接单,选择@他的提示词,生成视频,然后放出来。
认为世界末日即将到来的人,倒也不必急于原地爆炸。目前AI生成的视频,是通过文字描述,一帧一帧画出来的。它局限于每张图片的质量,以及AI在不同帧之间关联性的理解。细节越多的地方,越容易出现漏洞。
比如,淘金潮记录短视频中,奇怪的两脚马。
搞不清楚的动物,或者人。
祖母捧起玻璃碗时,手指忽然出现虚影,变成多指。
踩完奶的小猫,爪子变多。
无中生有,而且缺胳膊短腿的小熊猫。
然而,时间才过去一年。一年而已。AI绘图的进展,有目共睹。今年微信红包封面,大量AI作品涌现,极大地降低了制作者的门槛。想象力爆炸。略具技巧的人,甚至做起买封面的生意,月入2万。虽然也就这半个月。
既然变化无可阻挡,不如顺应潮流。
第一步,学好语文。再简单的提示词,也要具备完整的描述,尽可能精确表达。AI在瞎编乱造方面的能力极强,提示词是拉住它的缰绳。漫无目的的作品展示,可以自由发挥,但对人类来说,总要寻求一些所谓的意义。
从文字到图片,再到视频。对人类来说,越真实越简单,越抽象越困难。AI正相反,越抽象越简单,越真实越困难。在AI的世界里,不存在概念,只有按数学规律排列的点阵。没有规律的点阵,被人类定义为噪声,有规律的点阵,则被定义为图像。
OpenAI抢占了文字生成式AI的先机,Midjourney和开源的Stable Diffusion遥遥领先在图像生成上。只剩下最接近真实的连续画面,也就是视频,还差强人意。Pika,Runway,以及一大堆初创公司,正努力攻坚最后一公里。
24年1月份,Pika最新的进展,一键生成3秒,72帧的视频。而Runway gen2目前视频长度的上限是18秒。
OpenAI突如其来的更新,Sora,直接将核心指标推高到60秒,彰显自己技术强劲,财大气粗。原本就拥挤的赛道,忽然多了一只霸王龙。如果初创公司不能快速差异化,在细分领域做出特色,被巨头“祭天”是迟早的事。
如火如荼的短视频,即将迎来新一波压力。也许,文字创作者反而能够借此机会,利用AI,抓住潮流的尾巴。
至于很多人担心的,AI被用来造假,诈骗。我觉得还为时尚早。AI只是在人类伪造内容的过程中,降低了一部分成本,还不足以构建一站式诈骗解决方案。AI超越不了现有的视频剪辑,换脸技术。之所以没人用这些技术来做大规模诈骗,完全是因为诈骗这种商业模式,也是有成本的,需要高价值标的才有意义。
人类在观看视频时,会被运动的主体吸引,而忽略细节。Sora“炸裂”的效果,正是因此取巧,大差不差,不能深究。想要用视频精确表达概念,还有很长的路要走。
Anyway,风光片,空镜头,背景素材,AI必将先一步突破。可以想见,明年的微信红包封面,大家都会用上效果炸裂的视频。
拥抱变化,努力跟上时代,比骂娘更有意义。