近日,OpenAI在其官网发布了首个文生视频模型——Sora,可生成最长1分钟的视频,超过Gen-2、SVD-XT、Pika等主流产品。
为配合中国的龙年春节,Sora生成的一处人们庆贺龙年的场景,大街上挤满了舞龙灯的人和观赏者,人山人海。而且,人物的行为举止各有风貌,有舞龙者的轻松和喜悦,有追着舞龙观看的好奇儿童,还有两旁和后面摩肩接踵的男女老幼,更有不少人掏出手机边跟边拍……这些场景几乎就是现实场景的翻拍。另一段视频是一位时尚女性走在雨后的东京街道上,城市的霓虹灯和动画城市标牌街景与其穿着的黑色皮夹克、红色长裙和黑色靴子互相映照,特写画面不只突出了她戴着太阳镜,涂着猩艳的口红,更凸显了她脸上的雀斑和作为岁月印记的皱纹。
OpenAI公布的细节表明,Sora不只是根据文字提示可以生成视频和图片,还可以图生视频,即用一张图片的提示生成视频,准确地把一张平面图的内容和细节转变成动态视频,同时还可以获取现有视频并对其进行扩展或填充缺失的帧,丰富和完善原有视频。因此,Sora是三栖产品,从这个意义上看,Sora的创新是里程碑式的。
现在,OpenAI的首席执行官奥特曼已经在线接单,也有一些视觉艺术家、设计师和电影制作人获得了Sora访问权限。
Sora的出现表明,通用人工智能(AGI)不仅离现实应用更近了一步,而且可以在更多的领域实现突破。2023年年底,《自然》杂志的一篇文章预测2024年的10大科学进展,包括了人工智能和聊天生成预训练转换器(ChatGPT)的突破,具有代表性的是,GPT-5将会问世,而且可能会比其前身GPT-4展示出更先进的功能。还有深度思考(DeepMind)人工智能公司将在2024年发布人工智能工具阿尔法折叠(AlphaFold)的新版本,将以原子精度模拟蛋白质、核酸和其他分子之间的相互作用,将为药物设计和发现开辟新的可能性。
但是,意想不到的是,AI的创新者们转了一个方向,推出了文生视频,而且质量上乘。文生视频的效果逼真意味着,影视、多频道网络(MCN)、动画、美术、艺术等的从业人员的严冬来临了,因为文生视频的速度和效果可以迅速取代影视行业更多从业者的工作,创作的内容和产品更丰富多彩,产品和产值也会成倍增加。另一方面,行业的准入门槛将变得更低,让演艺行业更为内卷。就连相关网站,如素材网站也将变得无关紧要,甚至会关门大吉。当然,文生视频并不完美,很多画面也与现实难以融入和衔接。因此,影视行业、MCN要使用成熟和逼真的文生视频还可能有一定时间。
尽管文生视频有着广阔的前景,但是其出现也意味着人工智能对社会的威胁更近了一步。诸如Sora一类的生成式AI产品会让更多的人认为其看到的图像、音频和视频是真实的,也因而让伪造和欺骗变得更简单更易行。例如,许多人工智能生成的与以色列-哈马斯冲突有关的“深度伪造”图像和音频在网络上大行其道,美国一些公众也接到了“深度伪造”的美国总统拜登的电话,知名歌手泰勒·斯威夫特AI虚假“不雅照”更是在网上疯传。
这意味着,每当人工智能新产品出现,社会的监管就多了一分责任。既要让研发公司遵守人工智能的伦理规范,也需要监管技术的突破。前者,已经有联合国的《人工智能伦理问题建议书》和各国的人工智能规则,后者则需要同步的技术制衡。
一个最简单的原则是,如果是人工智能生成的产品,就应当在向全社会发布时注明是AI产品,让人们知晓这并非现实和原创,而是人工智能的产物。另一方面,在研发AI产品并发布时,要求生成式AI研发人员在模型的输出中嵌入隐藏信号,从而生成水印,以便识别是人工智能产品还是原创。
这些方式或许能让人们既享受到人工智能生成产品带给人们的效率和便捷,另一方面也尽量减少人工智能对人和社会的威胁。
文l张田勘