春节假期还没结束,OpenAI就“提前营业”了,文生视频大模型Sora横空出世,再次引发科技圈大震动。经历了2023年的“千模大战”,AI的无穷潜力已经是公认事实。CIC灼识咨询发布的《大模型与AIGC行业蓝皮书》显示,全球AI市场预计将于2030年达到1万亿美元,并且全球超过15%的GDP将由AI驱动。大模型产业涵盖了行业应用、产品服务、模型工具和基础设施四个关键层面,广泛应用于各行业与垂直场景,前景广阔。
在Sora发布后的几天内,关于其讨论的声音没有断过:技术原理、技术影响等各种论战纷至沓来,但绝大多数人还未曾体验过Sora的真实使用感受。CIC灼识咨询从OpenAI的技术报告出发,解读和总结Sora基本功能,并摘取社会讨论的主要观点加以总结。
Sora能做什么?
功能实现的原理为何?
关于Sora的成功众说纷纭,但无人能在短时间内复现它的成功。有媒体将OpenAI的成功总结为三大特点:“大力出奇迹、足够简洁和坚守技术信仰”。关于其整体技术路线的讨论已经有很多,从应用的角度,CIC灼识咨询结合其技术报告,总结出Sora的以下几点能力,并对其中涉及的一些技术做通俗化介绍:
第一、语言理解能力。理解人类的输入是生成的第一步,在文生文的过程中,GPT具有的文字理解能力是显而易见的。在文生视频的过程中,为了克服语言表达媒介之间的沟壑,Sora团队利用了re-captioning技术,这一技术这个过程涉及到几个关键步骤:图像识别、理解语境和自然语言生成。
简单描述生成的视频 来源:OpenAI官网
想象你有一张照片,这张照片上是一位正在公园草地上玩耍的小朋友。原本的照片下方可能有个描述,比如说“一个小朋友在草地上”,但是,这个描述可能不够详细或者不够吸引人。“re-captioning”技术就像是给照片换了一个更准确生动的描述标签。它通过分析照片的内容,能够生成更丰富、更符合用户需求的文字描述,比如“一个快乐的小朋友正在春天的公园中追逐蝴蝶”,便于视频的精确生成。
第二、文本生成视频能力。这项能力是本次发布中人们所关注的最核心的能力,60s的视频生成是Sora在此次发布的最大亮眼成就之一。文生视频Sora并不是首创,Pika和Runway等文生视频明星公司早在去年就进入市场,但其长度仅有3到4秒,应用场景有限。Sora直接“大力出奇迹”,将生成视频的长度拓展到了一分钟,一跃成为其他公司需要对标的产品。
第三、扩展已有视频的能力。如果说前两项功能符合人们对Sora的预期,那么扩展已经生成的视频是一个较为新颖的点。在OpenAI的示例视频中,四个示例视频各不相同,但向后延长最后都达到了同样的结局。同时,Sora还可以将视频向前和向后延长,以产生一个无缝无限循环(seamless infinite loop)。
开头不同的视频都导向了同样的结局 来源:OpenAI官网
还是以前述的“小朋友”为例子,假设其背景中有一朵云慢慢移动。如果这个设计成无缝无限循环,当这朵云移出画面后,视频会平滑地跳转回开头的场景,云朵再次从画面一侧进入,看起来就好像这朵云永远在天空中漂浮着一样,观看者可能根本意识不到这是在重复同一个片段。Sora的扩展功能巧妙实现了这一艺术表现形式。
第四、文字生成图片、图片生成视频能力。除了文字生成视频的能力,Sora未被媒体重点提及的还有文字生成图片能力,这一OpenAI的创造,再次证明了“图片是单帧视频”的核心思想。同时,OpenAI在技术报告中给出了利用DALL·E图像生成视频的范例,(DALL·E是OpenAI开发的根据用户文本描述创造全新的图像的人工智能程序),证明了Sora所具备的多模态能力。
来源:OpenAI官网
第五、视频编辑能力。OpenAI发布的技术报告显示,通过文本指令的提示,Sora能够在零样本输入的情况下改变输入视频风格和环境,示例中的技术叫做SDEdit。
SDEdit(Stable Diffusion Editing),是一种在数字图像处理领域使用的技术。它基于一个叫做“稳定扩散”的人工智能模型来工作。简单来说,SD Edit允许用户通过文字指令,对已存在的图片进行编辑和改造,而不是从头开始生成全新的图像。
如果你想给对前述的“小朋友”增加一顶帽子,在传统方式下需要使用图像编辑软件手动进行编辑,这不仅需要特定的技能,还需要花费相当多的时间。使用SDEdit,只需提供一个简单的文字描述,比如“一个带着帽子的小朋友”,SDEdit就能自动将你的想法应用到原始图片上,迅速生成修改后的图像。由于它是在已有的图片基础上进行编辑,这样生成的图像通常保持了原图的风格和质感,看起来更自然和真实。
第六、视频融合能力。视频融合能力主要体现在不同视频间。Sora在不同视频之间进行融合,创建完全不同主题和场景构成的视频之间的无缝转换,能够把不同视频融合成一个完整视频。
第七、涌现的模拟物理世界能力。技术报告显示,Sora的3D一致性表现优良,随着镜头的移动,人物和场景元素在三维空间中始终保持一致。同时,其长视频连贯性和物体恒定性保持较好,即便物体在某些帧中由于种种原因(如转移、遮挡)而不可见,Sora也可以在整个视频序列中一致地追踪并呈现同一个物体。
Sora展现出的与世界互动和数字世界模仿的能力也让人津津乐道。演员威尔·史密斯的一个视频在社交媒体上流传,上半个画面显示“一年前的AI视频,下面则显示「现在的AI视频」,就在人们确信这是Sora生成的结果时,威尔·史密斯出来澄清:视频下半段其实是他自己录的,真实与“虚假”,一时间让人难以辨别。
Sora发布后,
大佬们都有什么反应?
马斯克(特斯拉CEO):
特斯拉视频生成能力已超越OpenAI
由于马斯克和OpenAI间的爱恨情仇,在OpenAI每个大事件上,马斯克的评论都不会缺席。马斯克在社交媒体X上声称,特斯拉在大约一年前就能以精确的物理生成真实世界的视频,目前在FSD(FullSelf-Drive,完全自动驾驶系统)算力上短缺,但在有空余算力时就会继续训练。其后续在社交媒体上有关Sora的只言片语,让人很难不体会到他对Sora的复杂情绪。
Yann LeCun(Meta AI首席科学家):
Sora无法理解物理世界
“蚂蚁有6条腿,不是吗?”,这是LeCun对于Sora生成视频缺陷的评价。他在X上表示,Sora“作为一个创作的辅助工具是很棒的,但作为一个帮助你行动的模型是十分糟糕的”。LeCun对于OpenAI的视频生成的技术路线不如其他人乐观,是本次Sora大讨论中持质疑态度最明显的一位专家。
郭文景(Pika创始人):
很振奋人心,将直接对标Sora
在Sora发布之前,Pika和Runway都是文生视频领域的明星公司,但其可生成长度仅有3到4秒,Sora发布后,这两家公司自然也受到了较多的注意。接受钛媒体采访时,郭文景表示,“我们觉得这是一个很振奋人心的消息,我们已经在筹备直接冲,将直接对标Sora。”
周鸿祎(360创始人):
Sora工作原理像人做梦,
未来AGI比的是算力和对世界的理解
周鸿祎是最早加入了对Sora讨论的公众人物之一,在Sora发布当天,周鸿祎就断言,Sora让AGI的实现从10年缩短至两三年。他认为,Sora只是小试牛刀,它展现的不仅仅是一个视频制作的能力,还展现的是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。
谢赛宁(纽约大学助理教授):
对于Sora这样的复杂系统,
人才第一、数据第二、算力第三
谢赛宁出现在这次Sora的讨论中,起因是一篇题为“震惊世界的Sora发明者之一,是上海交大的天才少年-谢赛宁!”的假新闻,其出来澄清自己与Sora“只能说是一点关系都没有”的同时,提出了自己对Sora的看法。
谢赛宁朋友圈谈对Sora的看法 来源:网络
Jim Fan(英伟达高级研究科学家):
Sora 代表了文本生成视频的 GPT-3 时刻
Jim Fan针对存在的“Sora不是在学习物理,而是在2D内操作像素”的批评声回应道,Sora是一个“数据驱动的物理引擎”,一个可学习的模拟器或“世界模型”。他认为,早在2020年,GPT-3是一个很糟糕的模型,但是随后而来的GPT-4却不同凡响。简而言之,他认为看待Sora的视角应该与看待GPT-3相似,即“Sora 代表了文本生成视频的 GPT-3 时刻”。
在Sora出现后,人们开始惊呼“现实,不存在了”。关于Sora争论的焦点之一,也在于它对现实世界物理规则的颠覆性。或许,Sora带给人类的技术畅想,仅仅是一个开始。如果未来随着AI的进步,人类无法区分现实和虚拟,那么是否意味着,人类就处在一个全新的现实中?