2024年2月15日,OpenAI发布的人工智能文生视频大模型Sora,不过OpenAI并没有单纯将其视为视频大模型,而是称其为world simulators(世界模拟器)。
Sora继承了DALL-E 3的画质和遵循指令能力,可以根据用户的文本提示创建逼真的视频,该模型可以深度模拟真实物理世界,能生成具有多个角色、包含特定运动的复杂场景,能理解用户在提示中提出的要求,还了解这些物体在物理世界中的存在方式。
物理世界、虚拟世界,孪生世界,是不是元宇宙经常提到的概念?
与之前的“文生视频”相比,Sora生成的视频清晰度、时长以及对文本的理解能力,都有了明显的提升。业内人士大多给予了其很高的评价。
这让我想起了ChatGPT每一个版本发布后,都迎来了大量“叫好”声,但随着实际应用,就会发现其有有多限制。
业界不少人在转英伟达专家的看法,这可以理解。从ChatGPT到Sora,AI芯片、算力提供商本来就是最大的受益者,这包括英伟达、高通、微软、亚马逊、阿里巴巴、华为以及电信运营商等。还有更多的公司会在AI赛道上加大投入。
在强大的算力支撑下,Sora用一个全新的方式理解视频、生成视频,这是一个重大突破,但全面商用还有很长的距离。Sora将面临比ChatGPT更高的成本,以及更大的道德、伦理挑战。
作为一个通用的服务,基于几何级数增长的成本压力,Sora生成视频的像素、时长都会受到限制,这使得其应用场景会受到很多限制。
Sora会推动AI生成视频快速规模化,但真正规模商用还需要时间。除成本外,与论文、演讲稿、PPT不同,视频二次加工并不容易。
但随着时间的推移,“AI生成视频”或“AI生成虚拟世界”前景非常乐观。而在近期,最大的受益者很可能是大模型前的那个热点“元宇宙”,AI数字人、AI视频是“元宇宙”的重要支撑基础,大模型和元宇宙的结合,将推动元宇宙走近用户。
受Sora等的推动,AI生成视频内容,在互联网短视频中的占比,也会不断提高。事实上,AI数字人已经出现在了新闻节目、自媒体中。
另外,AI、大模型和计算机仿真并不是一回事。大飞机研发过程早已引入计算机仿真,军事上通过“战争模拟”辅助选择战术方案的应用也在不断增加。在产业领域,国内有几家公司也投入大量人力物力做计算机仿真,如华为、荣耀、海尔。星舰研发中肯定已经有了大量的仿真,但仍需要通过不断发射做各种实际验证。大模型和计算机仿真会相互促进,但大模型,尤其是通用大模型,不可能替代严谨的研发探索。在大模型领域,Sora的AI生成视频方向与科学探索的“仿真+实证”是不同,不可能相互替代。
(图片来源OpenAI官网)