知识点滴 | 智能应用：文生视频Sora

作者：金融电子化发布时间：2024-04-15

文生视频大模型Sora惊艳亮相

智能应用，是指以人工智能应用为主，以大数据智能化为引领的智能化技术与管理的应用。2018年，大众报业集团启动齐鲁智慧媒体云建设，软件服务层功能模块包含机器写稿、辅助写作、视频自动生成等智能应用。2023年大语言模型ChatGPT的热潮还未退去，2024年文生视频大模型Sora又惊艳亮相。

Sora是OpenAI在2024年春节期间公布的新一代产品，继承了其前辈DALL-E3的卓越画质和遵循指令能力，用户只要输入一段简单的文本，就可生成一段长达1分钟的高清流畅视频。

Sora实现了对现实世界的

学习、理解和模拟

此前推出的文生视频产品大多只能生成几秒到十几秒的连贯视频，而Sora能将简短的文本描述转化成长达1分钟的高清视频，且视频更为真实立体，场景复杂、角色多元，画质卓越、连续稳定。以假乱真的背后，靠的是强大的语言理解能力和深度学习能力。正是这种学习模拟能力，使得Sora看起来是一个“文生视频”的工具，通过学习海量视频，实现生成视频，还能基于视频扩展视频。

Sora的强大之处

Sora的强大之处在于其能够根据文本描述，生成长达60秒的视频，其中包含精细复杂的场景、生动的角色表情及复杂的镜头运动。无论是科幻场景，还是日常生活的琐碎片段，Sora都能实现。Sora还可以根据用户提供的图片，生成出延续其风格和主题的视频，或者在原有的视频基础上，添加或删除一些元素，创造出新的效果。Sora能够模拟出物体和角色在三维空间中的运动和交互，即使它们被遮挡，也可以保持一致性。Sora还能够模拟出物理交互的反馈，比如画家在画纸上的笔触，或者球员在球场上的动作，让视频看起来更加真实自然。

Sora技术还有一个惊人之处，那就是它的参数量。参数量是衡量一个模型复杂度的指标，一般来说，参数量越大，模型越复杂，能力越强，但也越耗费算力。Sora的参数量约为30亿，这在目前的人工智能领域并不算大，以Gemini为例，其参数量至少达到万亿级别。但是，Sora的生成能力远超Gemini，这说明Sora的模型非常高效，能够在有限的参数量下，实现强大的功能。

Sora产生的影响

有人问，人工智能可以生成视频，电影还需要人拍吗？市场机构预测，Sora将率先在短视频、广告、互动娱乐、影视制作和媒体等行业中应用，助力企业降低成本、提升效率、优化用户体验。

OpenAI表示，Sora是能够理解和模拟现实世界的模型的基础，这一能力将是实现AGI（通用人工智能）的重要里程碑。该模型能生成包含多个角色以及特定类型运动的复杂场景，能精确生成物体和背景的细节。

Sora的诞生，无疑是人工智能领域的一个里程碑。但是，Sora的诞生也引发了一些担忧和质疑。一方面，Sora等新的人工智能工具很可能会带来假视频的泛滥，而人们也会越来越难以分辨这些视频的真假。这对于社会的信任和安全会造成威胁，如造谣、欺诈等。另一方面，Sora等也可能会对许多行业和职业产生冲击，如影视、广告、教育、游戏等。有人担心，他们的工作会被人工智能取代，或者他们的创作会被人工智能抄袭。