Sora发布一周，除了“卖课”，我们还应该关注哪些事？

作者：CIC灼识咨询发布时间：2024-04-23

春节假期还没结束，OpenAI就“提前营业”了，文生视频大模型Sora横空出世，再次引发科技圈大震动。经历了2023年的“千模大战”，AI的无穷潜力已经是公认事实。CIC灼识咨询发布的《大模型与AIGC行业蓝皮书》显示，全球AI市场预计将于2030年达到1万亿美元，并且全球超过15%的GDP将由AI驱动。大模型产业涵盖了行业应用、产品服务、模型工具和基础设施四个关键层面，广泛应用于各行业与垂直场景，前景广阔。

在Sora发布后的几天内，关于其讨论的声音没有断过：技术原理、技术影响等各种论战纷至沓来，但绝大多数人还未曾体验过Sora的真实使用感受。CIC灼识咨询从OpenAI的技术报告出发，解读和总结Sora基本功能，并摘取社会讨论的主要观点加以总结。

Sora能做什么？

功能实现的原理为何？

关于Sora的成功众说纷纭，但无人能在短时间内复现它的成功。有媒体将OpenAI的成功总结为三大特点：“大力出奇迹、足够简洁和坚守技术信仰”。关于其整体技术路线的讨论已经有很多，从应用的角度，CIC灼识咨询结合其技术报告，总结出Sora的以下几点能力，并对其中涉及的一些技术做通俗化介绍：

第一、语言理解能力。理解人类的输入是生成的第一步，在文生文的过程中，GPT具有的文字理解能力是显而易见的。在文生视频的过程中，为了克服语言表达媒介之间的沟壑，Sora团队利用了re-captioning技术，这一技术这个过程涉及到几个关键步骤：图像识别、理解语境和自然语言生成。

简单描述生成的视频来源：OpenAI官网

想象你有一张照片，这张照片上是一位正在公园草地上玩耍的小朋友。原本的照片下方可能有个描述，比如说“一个小朋友在草地上”，但是，这个描述可能不够详细或者不够吸引人。“re-captioning”技术就像是给照片换了一个更准确生动的描述标签。它通过分析照片的内容，能够生成更丰富、更符合用户需求的文字描述，比如“一个快乐的小朋友正在春天的公园中追逐蝴蝶”，便于视频的精确生成。

第二、文本生成视频能力。这项能力是本次发布中人们所关注的最核心的能力，60s的视频生成是Sora在此次发布的最大亮眼成就之一。文生视频Sora并不是首创，Pika和Runway等文生视频明星公司早在去年就进入市场，但其长度仅有3到4秒，应用场景有限。Sora直接“大力出奇迹”，将生成视频的长度拓展到了一分钟，一跃成为其他公司需要对标的产品。

第三、扩展已有视频的能力。如果说前两项功能符合人们对Sora的预期，那么扩展已经生成的视频是一个较为新颖的点。在OpenAI的示例视频中，四个示例视频各不相同，但向后延长最后都达到了同样的结局。同时，Sora还可以将视频向前和向后延长，以产生一个无缝无限循环（seamless infinite loop）。

开头不同的视频都导向了同样的结局来源：OpenAI官网

还是以前述的“小朋友”为例子，假设其背景中有一朵云慢慢移动。如果这个设计成无缝无限循环，当这朵云移出画面后，视频会平滑地跳转回开头的场景，云朵再次从画面一侧进入，看起来就好像这朵云永远在天空中漂浮着一样，观看者可能根本意识不到这是在重复同一个片段。Sora的扩展功能巧妙实现了这一艺术表现形式。

第四、文字生成图片、图片生成视频能力。除了文字生成视频的能力，Sora未被媒体重点提及的还有文字生成图片能力，这一OpenAI的创造，再次证明了“图片是单帧视频”的核心思想。同时，OpenAI在技术报告中给出了利用DALL·E图像生成视频的范例，（DALL·E是OpenAI开发的根据用户文本描述创造全新的图像的人工智能程序），证明了Sora所具备的多模态能力。

来源：OpenAI官网

第五、视频编辑能力。OpenAI发布的技术报告显示，通过文本指令的提示，Sora能够在零样本输入的情况下改变输入视频风格和环境，示例中的技术叫做SDEdit。

SDEdit（Stable Diffusion Editing），是一种在数字图像处理领域使用的技术。它基于一个叫做“稳定扩散”的人工智能模型来工作。简单来说，SD Edit允许用户通过文字指令，对已存在的图片进行编辑和改造，而不是从头开始生成全新的图像。

如果你想给对前述的“小朋友”增加一顶帽子，在传统方式下需要使用图像编辑软件手动进行编辑，这不仅需要特定的技能，还需要花费相当多的时间。使用SDEdit，只需提供一个简单的文字描述，比如“一个带着帽子的小朋友”，SDEdit就能自动将你的想法应用到原始图片上，迅速生成修改后的图像。由于它是在已有的图片基础上进行编辑，这样生成的图像通常保持了原图的风格和质感，看起来更自然和真实。

第六、视频融合能力。视频融合能力主要体现在不同视频间。Sora在不同视频之间进行融合，创建完全不同主题和场景构成的视频之间的无缝转换，能够把不同视频融合成一个完整视频。

第七、涌现的模拟物理世界能力。技术报告显示，Sora的3D一致性表现优良，随着镜头的移动，人物和场景元素在三维空间中始终保持一致。同时，其长视频连贯性和物体恒定性保持较好，即便物体在某些帧中由于种种原因（如转移、遮挡）而不可见，Sora也可以在整个视频序列中一致地追踪并呈现同一个物体。

Sora展现出的与世界互动和数字世界模仿的能力也让人津津乐道。演员威尔·史密斯的一个视频在社交媒体上流传，上半个画面显示“一年前的AI视频，下面则显示「现在的AI视频」，就在人们确信这是Sora生成的结果时，威尔·史密斯出来澄清：视频下半段其实是他自己录的，真实与“虚假”，一时间让人难以辨别。

Sora发布后，

大佬们都有什么反应？

马斯克（特斯拉CEO）：

特斯拉视频生成能力已超越OpenAI

由于马斯克和OpenAI间的爱恨情仇，在OpenAI每个大事件上，马斯克的评论都不会缺席。马斯克在社交媒体X上声称，特斯拉在大约一年前就能以精确的物理生成真实世界的视频，目前在FSD（FullSelf-Drive，完全自动驾驶系统）算力上短缺，但在有空余算力时就会继续训练。其后续在社交媒体上有关Sora的只言片语，让人很难不体会到他对Sora的复杂情绪。

Yann LeCun（Meta AI首席科学家）：

Sora无法理解物理世界

“蚂蚁有6条腿，不是吗？”，这是LeCun对于Sora生成视频缺陷的评价。他在X上表示，Sora“作为一个创作的辅助工具是很棒的，但作为一个帮助你行动的模型是十分糟糕的”。LeCun对于OpenAI的视频生成的技术路线不如其他人乐观，是本次Sora大讨论中持质疑态度最明显的一位专家。

郭文景（Pika创始人）：

很振奋人心，将直接对标Sora

在Sora发布之前，Pika和Runway都是文生视频领域的明星公司，但其可生成长度仅有3到4秒，Sora发布后，这两家公司自然也受到了较多的注意。接受钛媒体采访时，郭文景表示，“我们觉得这是一个很振奋人心的消息，我们已经在筹备直接冲，将直接对标Sora。”

周鸿祎（360创始人）：

Sora工作原理像人做梦，

未来AGI比的是算力和对世界的理解

周鸿祎是最早加入了对Sora讨论的公众人物之一，在Sora发布当天，周鸿祎就断言，Sora让AGI的实现从10年缩短至两三年。他认为，Sora只是小试牛刀，它展现的不仅仅是一个视频制作的能力，还展现的是大模型对真实世界有了理解和模拟之后，会带来新的成果和突破。

谢赛宁（纽约大学助理教授）：

对于Sora这样的复杂系统，

人才第一、数据第二、算力第三

谢赛宁出现在这次Sora的讨论中，起因是一篇题为“震惊世界的Sora发明者之一，是上海交大的天才少年-谢赛宁！”的假新闻，其出来澄清自己与Sora“只能说是一点关系都没有”的同时，提出了自己对Sora的看法。

谢赛宁朋友圈谈对Sora的看法来源：网络

Jim Fan（英伟达高级研究科学家）：

Sora 代表了文本生成视频的 GPT-3 时刻

Jim Fan针对存在的“Sora不是在学习物理，而是在2D内操作像素”的批评声回应道，Sora是一个“数据驱动的物理引擎”，一个可学习的模拟器或“世界模型”。他认为，早在2020年，GPT-3是一个很糟糕的模型，但是随后而来的GPT-4却不同凡响。简而言之，他认为看待Sora的视角应该与看待GPT-3相似，即“Sora 代表了文本生成视频的 GPT-3 时刻”。

在Sora出现后，人们开始惊呼“现实，不存在了”。关于Sora争论的焦点之一，也在于它对现实世界物理规则的颠覆性。或许，Sora带给人类的技术畅想，仅仅是一个开始。如果未来随着AI的进步，人类无法区分现实和虚拟，那么是否意味着，人类就处在一个全新的现实中？

Sora发布一周，除了“卖课”，我们还应该关注哪些事？

推荐体验

相关资讯

ChatGPT火到全国两会，加大技术攻关以外，我们还应该关注什么

不只AIGC，我们还应该关注什么营销黑科技？2023数字营销的十个黑科技大盘点

天赋和努力哪个更重要？普通人还应该努力吗？

AI崛起、AR/VR头显刷屏，2023年还应该选择动画专业吗？

火速割韭菜！Sora刚发布，就有人卖课赚了200万...|| 关注

近期资讯

华为用户必看！换电池优惠50元、官方维修8.8折错过等明年

《黑神话：悟空》PS5 Pro 性能测试：1080P 分辨率下难稳 60 帧

PS5可能延续PS4生命周期：将在2027年推出

工业母机，“甬”闯“无人区”

提升摄影作品质量的技巧：模糊背景处理方法与注意事项总结

提升打字效率：掌握五笔输入法及《兜五笔》的实用技巧

慎重对待AI自习室“伴学”功能

HMD Ridge 5G 手机曝光：展锐 T760 + 6G + 128G

AI教父辛顿发声：30年内AI致人类灭亡几率达10%-20%

美国网络安全公司Cyberhaven Chrome浏览器扩展遭恶意攻击

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响