Sora冲击波引领文生视频新浪潮多模态人工智能加速行业赋能步伐

作者：王者赵子龙发布时间：2024-03-02

“我们接触到的专业电影制作人对Sora很兴奋，都是持开放拥抱的态度，希望能用好这个工具提高生产力。” 从事LED虚拟拍摄的业内人士向证券时报记者表示，Sora能让电影制作前期创意环节的周期从过往数月甚至数年，缩减到数天，但并不认同Sora将让电影剪辑师这些从业者“原地”失业的说法，更多是赋能。

从2023年开始，多模态大模型开始崭露头角，文生视频并非新事物，还出现了Runway、Pika等现象级产品，但人工智能巨头OpenAI在2024年2月发布的首款视频生成模型Sora，则堪称建立起“世界模型”的标杆，将人工智能对真实物理世界的建模和预测推向了新高度，也引发对通用人工智能进化速度以及技术应用前景与挑战的热烈讨论。证券时报记者采访发现，不仅影视、游戏等内容创作行业公司积极应用相关文生智能技术进展，无人驾驶、医疗医药、生物制药等领域也在加速引用新兴人工智能技术。

构建“世界模型”

“继文本、图像之后，Sora的诞生意味着能够建立起理解和模拟现实世界的模型，是AGI实现的重要里程碑。” 万兴科技(300624)AI创新中心总经理齐镗泉表示。

据介绍，Sora底层采用了游戏、无人驾驶和机器人领域验证的世界模型，构建文生视频模型，达到模拟世界的能力。尽管Sora并非实现0到1的创新，但无论从文本到视频生成能力、多镜头生成能力等呈现的效果，都展现了新高度。不过，Sora在处理更复杂的物理现象时可能会遇到困难，在处理长期依赖关系上仍存在挑战，比如保持时间上的一致性和逻辑性。还有处理空间细节方面可能不够精确，可能影响到视频内容的准确性和可信度。

归结起来，当代人工智能应用的推陈出新，总是逃不过“大力出奇迹”的算力堆叠逻辑。不过，有观点指出，Sora背后算力并非那么重要，而且其模型规模小于预期。

国产芯片企业负责人向证券时报记者表示，Sora尚未开放测试，因此很多技术细节尚不明确，但根据已有的信息可以看到，Sora的模型规模并不大，甚至远小于预期，它是通过一种非常创新的方式，以较低算力资源实现视频语料的训练。因此，Sora的这种架构对算力的需求，并不是简单地要求更高的算力，而是可能在带宽以及其他方面有独特的要求。

“只能说Sora相对于GPT-4规模小点，” 云从科技战略技术总监温浩向记者介绍，得益于OpenAI开发了一个网络，减少视觉数据的维度，这个网络可以接受原始视频作为输入，并输出一个在时间上和空间上都进行了压缩的潜表征。Sora在这个压缩后的潜空间中进行训练，之后用于生成视频。所以Sore规模没有GPT-4大，但至少是比深度学习模型DALL-E至少大数倍规模。来自：http://www.fzrczy.com/pzwz/81153.html。