复旦&腾讯发表MovieLLM，通过AI生成电影，让大模型理解电影情节

作者：写本文献学微刊发布时间：2024-06-20

“MovieLLM: Enhancing Long Video Understanding with AI-Generated Movies”

近日，复旦、腾讯联合提出MovieLLM，可以根据文本生成高质量长视频数据。该框架利用GPT-4和文本到图像模型的强大功能来生成详细的脚本和相应的视觉效果。通过合成电影数据为大模型提供训练材料，使它们能够更好地理解和生成长视频内容。左脚踩右脚螺旋升天。

项目主页：https://deaddawn.github.io/MovieLLM/

论文地址：https://arxiv.org/pdf/2403.01422.pdf

Github地址：https://github.com/Deaddawn/MovieLLM-code

摘要

本文提出MovieLLM，旨在为长视频创建合成的高质量数据。该框架利用GPT-4和文本到图像模型的强大功能来生成详细的脚本和相应的视觉效果。广泛的实验验证了MovieLLM产生的数据显著提高了多模态模型在理解复杂视频叙事方面的性能，克服了现有数据集在稀缺和偏差方面的局限性。

简介

LLM在理解长时间视频(如全长电影)的能力方面仍然存在明显的缺陷。这一限制主要归因于缺乏调优这些模型所需的大量长视频数据集。本文提出了一种新的灵活的方法，用于生成长视频指令调优的全面数据集。该方法利用了GPT-4的语言能力和稳定扩散模型的生成能力，为数据集多样性和丰富性问题提供了一个独特的解决方案。我们的流程包括三个主要阶段：

1）电影情节生成。利用GPT-4的能力来生成合成数据，通过提供主题、概述和样式等特定元素，指导GPT-4生成为后一个生成过程量身定制的电影级关键帧描述。
2）风格固定过程。通过巧妙地采用textual inversion，将从脚本生成的风格描述固定在扩散模型的潜空间中。
3）视频指令数据生成。通过将GPT-4强大的生成能力与所开发的风格引导扩散模型相结合，产生了风格一致的关键帧和相应的QA对，形成了一个全面的指令调优语料库，将视觉数据与QA对相结合。

本方法不仅解决了当前长视频数据集的局限性，还为集成先进的扩散模型以更高的帧率生成视频数据铺平了道路。它促进了自动注释，大大减少了对人工劳动的需求和相关成本。

本文主要贡献如下：

开发了一种新的管道，通过结合GPT-4和扩散模型来生成电影级视频指令调优数据集。
利用所提出的生成方法，开发并将公开发布一个用于电影级视频理解的全面数据集，以及一个经过训练的复杂模型，以增强对长视频的理解。
基于一个真实的电影数据集，提出了一个评估长视频理解能力的基准。在基准数据集上的实验验证了所提方法的有效性，显著优于基准数据集。

相关方法

现有方法大多基于基准数据集构建视频指导调优数据集，但缺乏长视频数据，导致训练模型对长视频的理解能力较差。最近提出的LLaMAVID从MovieNet数据集中提取数据构建了包含电影级长视频的指导数据集，但由于注释类型的限制，数据的多样性不足。通过我们的新方法，我们提出了一个多样化的电影级视频指导调优数据集，以增强对长视频的理解能力。

方法

电影情节生成

这一步的主要目标是利用GPT-4的强大功能来生成多样化和引人注目的电影情节。每个电影情节都包含基本元素，包括概述、角色和帧描述。目的是为后续的风格固定和生成过程构建高质量的电影情节文本。为此，我们提出了三个主要策略：

1）首先使用GPT-4生成一组可信的电影脚本。
2）在电影情节文本中，我们融入了两个关键元素：角色和风格。利用GPT4生成的角色和风格描述，旨在确保视频中关键帧对角色的刻画和风格属性的高度一致性。
3）提出一种故事扩展策略来获得连续的关键帧描述，并最大限度地缓解LLM固有的遗忘问题。将描述生成过程分为3个层次。

高质量的电影情节文本提示符由以下部分组成：电影主题、概述、风格、角色、从故事扩展到关键帧描述。

风格固定过程

下一步旨在将生成的电影情节的风格描述转换为可以指导T2I模型生成具有一致风格的场景的信息。具体步骤如下：1）首先，基于特定的风格描述，利用stable diffusion生成任意风格场景。2）随后，通过一个优化步骤，采用textual inversion将这些场景图像转换为嵌入。这些嵌入可以指导扩散模型生成具有特定风格的图像。

我们将这整个过程称为风格固定过程，本质上是将GPT-4生成的某种电影风格固定到潜空间中作为嵌入，对应于特定的token。因此，在连续关键帧图像的生成中，使用特定token仅触发扩散模型以特定风格生成图像，确保了场景跨帧的一致性。

视频指令数据生成

利用风格嵌入来指导stable diffusion，根据关键帧描述生成关键帧。基于电影情节逐步生成各种指令QA对。

一致的关键帧生成。为了生成在角色和场景中一致的关键帧，首先将帧描述中的角色名称替换为相应的名人(由GPT-4选择)。接下来，如前所述，使用链接到特殊标记的样式固定的嵌入。这种风格嵌入可以作为一个条件，指导stable diffusion模型生成具有固定风格的场景。

QA对生成。除了故事本身固有的文本和视觉信息外，丰富的QA对可以通过多模态信息很好地指导模型的学习，从而实现对电影级叙事的更好理解。利用GPT-4根据电影情节的所有内容逐步生成丰富的QA对，包括概述、内容、地点和原因等方面。

实验

实现细节和数据统计

实现细节。我们在LLaMA-VID上进行了视频相关的实验。模型的训练过程分为3个阶段：模态对齐、指令微调和长视频微调。前两个阶段进行的训练使模型具有理解图像和短视频的能力。最初，我们在第三阶段使用他们的原始长视频数据集对LLaMA-VID进行微调。我们使用这个训练过的LLaMA-VID作为我们的基础模型。随后，我们在数据集上微调模型以进行比较。

统计数据。我们将生成的数据集的统计数据显示在表1和图4中。指令调优数据包括丰富的QA对，可以提取关于视频内容的深入信息。支持15种不同类型的电影级视频，显著提高了泛化能力。这主要归功于我们的数据构造方法的强大灵活性。

评估指标

本文主要评估了生成视频关键帧和视频理解两个方面的质量。对于关键帧，评估了一致性和文本图像对齐度，并使用BRISQUE评分评估图像质量。对于视频理解，分别对短视频和长视频进行评估，其中短视频评估包括视频生成性能和零样本问答评估，长视频评估则设计了一个基于电影的测试数据集，包括概述理解、情节理解和时间理解三个方面的评估。

结果

关键帧质量。与Custom diffusion和Cones-V2进行了比较：。文本所提出方法在所有三个指标上都优于现有方法，表明所提出方法生成一致和高质量的关键帧。

短视频理解。在我们的数据集上训练的模型比基线获得了显著的性能提升。结果表明，虽然我们的数据集中在长视频指令调优上，但它仍然可以增强模型对短视频的理解，证明了我们的数据的鲁棒性。

长视频理解。实验表明。所提出方法在概述、绘图和时间理解方面明显优于基线。这展示了所提出数据集的丰富性，证明了它们在增强模型对长视频各个方面的理解方面的显著有效性。

定性结果

所提出方法生成的帧更加一致和高质量。图6可视化了基线模型和我们的视频理解结果。该方法在电影理解中展示了一个更合理和详细的答案。

总结

本文提出了一种有效的方法来生成电影级别视频的关键帧。该方法包括三个主要步骤：电影情节生成、风格固定过程和视频指令数据生成。该数据生成流程显著简化了为模型生成电影级别视频数据的挑战，增强了生成内容的控制和多样性。实验验证了该方法的有效性，并展示了先前数据集训练模型无法达到的能力。该数据生成流程为多模态模型理解长视频的进展做出了重要贡献，并为其他领域采用类似的数据生成流程铺平了道路。

▌关于我们

灵度智能，我们致力于提供优质的AI服务，涵盖人工智能、数据分析、机器学习、深度学习、强化学习、计算机视觉、自然语言处理、语音处理等领域。提供AI课程、AI算法代做、论文复现、远程调试等服务。如有相关需求，请私信与我们联系。

我们的愿景通过创新创意和智能技术为客户提供卓越的解决方案，助力产业升级和数字化转型。我们的产品和服务将引领行业标准，创造卓越的用户体验。我们的团队致力于创造更智能、更便捷和更高效的生活方式，推动社会进步，致力于创造更美好的未来。

淘宝店铺：公众号后台回复“淘宝”获取店铺地址

商务合作：请加微信 LingDuTech163

关注【灵度智能】公众号，获取更多AI资讯。

复旦&腾讯发表MovieLLM，通过AI生成电影，让大模型理解电影情节

推荐体验

相关资讯

电影情节变现实，GPT-4o亮相，让马斯克感到“不适”

人工智能电影要来了！日本首部全AI生成电影年内上映

ai大电影_压缩版

郭帆谈ChatGPT：电影行业需要创新，否则人工智能将让电影变得平庸

全球首部AI生成电影首映，剧情公开……

近期资讯

android 水平进度条文本动态颜色渐变达到指定值颜色动态变更

全国第3个4条跑道机场诞生了！国产大飞机C919尝鲜

佳能、华为重磅合作：要一起开发打印机产品

flutter自学笔记6- 网络请求、序列化、平台通道介绍

小号问界M9来了！问界M8实车路试曝光：前后和M9一个样

OpenHarmony UI动画-lottie

flutter自学笔记7- 状态管理、数据持久化

打工牛马逆袭爽片邓超《胜券在握》今日网播上线

腾讯飞行汽车梦复燃：破产2个月等来收购、手握108家订单

万亿“宁王” 官宣赴港二次上市

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响