当前位置:首页|资讯|复旦|腾讯|GPT-4

复旦&腾讯发表MovieLLM,通过AI生成电影,让大模型理解电影情节

作者:写本文献学微刊发布时间:2024-06-20

MovieLLM: Enhancing Long Video Understanding with AI-Generated Movies

近日,复旦、腾讯联合提出MovieLLM,可以根据文本生成高质量长视频数据。该框架利用GPT-4和文本到图像模型的强大功能来生成详细的脚本和相应的视觉效果。通过合成电影数据为大模型提供训练材料,使它们能够更好地理解和生成长视频内容。左脚踩右脚螺旋升天。

项目主页:https://deaddawn.github.io/MovieLLM/

论文地址:https://arxiv.org/pdf/2403.01422.pdf

Github地址:https://github.com/Deaddawn/MovieLLM-code

摘要

本文提出MovieLLM,旨在为长视频创建合成的高质量数据。该框架利用GPT-4和文本到图像模型的强大功能来生成详细的脚本和相应的视觉效果。广泛的实验验证了MovieLLM产生的数据显著提高了多模态模型在理解复杂视频叙事方面的性能,克服了现有数据集在稀缺和偏差方面的局限性。

简介

LLM在理解长时间视频(如全长电影)的能力方面仍然存在明显的缺陷。这一限制主要归因于缺乏调优这些模型所需的大量长视频数据集。本文提出了一种新的灵活的方法,用于生成长视频指令调优的全面数据集。该方法利用了GPT-4的语言能力和稳定扩散模型的生成能力,为数据集多样性和丰富性问题提供了一个独特的解决方案。我们的流程包括三个主要阶段:

  • 1)电影情节生成。利用GPT-4的能力来生成合成数据,通过提供主题、概述和样式等特定元素,指导GPT-4生成为后一个生成过程量身定制的电影级关键帧描述。
  • 2)风格固定过程。通过巧妙地采用textual inversion,将从脚本生成的风格描述固定在扩散模型的潜空间中。
  • 3)视频指令数据生成。通过将GPT-4强大的生成能力与所开发的风格引导扩散模型相结合,产生了风格一致的关键帧和相应的QA对,形成了一个全面的指令调优语料库,将视觉数据与QA对相结合。

本方法不仅解决了当前长视频数据集的局限性,还为集成先进的扩散模型以更高的帧率生成视频数据铺平了道路。它促进了自动注释,大大减少了对人工劳动的需求和相关成本。

本文主要贡献如下:

  • 开发了一种新的管道,通过结合GPT-4和扩散模型来生成电影级视频指令调优数据集。
  • 利用所提出的生成方法,开发并将公开发布一个用于电影级视频理解的全面数据集,以及一个经过训练的复杂模型,以增强对长视频的理解。
  • 基于一个真实的电影数据集,提出了一个评估长视频理解能力的基准。在基准数据集上的实验验证了所提方法的有效性,显著优于基准数据集。

相关方法

现有方法大多基于基准数据集构建视频指导调优数据集,但缺乏长视频数据,导致训练模型对长视频的理解能力较差。最近提出的LLaMAVID从MovieNet数据集中提取数据构建了包含电影级长视频的指导数据集,但由于注释类型的限制,数据的多样性不足。通过我们的新方法,我们提出了一个多样化的电影级视频指导调优数据集,以增强对长视频的理解能力。

方法

电影情节生成

这一步的主要目标是利用GPT-4的强大功能来生成多样化和引人注目的电影情节。每个电影情节都包含基本元素,包括概述、角色和帧描述。目的是为后续的风格固定和生成过程构建高质量的电影情节文本。为此,我们提出了三个主要策略:

  • 1)首先使用GPT-4生成一组可信的电影脚本。
  • 2)在电影情节文本中,我们融入了两个关键元素:角色和风格。利用GPT4生成的角色和风格描述,旨在确保视频中关键帧对角色的刻画和风格属性的高度一致性。
  • 3)提出一种故事扩展策略来获得连续的关键帧描述,并最大限度地缓解LLM固有的遗忘问题。将描述生成过程分为3个层次。

高质量的电影情节文本提示符由以下部分组成:电影主题、概述、风格、角色、从故事扩展到关键帧描述。

风格固定过程

下一步旨在将生成的电影情节的风格描述转换为可以指导T2I模型生成具有一致风格的场景的信息。具体步骤如下:1)首先,基于特定的风格描述,利用stable diffusion生成任意风格场景。2)随后,通过一个优化步骤,采用textual inversion将这些场景图像转换为嵌入。这些嵌入可以指导扩散模型生成具有特定风格的图像。

我们将这整个过程称为风格固定过程,本质上是将GPT-4生成的某种电影风格固定到潜空间中作为嵌入,对应于特定的token。因此,在连续关键帧图像的生成中,使用特定token仅触发扩散模型以特定风格生成图像,确保了场景跨帧的一致性。

视频指令数据生成

利用风格嵌入来指导stable diffusion,根据关键帧描述生成关键帧。基于电影情节逐步生成各种指令QA对。

一致的关键帧生成。为了生成在角色和场景中一致的关键帧,首先将帧描述中的角色名称替换为相应的名人(由GPT-4选择)。接下来,如前所述,使用链接到特殊标记的样式固定的嵌入。这种风格嵌入可以作为一个条件,指导stable diffusion模型生成具有固定风格的场景。

QA对生成。除了故事本身固有的文本和视觉信息外,丰富的QA对可以通过多模态信息很好地指导模型的学习,从而实现对电影级叙事的更好理解。利用GPT-4根据电影情节的所有内容逐步生成丰富的QA对,包括概述、内容、地点和原因等方面。

实验

实现细节和数据统计

实现细节我们在LLaMA-VID上进行了视频相关的实验。模型的训练过程分为3个阶段:模态对齐、指令微调和长视频微调。前两个阶段进行的训练使模型具有理解图像和短视频的能力。最初,我们在第三阶段使用他们的原始长视频数据集对LLaMA-VID进行微调。我们使用这个训练过的LLaMA-VID作为我们的基础模型。随后,我们在数据集上微调模型以进行比较。

统计数据。我们将生成的数据集的统计数据显示在表1和图4中。指令调优数据包括丰富的QA对,可以提取关于视频内容的深入信息。支持15种不同类型的电影级视频,显著提高了泛化能力。这主要归功于我们的数据构造方法的强大灵活性。

评估指标

本文主要评估了生成视频关键帧和视频理解两个方面的质量。对于关键帧,评估了一致性和文本图像对齐度,并使用BRISQUE评分评估图像质量。对于视频理解,分别对短视频和长视频进行评估,其中短视频评估包括视频生成性能和零样本问答评估,长视频评估则设计了一个基于电影的测试数据集,包括概述理解、情节理解和时间理解三个方面的评估。

结果

关键帧质量。与Custom diffusion和Cones-V2进行了比较:。文本所提出方法在所有三个指标上都优于现有方法,表明所提出方法生成一致和高质量的关键帧。

短视频理解。在我们的数据集上训练的模型比基线获得了显著的性能提升。结果表明,虽然我们的数据集中在长视频指令调优上,但它仍然可以增强模型对短视频的理解,证明了我们的数据的鲁棒性。

长视频理解。实验表明。所提出方法在概述、绘图和时间理解方面明显优于基线。这展示了所提出数据集的丰富性,证明了它们在增强模型对长视频各个方面的理解方面的显著有效性。

定性结果

所提出方法生成的帧更加一致和高质量。图6可视化了基线模型和我们的视频理解结果。该方法在电影理解中展示了一个更合理和详细的答案。

总结

本文提出了一种有效的方法来生成电影级别视频的关键帧。该方法包括三个主要步骤:电影情节生成、风格固定过程和视频指令数据生成。该数据生成流程显著简化了为模型生成电影级别视频数据的挑战,增强了生成内容的控制和多样性。实验验证了该方法的有效性,并展示了先前数据集训练模型无法达到的能力。该数据生成流程为多模态模型理解长视频的进展做出了重要贡献,并为其他领域采用类似的数据生成流程铺平了道路。

▌关于我们

灵度智能,我们致力于提供优质的AI服务,涵盖人工智能、数据分析、机器学习、深度学习、强化学习、计算机视觉、自然语言处理、语音处理等领域。提供AI课程、AI算法代做、论文复现、远程调试等服务。如有相关需求,请私信与我们联系。

我们的愿景通过创新创意和智能技术为客户提供卓越的解决方案,助力产业升级和数字化转型。我们的产品和服务将引领行业标准,创造卓越的用户体验。我们的团队致力于创造更智能、更便捷和更高效的生活方式,推动社会进步,致力于创造更美好的未来。

淘宝店铺:公众号后台回复“淘宝”获取店铺地址

商务合作:请加微信 LingDuTech163

关注【灵度智能】公众号,获取更多AI资讯。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1