“MovieLLM: Enhancing Long Video Understanding with AI-Generated Movies”
近日,复旦、腾讯联合提出MovieLLM,可以根据文本生成高质量长视频数据。该框架利用GPT-4和文本到图像模型的强大功能来生成详细的脚本和相应的视觉效果。通过合成电影数据为大模型提供训练材料,使它们能够更好地理解和生成长视频内容。左脚踩右脚螺旋升天。
项目主页:https://deaddawn.github.io/MovieLLM/
论文地址:https://arxiv.org/pdf/2403.01422.pdf
Github地址:https://github.com/Deaddawn/MovieLLM-code
摘要
本文提出MovieLLM,旨在为长视频创建合成的高质量数据。该框架利用GPT-4和文本到图像模型的强大功能来生成详细的脚本和相应的视觉效果。广泛的实验验证了MovieLLM产生的数据显著提高了多模态模型在理解复杂视频叙事方面的性能,克服了现有数据集在稀缺和偏差方面的局限性。
简介
LLM在理解长时间视频(如全长电影)的能力方面仍然存在明显的缺陷。这一限制主要归因于缺乏调优这些模型所需的大量长视频数据集。本文提出了一种新的灵活的方法,用于生成长视频指令调优的全面数据集。该方法利用了GPT-4的语言能力和稳定扩散模型的生成能力,为数据集多样性和丰富性问题提供了一个独特的解决方案。我们的流程包括三个主要阶段:
本方法不仅解决了当前长视频数据集的局限性,还为集成先进的扩散模型以更高的帧率生成视频数据铺平了道路。它促进了自动注释,大大减少了对人工劳动的需求和相关成本。
本文主要贡献如下:
相关方法
现有方法大多基于基准数据集构建视频指导调优数据集,但缺乏长视频数据,导致训练模型对长视频的理解能力较差。最近提出的LLaMAVID从MovieNet数据集中提取数据构建了包含电影级长视频的指导数据集,但由于注释类型的限制,数据的多样性不足。通过我们的新方法,我们提出了一个多样化的电影级视频指导调优数据集,以增强对长视频的理解能力。
方法
电影情节生成
这一步的主要目标是利用GPT-4的强大功能来生成多样化和引人注目的电影情节。每个电影情节都包含基本元素,包括概述、角色和帧描述。目的是为后续的风格固定和生成过程构建高质量的电影情节文本。为此,我们提出了三个主要策略:
高质量的电影情节文本提示符由以下部分组成:电影主题、概述、风格、角色、从故事扩展到关键帧描述。
风格固定过程
下一步旨在将生成的电影情节的风格描述转换为可以指导T2I模型生成具有一致风格的场景的信息。具体步骤如下:1)首先,基于特定的风格描述,利用stable diffusion生成任意风格场景。2)随后,通过一个优化步骤,采用textual inversion将这些场景图像转换为嵌入。这些嵌入可以指导扩散模型生成具有特定风格的图像。
我们将这整个过程称为风格固定过程,本质上是将GPT-4生成的某种电影风格固定到潜空间中作为嵌入,对应于特定的token。因此,在连续关键帧图像的生成中,使用特定token仅触发扩散模型以特定风格生成图像,确保了场景跨帧的一致性。
视频指令数据生成
利用风格嵌入来指导stable diffusion,根据关键帧描述生成关键帧。基于电影情节逐步生成各种指令QA对。
一致的关键帧生成。为了生成在角色和场景中一致的关键帧,首先将帧描述中的角色名称替换为相应的名人(由GPT-4选择)。接下来,如前所述,使用链接到特殊标记的样式固定的嵌入。这种风格嵌入可以作为一个条件,指导stable diffusion模型生成具有固定风格的场景。
QA对生成。除了故事本身固有的文本和视觉信息外,丰富的QA对可以通过多模态信息很好地指导模型的学习,从而实现对电影级叙事的更好理解。利用GPT-4根据电影情节的所有内容逐步生成丰富的QA对,包括概述、内容、地点和原因等方面。
实验
实现细节和数据统计
实现细节。我们在LLaMA-VID上进行了视频相关的实验。模型的训练过程分为3个阶段:模态对齐、指令微调和长视频微调。前两个阶段进行的训练使模型具有理解图像和短视频的能力。最初,我们在第三阶段使用他们的原始长视频数据集对LLaMA-VID进行微调。我们使用这个训练过的LLaMA-VID作为我们的基础模型。随后,我们在数据集上微调模型以进行比较。
统计数据。我们将生成的数据集的统计数据显示在表1和图4中。指令调优数据包括丰富的QA对,可以提取关于视频内容的深入信息。支持15种不同类型的电影级视频,显著提高了泛化能力。这主要归功于我们的数据构造方法的强大灵活性。
评估指标
本文主要评估了生成视频关键帧和视频理解两个方面的质量。对于关键帧,评估了一致性和文本图像对齐度,并使用BRISQUE评分评估图像质量。对于视频理解,分别对短视频和长视频进行评估,其中短视频评估包括视频生成性能和零样本问答评估,长视频评估则设计了一个基于电影的测试数据集,包括概述理解、情节理解和时间理解三个方面的评估。
结果
关键帧质量。与Custom diffusion和Cones-V2进行了比较:。文本所提出方法在所有三个指标上都优于现有方法,表明所提出方法生成一致和高质量的关键帧。
短视频理解。在我们的数据集上训练的模型比基线获得了显著的性能提升。结果表明,虽然我们的数据集中在长视频指令调优上,但它仍然可以增强模型对短视频的理解,证明了我们的数据的鲁棒性。
长视频理解。实验表明。所提出方法在概述、绘图和时间理解方面明显优于基线。这展示了所提出数据集的丰富性,证明了它们在增强模型对长视频各个方面的理解方面的显著有效性。
定性结果
所提出方法生成的帧更加一致和高质量。图6可视化了基线模型和我们的视频理解结果。该方法在电影理解中展示了一个更合理和详细的答案。
总结
本文提出了一种有效的方法来生成电影级别视频的关键帧。该方法包括三个主要步骤:电影情节生成、风格固定过程和视频指令数据生成。该数据生成流程显著简化了为模型生成电影级别视频数据的挑战,增强了生成内容的控制和多样性。实验验证了该方法的有效性,并展示了先前数据集训练模型无法达到的能力。该数据生成流程为多模态模型理解长视频的进展做出了重要贡献,并为其他领域采用类似的数据生成流程铺平了道路。
▌关于我们
灵度智能,我们致力于提供优质的AI服务,涵盖人工智能、数据分析、机器学习、深度学习、强化学习、计算机视觉、自然语言处理、语音处理等领域。提供AI课程、AI算法代做、论文复现、远程调试等服务。如有相关需求,请私信与我们联系。
我们的愿景通过创新创意和智能技术为客户提供卓越的解决方案,助力产业升级和数字化转型。我们的产品和服务将引领行业标准,创造卓越的用户体验。我们的团队致力于创造更智能、更便捷和更高效的生活方式,推动社会进步,致力于创造更美好的未来。
淘宝店铺:公众号后台回复“淘宝”获取店铺地址
商务合作:请加微信 LingDuTech163
关注【灵度智能】公众号,获取更多AI资讯。