Meta斯坦福全新多模态Apollo，60分钟视频轻松理解，7B性能超越30B

作者：新智元发布时间：2024-12-20

Meta斯坦福大学联合团队全面研究多模态大模型（LMM）中驱动视频理解的机制，扩展了视频多模态大模型的设计空间，提出新的训练调度和数据混合方法，并通过语言先验或单帧输入解决了已有的评价基准中的低效问题。

虽然语言和图像语言建模进展迅速，但视频多模态大模型（LMM）却难以望其项背。

近日，Meta和斯坦福大学的团队联手，从评估基准、模型设计到开源模型, 做出了全方位的探索，创建ApolloBench用于解决视频理解领域评估效率低下的问题, 提出了模型设计的拓展一致性，发现了驱动LMM性能的关键因素，开源了Apollo模型。

值得注意的是，Apollo-3B超越了几乎所有的7B模型，而Apollo-7B变体则是7B模型中目前最佳的。

论文链接: https://arxiv.org/abs/2412.10360

项目网站: https://apollo-lmms.github.io

示例链接: https://huggingface.co/spaces/Apollo-LMMs/Apollo-3B…

模型链接: https://huggingface.co/Apollo-LMMs

现有的视频问答基准的有效性如何？

视频大型多模态模型（video-LMMs）的快速发展推动了众多视频问答基准的建立，其中包括Video-MME、MLVU、LongVideoBench等。虽然这些基准能够进行全面评估，但也会带来大量的资源密集和冗余。

该团队通过筛选问题，确定了五大时态感知类别：时态OCR、第一视角、空间、感知和推理。

然后，将问题手动归入这些类别中的每一类。从这些类别中选出了前400个问题，并对每个问题进行人工验证，以验证所选问题的正确性。

在ApolloBench上进行评估要快 41 倍，同时与现有基准高度相关（见图1的右图），并且受视频感知的影响更大（图1的左图）。

新提出的基准ApolloBench与所有测试过的基准都高度相关，这表明它能提供同样有效的评估，同时计算效率更高。

图1：基准分析。(左图）当提供不同输入模式时，开源 LMM 在各种视频问题解答基准测试中的准确率：完整视频（绿条）、视频中的单帧（红条）和不含任何视觉内容的纯文本输入（蓝条）。(右图）相关矩阵通过说明模型在不同基准上的表现之间的相关系数，显示了基准之间的冗余度

图1中的左图的浅蓝色阴影区域表示视频和文本输入之间的准确率差异，突出了视频感知比单纯的文本理解在多大程度上提高了性能；黄色阴影区域表示视频和图像输入之间的差异，量化了视频与静态图像相比所带来的时间信息的额外优势。

图1中右图的矩阵中的每个单元格表示两个基准在模型性能方面的密切程度。

拓展一致性：在模型设计中能做到多小？

通过研究不同规模 LMM 的设计决策之间的相关性，发现规模 (约等于2-4B) 模型的设计决策与更大模型的设计决策高度相关（相关系数大于0.9），将这种现象称为「规模一致性」（Scaling Consistency）（见下图 2）。

图2：扩展一致性

左图展示7B和0.5B与其他规模的LLM的相关系数，表明7B模型的相关性随着LLM规模的增大而增大，而在0.5B模型中没有看到同样的趋势。

右图展示0.5B\1.5B\4B模型与数据集规模的相关系数。相关系数在500K样本左右开始趋于稳定。

扩展一致性表明，在中等规模的模型（∼ 2-4B）和数据集上做出的设计决策可以可靠地转移到更大的模型上，即使在不同的模型族中也是如此。

数据集上做出的设计决策可以可靠地转移到更大的模型上，甚至在不同的模型族中也是如此。这使研究人员无需进行大量的扩展研究就能做出明智的设计选择。

扩展一致性，即可以在较小的模型和数据集上做出设计决策，并可靠地迁移到较大的模型和数据集上。

探索设计空间：什么影响高效的模型设计

1. 视频采样

为了评估帧速率与均匀采样的影响，训练了四个模型，分别均匀地8、16、32 或 64 帧采样。

为了测试性能差异是由于测试还是训练时的帧采样不同造成的，对这些模型进行了均匀采样和fps采样评估。

与fps采样相比，均匀帧采样的性能始终低于fps采样（图3中的左图）。可以看出，这种性能差距并不是由于测试时采样的帧数。因此得出结论，视频的均匀帧采样导致了训练过程中的性能差距。

在模型训练和推理过程中，fps采样比均匀采样更可取。

图3：比较不同的取样策略及其对性能的影响。(左图）模型使用均匀采样进行训练和测试。(中图）使用均匀采样训练模型，但使用fps采样进行测试。(右图）分析每秒帧数(fps) 和每秒token数(tps) 对总体性能的影响

图3的左图表明增加帧数可提高整体性能，但达不到fps采样性能。当以恒定的帧频进行训练时，每秒的token数（tps）也可以通过token重采样器来改变。

如图3中的右图所示，在tps 和fps之间似乎存在着一种短视频和长视频性能的折衷方法。在不同的帧速率下，每帧8-32个token的性能都很强。

tps和fps之间需要权衡，每帧8-32个token最为理想。

2. 视频表示

在单编码器设置中，与其他图像/视频编码器相比，SigLIP-SO400M的性能最佳，这表明必须改进视频编码器才能取代图像编码器。

视频编码器仅在时态感知方面优于图像编码器，这表明LLM在细粒度时态集成（如估计运动速度和方向）方面存在困难。

图4：视觉编码器。测试了InternVideo2、LanguageBind-Image/Video、V-JEPA、Video-MAE、SigLIP-SO400M和DINOv2及组合。(左图）单一编码器测试，(右图）双编码器配置的性能

在单编码器测试中，左图显示SigLIP-SO-400M 的整体性能最佳；与视频编码器相比，图像编码器在时态感知方面表现不佳。

右图显示语言监督编码器的表现优于自我监督编码器；InternVideo2和SigLIP-SO-400M结合使用可获得最佳的整体性能。

SigLIP-SO400M是用于视频LMM的最佳单一编码器。

将视频编码器和图像编码器结合起来可以抵消它们的局限性，因为图像编码器不对时间信息进行编码，而视频编码器的空间表示能力较弱。

组合编码器的性能始终优于单编码器的同类产品，其中InternVideo2+SigLIP-SO400M的总体性能最好，在ApolloBench中提高了∼7%。可以发现输入帧数较少的视频编码器表现更佳，这可能是由于图像-视频传输效果更好。

将SigLIP-SO400M与InternVideo2结合使用，整体性能最佳。

3. 视频token重采样

相比于其他大模型，token重采样在视频 LMM 中更为重要，因为这直接影响到可处理的帧数，限制了视频的最大长度。视频token重采样可以由文本引导（如使用 Q-Former）。

然而，这种方法并不能很好地适用于多轮对话，因为token会根据第一个问题向下采样。还有许多人采用某种形式的平均汇聚（averagepooling）。

作者测试了三种token重采样方法：mlp上投影 + 平均汇聚、2D conv + 平均汇聚和感知器重采样(perceiver resampling)。

如表1所示，感知重采样(perceiver resampling)在所有指标上都优于其他方法。

表1：视频token重采样方法。不同token重采样技术在视频-LMM 任务中的表现

在所有指标上，感知重采样(perceiver resampling)都优于其他方法。

在减少token/帧时，感知重采样(perceiver resampling)出卓越的性能。

4. 视频token集成

集成视频和文本token是视频 LMM 的关键设计选择，因为它直接影响到模型处理和解释多模态内容的效率。

为了确定最稳健的集成策略，如表2所示，评估了四种集成策略：直接插入、分离token、文本时间戳以及将分离token与时间戳相结合。

可以看出，我们发现在视频token之间添加任何文本或学习到的token都会在ApolloBench上带来2-3%的改进。

表2：视频token集成方法。将视频token集成到文本序列的不同策略的性能

在每个片段前加入文本时间戳的整体性能最佳。

在来自不同帧或片段的视频token之间添加token（文本、学习到的标签等），足以实现高效的token集成。

多模态大模型的训练

1. 训练调度器

如表3所示，作者系统地评估了不同训练计划对模型性能的影响，比较了单阶段、两阶段和三阶段训练方案，发现分三阶段训练模型的效果最好，紧随其后的是两阶段的训练调度策略。对于每种训练调度策略，测试了三种超参数，并报告了其中最优参数的结果。

表3：训练调度器。评估的七种不同训练计划概览，突出显示了 LLM 和视觉编码器在每个阶段是冻结还是解冻，以及用于训练的数据类型。

在不同的阶段逐步解冻不同的组件，从而获得卓越的模型训练动态。

2. 训练视频解码器

作者在表3中比较了在混合数据上训练视觉编码器还是完全在视频数据上训练视觉编码器，以及对齐优先的连接器是否能提高性能。

当LLM解冻时，使用文本、图像、多图像和视频数据的混合数据。因此，如果视频和LLM同时解冻，视觉编码器将在图像和视频数据的组合上进行训练。

可以发现，这将大大损害LMM性能。训练编码器提高了以自我为中心的推理性能，而其他指标则基本不受影响，这很可能是由于视觉-语言的细粒度配准得到了改善。

仅在视频数据上对视频编码器进行微调可进一步提高整体性能，尤其是在推理和特定领域任务上。

3. 数据组合

在图7中，研究了文本、图像和视频混合数据对视频LMM性能的影响。

可以看出，在训练组合中包含10∼14%的文本数据对性能是必需的。这可能会减轻灾难性遗忘。将文本数据的比例从14%提高到25%，或将其降低到7%以下，都会损害性能。

除了包含文本数据外，其余模式的混合比例最好略微偏重于视频。这种平衡可以让模型从更高质量、更多样化的图像数据中学习。

图7：微调数据集的数据统计。(左）数据模式分类，包括文本、图像、多图像和视频，说明微调数据集的构成。(中）视频注释类型的分布，突出显示了对话、推理、第一视角、时态感知、OCR和字幕注释的比例。(右图）视频时长直方图，显示了训练数据集中时长的分布情况

Apollo模型评估

基于新的发现，团队开发了一系列Apollo模型，其机构图如下。

Apollo模型在多个基准数据集上进行了评估，其在视频语言理解任务中的结果见表4。

此外， Apollo-7B可与参数超过30B的模型（如Oryx-34B和VILA1.5-40B 等）相媲美，甚至超越了参数超过30B的模型，如Oryx-34B和VILA1.5-40B。

例如，在MLVU基准上，Apollo-7B得分为70.9，以微弱优势超过Oryx-34B的70.8。

这证实了精心选择的架构和训练策略可以带来实质性的改进，而无需求助于更大的模型规模。

参考资料

https://x.com/orr_zohar/status/1868689329221935324

https://arxiv.org/abs/2412.10360

本文来自微信公众号“新智元”，作者：KingHZ，36氪经授权发布。