刚刚！Meta开源全新模型，视频也能分割了

作者：AI研习所发布时间：2024-07-31

继前几日推出完开源大模型Llama 3.1后，就在刚刚，Meta在 SIGGRAPH 上重磅宣布 Segment Anything Model 2 (SAM 2) 来了。在其前身的基础上，SAM 2 的诞生代表了领域内的一次重大进步 —— 为静态图像和动态视频内容提供实时、可提示的对象分割，将图像和视频分割功能统一到一个强大的系统中。

SAM 2可以快速、精确地在任何视频或图像中选择对象。它不仅能在图像中分割对象，还能在视频中追踪对象，即使这些对象在训练时从未见过。该模型支持实时互动，非常适合各种实际应用，比如视频编辑和互动式媒体内容制作。

模型介绍以及功能

SAM2的核心优势在于其快速精准的对象分割能力，无论是静态图像还是动态视频，它都能轻松应对。这一模型不仅能够识别和分割图像中的单一对象，还能在视频流中实时追踪对象，即便这些对象在训练阶段未曾出现过。SAM2的实时互动特性，使其在视频编辑和互动媒体内容制作等领域具有广泛的应用前景。

它采用了统一的架构设计，无需针对图像和视频分别训练，就能同时处理两种类型的分割任务。这种设计大大提高了模型的通用性和效率，为各种视觉应用场景提供了强大支持。

与 SAM 一样，SAM 2 也会开源并免费使用，并在 Amazon SageMaker 等平台上托管。为了履行对开源 AI 的承诺，Meta 使用宽松的 Apache 2.0 协议共享代码和模型权重，并根据 BSD-3 许可分享 SAM 2 评估代码。

正如扎克伯格上周在一封公开信中指出的那样，开源人工智能比任何其他现代技术都更具有潜力，可以提高人类的生产力、创造力和生活质量，同时还能加速经济增长并推动突破性的医学和科学研究。人工智能社区利用 SAM 取得的进展给我们留下了深刻的印象， SAM 2 必将释放更多令人兴奋的可能性。

而SAM 2 前脚刚上线，大家就迫不及待的用起来了：「在 Meta 未提供的测试视频上试用 SAM 2。效果好得令人瞠目结舌。」

同时还有网友认为，SAM 2 的出现可能会使其他相关技术黯然失色。

如何构建

SAM 能够了解图像中对象的一般概念。然而，图像只是动态现实世界的静态快照。许多重要的现实用例需要在视频数据中进行准确的对象分割，例如混合现实、机器人、自动驾驶车辆和视频编辑。Meta 认为通用的分割模型应该适用于图像和视频。

图像可以被视为具有单帧的非常短的视频。Meta 基于这个观点开发了一个统一的模型，无缝支持图像和视频输入。处理视频的唯一区别是，模型需要依靠内存来调用该视频之前处理的信息，以便在当前时间步准确地分割对象。

视频中对象的成功分割需要了解实体在空间和时间上的位置。与图像分割相比，视频提出了重大的新挑战。对象运动、变形、遮挡、光照变化和其他因素可能会因帧而异。由于摄像机运动、模糊和分辨率较低，视频的质量通常低于图像，这增加了难度。因此，现有的视频分割模型和数据集在为视频提供可比的「分割任何内容」功能方面存在不足。

Meta 构建 SAM 2 和新 SA-V 数据集来解决这些挑战。

与用于 SAM 的方法类似，Meta 对视频分割功能的研究涉及设计新任务、模型和数据集。

然后，研究团队使用 SAM 2 来帮助创建视频对象分割数据集 ——SA-V，该数据集比当前存在的任何数据集大一个数量级。研究团队使用它来训练 SAM 2 以实现 SOTA 性能。

可提示的视觉分割

研究团队设计了一个可提示的视觉分割任务，将图像分割任务推广到视频领域。SAM 经过训练，可以将图像中的点、框或蒙版作为输入，以定义目标对象并预测分割蒙版。

借助 SAM 2，我们训练它接受视频任意帧中的输入提示，以定义要预测的时空蒙版（即“蒙版小片”）。

SAM 2 根据输入提示立即预测当前帧上的蒙版，并将其在时间上传播以生成所有视频帧中的目标对象的蒙版小片。一旦预测了初始蒙版小片，就可以通过在任意帧中向 SAM 2 提供额外提示来迭代细化它。这可以根据需要重复多次，直到获得所需的蒙版小片。

SA-V：构建最大的视频分割数据集

为了收集一个大型且多样化的视频分割数据集，Meta 建立了一个数据引擎，其中注释员使用 SAM 2 交互地在视频中注释 masklet，然后将新注释的数据用于更新 SAM 2。他们多次重复这一循环，以迭代地改进模型和数据集。与 SAM 类似，Meta 不对注释的 masklet 施加语义约束，注重的是完整的物体（如人）和物体的部分（如人的帽子）。

借助 SAM 2，收集新的视频对象分割掩码比以往更快，比每帧使用 SAM 快约 8.4 倍。此外，Meta 发布的 SA-V 数据集的注释数量是现有视频对象分割数据集的十倍以上，视频数量大约是其 4.5 倍。

总结而言，SA-V 数据集的亮点包括：

在大约 51,000 个视频中有超过 600,000 个 masklet 注释；

视频展示了地理上不同的真实场景，收集自 47 个国家；

覆盖整个对象、对象中的一部分，以及在物体被遮挡、消失和重新出现的情况下具有挑战性的实例。