Meta「分割一切」进化2.0！一键跟踪运动物体，代码权重数据集全开源，网友：真正的OpenAI

作者：量子位发布时间：2024-07-30

编程 OpenAI

明敏发自凹非寺

量子位 | 公众号 QbitAI

又是发布即开源！

Meta“分割一切AI”二代SAM2在SIGGRAPH上刚刚亮相。

相较于上一代，它的能力从图像分割拓展到视频分割。

可实时处理任意长视频，视频中没见过的对象也能轻松分割追踪。

更关键的是，模型代码、权重以及数据集通通开源！

它和Llama系列一样遵循Apache 2.0许可协议，并根据BSD-3许可分享评估代码。

网友yygq：我就问OpenAI尴尬不尴尬。

Meta表示，此次开源的数据集包含51000个真实世界视频和600000个时空掩码（masklets，spatio-temporal masks)，规模远超此前最大同类数据集。

可在线试玩的demo也同步上线，大家都能来体验。

在SAM之上加入记忆模块

相较于SAM一代，SAM2的能力升级主要有：

支持任意长视频实时分割
实现zero-shot泛化
分割和追踪准确性提升
解决遮挡问题

它进行交互式分割的过程主要分为两步：选择和细化。

在第一帧中，用户通过点击来选择目标对象，SAM2根据点击自动将分割传播到后续帧，形成时空掩码。

如果SAM2在某些帧中丢失了目标对象，用户可以通过在新一帧中提供额外的提示来进行校正。

如果在第三帧中需要需要恢复对象，只需在该帧中点击即可。

SAM2的核心思路是将图像视作单帧视频，因此可以从SAM直接扩展至视频领域，同时支持图像和视频输入。

处理视频唯一的区别在于，模型需要依赖内存来回忆处理过的信息，以便在当前时间步长上准确分割对象。

与图像分割相比，视频分割中，物体的运动、变形、遮挡和光线等都会发生强烈变化。同时分割视频中的对象需要了解实体跨越空间和时间的位置。

所以Meta主要做了三部分工作：

设计一个可提示的视觉分割任务
在SAM基础上设计新模型
构建SA-V数据集

首先，团队设计了一个视觉分割任务，将图像分割任务推广到视频领域。

SAM被训练成以图像中的输入点、框或掩码来定义目标并预测分割掩码(segmentation mask)。

然后训练SAM在视频的任意帧中接受prompt来定义要预测的时空掩码(masklet)。

SAM2根据输入提示对当前帧上的掩码进行即时预测，并进行临时传播，在所有帧上都可生成目标对象的掩码。

一旦预测到初始掩码，就可以通过任何帧中向SAM2提供额外提示来进行迭代改进，它可以根据需要重复多次，直到获取到所有掩码。

通过引入流式记忆（streaming memory），模型可以实时处理视频，还能更加准确分割和跟踪目标对象。

它由记忆编码器、记忆库和记忆注意力模块组成。让模型一次只处理一帧图像，利用先前帧信息辅助当前帧的分割任务。

分割图像时，内存组件为空，模型和SAM类似。分割视频时，记忆组件能够存储对象信息以及先前的交互信息，从而使得SAM2可以在整个视频中进行掩码预测。

如果在其他帧上有了额外提示，SAM2可以根据目标对象的存储记忆进行纠错。

记忆编码器根据当前预测创建记忆，记忆库保留有关视频目标对象过去预测的信息。记忆注意力机制通过条件化当前帧特征，并根据过去帧的特征调整以产生嵌入，然后将其传递到掩码解码器以生成该帧的掩码预测，后续帧不断重复此操作。

这种设计也允许模型可以处理任意时长的视频，不仅对于SA-V数据集的注释收集很重要，也对于机器人等领域应有有影响。

如果被分割对象比较模糊，SAM2还会输出多个有效掩码。比如用户点击了自行车的轮胎，模型可以将此理解为多种掩码，可能是指轮胎、可能是指自行车全部，并输出多个预测。

在视频中，如果在一帧图像中仅有轮胎可见，那么可能需要分割的是轮胎；如果视频后续帧中很多都出现了自行车，那么可能需要分割的是自行车。

如果还是不能判断用户到底想分割哪个部分，模型会按照置信度进行选择。

此外，视频中还容易出现分割对象被遮挡的情况。为了解决这个新情况，SAM2还增加了一个额外的模型输出“遮挡头”（occlusion head），用来预测对象是否出现在当前帧上。

此外，在数据集方面。

SA-V中包含的视频数量是现有最大同类数据集的4.5倍，注释量则是53倍。

为了收集到如此多的数据，研究团队构建了一个数据引擎。人工会利用SAM2在视频中注释时空掩码，然后将新的注释用来更新SAM2。多次重复这一循环，就能不断迭代数据集和模型。

和SAM相似，研究团队不对注释的时空掩码进行语义约束，而是更加关注完整的物体。

这一方法让收集视频对象分割掩码速度也大幅提升，比SAM快8.4倍。

解决过度分割、超越SOTA

对比来看，使用SAM2可以很好解决过度分割的问题。

实验数据显示，和半监督SOTA方法比较，SAM2各项性能都表现不错。

不过研究团队也表示，SAM2还有不足，

比如可能会跟丢对象。如果相机视角变化大、在比较拥挤的场景里，就容易出现这类情况。所以他们设计了实时交互的模式，支持手动修正。

以及目标对象移动过快，可能会细节上有缺失。

最后，模型不仅开源支持免费使用，并已在Amazon SageMaker 等平台上托管。

值得一提的是，有人发现论文中提到SAM2训练是在256块A100上耗时108小时完成，对比SAM1则花了68小时。

从图像分割扩展到视频领域，成本如此低？

参考链接：

[1]https://ai.meta.com/blog/segment-anything-2/

[2]https://x.com/swyx/status/1818074658299855262

— 完—

量子位年度AI主题策划正在征集中！

欢迎投稿专题一千零一个AI应用，365行AI落地方案

或与我们分享你在寻找的AI产品，或发现的AI新动向

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

近期资讯

柒柔学姐 2024-12-28

地理考了全班第一！我的满分答题模板

高中地理学习方法主要包括以下几点: 1.理清课本:注重基础知识，理解地理原理和地图。 2.常看地图:记忆地图，掌握地图和地理概念。 3.提高应试技巧:保持做题量，整理错题，学会自己总结大题模板。 4.刷题:有选择性地刷题，保持题感。 5.关注时事:理解基本理论和政策，多做题练习答题技巧。 6.课外拓展:关注课外地理知识，拓宽视野。 [图片] [图片] [图片] [图片]

美女拒绝emo芽 2024-12-28

用5分钟换你政治选择题满分很亏吗？

高中政治学习方法主要包括以下几点: 1.背诵:背诵是做好题目的基础，背诵时要注重理解记忆，掌握重点知识和原理。 2.做题:通过做题保持题感，积累错题本，记录易错知识点，总结答题技巧和策略。 3.阅读课本:重视课本原理，经常翻阅课本，掌握课本中的细节和非正文部分。 4.课堂笔记:及时记录和整理课堂笔记，总结知识点，加深理解。 5.思维导图:利用思维导图整理知识框架，帮助记忆和理解。 6.时事政治:关注时事政治，结合时事分析题目，提高分析和解决问题的能力。 [图片] [图片] [图片] [图片]

美女拒绝emo芽2 2024-12-28

为有源标签和读写器设备提供电力支持的大咖是谁？

有源 RFID 标签常见的供电方式一般采用纽扣电池、锂电池等。纽扣电池体积小，适用于小型有源标签，能够为标签提供稳定的电力供应，使标签可以在较长时间内（通常几年时间）持续工作。纽扣电池可以支持标签定期发送自身位置信息。锂电池则具有较高的能量密度，能为需要较大功率的有源标签提供足够的电力，像在一些大型设备的资产管理标签中，锂电池可以满足标签远距离通信和复杂功能的需求。对于一些固定位置使用的有源 RFID 读写器，通常采用外部电源适配器供电。这种方式可以提供稳定的交流电转换后的直流电，确保读写器有足够的功率来

条码刘帮主 2024-12-28

高中政治答题术语，实在不会就抄吧！

很多同学对高中政治大题的作答处于两极，会的人觉得特别简单，不会的人觉得毫无头绪。会的同学里又是两类：一些同学写的又快又准，另一些写的又慢又多。不会的同学也是两类：一类闷头采用字海战术，另一类干脆不知道写啥。今天就给大家整理了【高考政治主观题答题术语】，整个高中阶段的答题技巧都有，只要认真学习，就一定能上高分榜！答题时一定要注意：分点分段序号化，忌毫无条理长篇大论。政治术语规范化，忌使用口头语，忌犹抱琵琶半遮面（只答政治术语不分析或者只分析不答术语）。字迹工整美观化。这就需要我们平常注意练字，不需

种颗糖葫芦吖 2024-12-28

小米终于“摊牌”，小米15跌价481元，堪称同价位机型“新卷王”

自从年货节活动正式打响以后，手机厂商开始了新一轮的“价格战”。一向主打性价比的小米手机更是彻底“摊牌”了。笔者发现，在第三方平台，小米数字系列高端旗舰小米15的价格跌价481元，12GB+256GB版本到手仅需4018元，堪称同价位机型“新卷王”。那么，和市面上同价位机型相比，小米15是否更值得我们消费者入手呢？细心的朋友们会发现，小米手机最近这几年在外观设计方面，真的是进步很大。小米15的外观设计，在同质化问题日益严重的手机行业中，拥有非常高的辨识度。而且，整机所带来的质感和手感表现丝毫不输给市面上同价

小愚测评 2024-12-28

让“锂”程更远，伺服系统硬核助力锂电池生产

伺服系统以其高精度、高响应及强稳定的控制性能，成为锂电池设备厂商异军突起的黄金搭档！一、前段工序 #极片制造环节# 1 涂布机涂布机是将正负极材料均匀地涂覆在金属箔片上的设备。伺服系统定位精度达到 ±0.01mm 甚至更高，可以精确地控制涂布头的横向移动，确保涂布头在极片宽度范围内涂抹。同时，伺服系统可以根据涂布速度的要求，精准地调节涂布头的运行速度，从而保证极片涂层的厚度精度和平整度，有助于提高锂电池的性能一致性。 [图片] 2 辊压机辊压机用于将涂布后的极片进行压实，以增加极片的密度。

奥通Aicortech 2024-12-28

Meta「分割一切」进化2.0！一键跟踪运动物体，代码权重数据集全开源，网友：真正的OpenAI

推荐体验

相关资讯