原创 | 文 BFT机器人
核心要点 / Core points
SAM,机器视觉领域的 ChatGPT
Meta Al 发布通用大模型 SAM,SAM 功能强大,SAM 是一种可提示的分割系统,可对不熟悉的对象和图像进行零样本泛化,无需额外训练。SAM 优势众多,可与其他系统灵活集成、可进行可拓展式输出等。零样本泛化能力是 SAM 的最强大之处,原因是 SAM 已经了解了物体是什么的一般概念,这种理解可以在不需要额外训练的情况下对不熟悉的物体和图像进行零样本泛化。
SAM 训练模型实为 CV 领域的数据引擎,参数方面的高级功能是其对通过使用模型在环“数据引擎”收集的数百万张图像和掩码进行训练的结果,此外,SAM 已经实现开源,算力部分尤为重要,根据 Meta 官网数据,该模型已经实现在 GitHub 上开源,算力模型训练部分,该模型在 256 个 A100 GPU 上训练了3-5天,推理部分,可在 NVIDIA A100 GPU 上,图像编码器大约需要 0.15 秒。此外,SAM 的模型设计极其灵活。
SAM,实为解放生产力的双手
SAM对机器视觉会产生革命性的影响,原因是从机器视觉的角度来说,感知永远是处于智能模块的流程前期,且感知在 AI 机器视觉领域占据绝大部分的功耗,原因是感知需要将数据转换成特征向量。就智能驾驶而言,图像分割 是深度神经网络架构,在智能驾驶极为重要,SAM 出世后,我们认为此神经网络有望直接被 SAM 大模型代替,效率大幅提升,模型预训练所需的时间、人力成本有望大幅降低,同理,其他领域机器视觉同样受益,例如智慧安防领域、家用摄像头领域、工业智检领域、地理信息化领域、3D 建模领域等。
SAM,机器视觉领域的ChatGPT
近日Meta Al 发布通用大模型 SAM: Segment Anything Model (SAM)一种来自Meta Al 的新 AI 模型,只需单击一下即可“切出”任何图像中的任何对象。客户可以在官网直接体验 SAM 带来的视觉体验。
图1:Meta AI 推出SAM大模型
资料来源:META AI 官网
SAM 功能强大: SAM是一种可提示的分割系统,可对不熟悉的对象和图像进行零样本泛化,无需额外训练。
图2:SAM进行自动分割
资料来源:META AI 官网
SAM 优势众多
第一,SAM 的提示设计可实现与其他系统的灵活集成。例如SAM 可以从其他系统获取输入提示,例如在未来从 AR/VR 耳机获取用户的注视以选择对象。同时 SAM也可以来自对象检测器的边界框提示可以启用文本到对象的分割。
图3:SAM可以实现与其他系统的灵活集成
资料来源:META AI 官网
第二,SAM 可进行可拓展的输出,输出掩码可用作其他 AI 系统的输入。例如,可以在视频中跟踪对象遮罩、启用图像编辑应用程序、提升为 3D 或用于拼贴等创意任务。
图4:SAM进行可拓展输出示意图
资料来源:META AI 官网
第三,SAM 最强大之处即实现零样本泛化: SAM 已经了解了物体是什么的一般概念,这种理解可以在不需要额外训练的情况下对不熟悉的物体和图像进行零样本泛化。我们认为这是 SAM 在 CV(机器视觉)领域中具备跨时代的意义的根本原因之一,因为语义图像分割是所有 CV 的初始步骤,即模型的预训练,需要花费极高的人力、时间成本,SAM 出世后,此步骤有望明显改变,因此具备跨时代的意义。
图5:SAM零样本泛化功能
资料来源:META AI 官网
SAM 训练模型实为 CV领域的数据引擎,参数方面 SAM 的高级功能是其对通过使用模型在环“数据引擎”收集的数百万张图像和掩码进行训练的结果。研究人员使用 SAM 及其数据以交互方式注释图像并更新模型。这个循环重复多次以改进模型和数据集。
同时,SAM 能够实现复杂的歧义感知设计来完全自动地注释新图像: 同样我们认为此举具备跨时代的意义,原因是我们认为其精度已经具备多领域所必须的图像语义分割的精度,根据 Meta 官网数据,公司的最终数据集包括在约 1100 万个许可和隐私保护图像上收集的超过 11 亿个分割掩码。
此外,SAM 已经实现开源,算力部分尤为重要: 根据 Meta 官网数据,改模型已经实现在 GitHub 上开源,算力模型训练部分,该模型在 256 个A100 GPU上训练了3-5 天,推理部分,可在 NIDIA A100 GPU 上,图像编码器大约需要 0.15秒。
图6:SAM模型部分数据集
资料来源:META AI 官网
SAM 的模型设计极其灵活: SAM 旨在高效地为其数据引擎提供动力。可将模型拆解成两步骤,第一,一次性图像编码器: 第二,将编码信息通过轻量级掩码解码器用于预测分割,此过程只需几毫秒内在网络浏览器中运行即可。
图7:SAM模型具有高效灵活的特性
资料来源:META AI 官网
虽然 SAM 总体上表现突出,然而依旧存在一定限制:例如可能错过精细结构。此外,SAM 并不完全可靠,依旧处于探索期间。未来我们认为随着 AI 机器学习代码逐渐选代,SAM 势必对机器视觉领域产生革命性的影响。
SAM实为解放生产力的双手
SAM 对计算机视觉领域会产生革命性的影响: 原因是从机器视觉的角度来说,感知永远是处于智能模块的流程前期,且感知在 AI 机器视觉领域占据绝大部分的功耗,原因是感知需要将数据转换成特征向量。因此 SAM领域势必会对整个机器视觉领域带来革命性的影响。
就机器视觉领域来说,SAM有望成为解放生产力的双手: 感知处于整个智能驾驶模块化智能系统中深度学习的第一层,示意图如下。
图8:智能驾驶深度学习流程示意图
资料来源:IEEE Access,Github,华西证券研究所
传统的图像(语义)分割需要深度的神经网络学习: 语义分割是将标签类别与图片的每个像素关联的一种深度学习算法,智能驾驶里至关重要,因为边界目标对象很难通过边界框来定义。语义分割用来识别可区分类别的像素集合,比如智能驾驶汽车需要识别的车辆、行人、交通信号等。如下图所示,图A、B、C 是前置摄像头语义分割的视图,算法分别是 YOLOv3、MaskRCNN、DeepLabv3,图D 为激光雷达语义分割场景试图。
图9:智能驾驶图像分割示意图
资料来源:IEEE Access
图像分割一个常用的方法是一个基于卷积神经网络的架构,如下图所示。由于特征识别是在像素级别上分类,而不是对整个图像分类,所以在原有神经网络的架构上,追加一个神经网络的逆向实现,向上采样的过程的执行次数与向下采集的过程相同,以确保最终图像的大小与输入图像相同。最后使用像素分类输出层,将每个像素映射到一个特定类,从而实现语义分割。
图10:智能驾驶图像分割示意图
资料来源:Github
SAM 实为解放生产力的双手: SAM 大模型的出世有望直接影响智能驾驶的图像分割领域。SAM 大模型出世后,感知领域有望带来革命性的变革,图像分割有望从复杂的神经网络、深度学习直接被 SAM大模型替代,效率大幅提升,模型预训练所需的时间、人力成本有望大幅降低,成为真正意义上的解放生产力的双手。对智能驾驶领域,CV 的泛化能力明显提升,加快算法的迭代,更快拥抱 L5 智能驾驶时代的到来。
同理,SAM 的横空出世对其他机器视觉的应用场景同样带来革命性的影响,例如智慧安防领域、家用摄像头领域、工业智检领域、地理信息化领域、3D 建模领域等。
报告出品:华西证券研究所报告编辑:BFT智能机器人研究
更多精彩内容请关注公众号:BFT机器人
本文为原创文章,版权归BFT机器人所有,如需转载请与我们联系。若您对该文章内容有任何疑问,请与我们联系,将及时回应。