当前位置:首页|资讯|OpenAI|北大

CLIP还能再战 !结合Mamba超越传统,仅用1/5参数就达到天花板性能

作者:深度之眼官方账号发布时间:2024-07-19

CLIP是由OpenAI开发的多模态预训练模型,具有非常强的泛化能力、高效性和灵活性。

目前关于CLIP的研究主要是将它与其他技术结合,以实现更复杂的多模态任务。这种策略不仅可以很大程度上提升模型的性能,还给我们提供了更大的创新空间,很多研究也已经在多个领域获得了显著的成效。

比如首次提出的CLIP-Mamba模型,仅用1/5参数就达到ViT天花板性能;还有北大最新的CLIP-GS,在实时渲染速度和分割精度方面实现SOTA效果。

为帮助同学们了解最新动态,这次我整理了12个最新的CLIP结合创新方案,基本都有开源代码,包含了热门的Mamba、Transformer等主题,希望能给各位提供新的思路。

扫码添加小享,回复“CLIP创新”  

免费获取全部论文+开源代码

结合Mamba

CLIP-Mamba: CLIP Pretrained Mamba Models withOOD and Hessian Evaluation

方法:论文介绍了第一次尝试使用对比性语言-图像预训练(CLIP)来训练可转移的Mamba模型,通过对26个零样本分类数据集和16个超出分布(OOD)数据集进行全面评估,发现拥有6700万参数的Mamba模型在零样本分类任务上与拥有3.07亿参数的Vision Transformer(ViT)模型相当,突显了Mamba模型的参数效率。

创新点:

  • 提出了CLIP-Mamba模型:CLIP-Mamba模型以更少的参数超越了大型ViT模型,展现了其高效能与卓越效果。

  • OOD泛化能力验证:在多样化的OOD数据集上,Mamba模型表现优于ViT,展现出强大的泛化能力和鲁棒性。

  • 训练景观分析:Mamba模型的训练景观呈现“非凸”且尖锐,表明其优化过程更具挑战性,也为性能优化提供了方向。

结合3DGS

CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding

方法:论文提出了一个名为CLIP-GS的新方法,该方法将CLIP模型的语义理解能力整合到3D高斯溅射中,以实现对3D场景的高效和实时的语义理解。具体来说,CLIP-GS利用CLIP模型来提供无需标注的语义数据,以此来增强3D场景的语义理解,而无需依赖于手动标注的多视角语义标签。

创新点:

  • 引入了基于高斯光斑的CLIP-GS方法,用于实现实时和精确的三维场景语义理解。CLIP-GS利用语义属性紧凑性(SAC)将紧凑的语义信息附加到三维高斯中,以高效表示三维语义,从而保证了高效的渲染。

  • 首次将基于高斯光斑的三维重建应用于单目或RGB-D相机的增量三维重建。

  • 引入了语义属性紧凑性来解决以往方法的限制。该方法通过在高斯中高效表示场景语义,保证了异常快速的训练和推理速度。

扫码添加小享,回复“CLIP创新”  

免费获取全部论文+开源代码

结合Transformer

Frozen CLIP Transformer Is an Efficient Point Cloud Encoder

方法:本文提出了一种使用冻结的CLIP Transformer构建点云理解模型的高效方法,该方法通过使用点云分词器将输入点云转换为序列标记,并将这些标记和可学习的任务标记输入到冻结的CLIP Transformer中,从而生成具有鲁棒性的3D表示。

创新点:

  • EPCL方法利用冻结(即不进行训练调整)的CLIP变换器作为点云的编码器。

  • 通过设计点云分词器,将点云特征与图像特征映射到同一嵌入空间,实现了不同模态之间的语义对齐,而无需成对的2D-3D数据。

  • 提出了一种高效的模块,即点云分词器,用于将点云和图像信息映射到同一嵌入空间。

  • 引入了任务标记,这是一个可学习的全连接层,用于嵌入特定于任务的偏差,以进一步提升模型对点云任务的适应性。

结合SAM

Sam-clip: Merging vision foundation models towards semantic and spatial understanding

方法:SAM-CLIP,一个将SAM和CLIP的优势融合到一个单一骨干中的统一模型,通过合并SAM和CLIP模型实现零样本语义分割,并在多个数据集上取得了新的最高性能,同时最小限度地遗忘了原始模型的零样本能力,适用于边缘设备应用。

创新点:

  • 提出了一种有效合并预训练VFMs的方法,通过多任务蒸馏和记忆回放,实现了无遗忘的知识融合。

  • 通过合并SAM和CLIP模型的图像编码器,提出了SAM-CLIP模型,该模型在零样本语义分割任务上具有比原模型更好的性能。

扫码添加小享,回复“CLIP创新”  

免费获取全部论文+开源代码



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1