当前位置：首页|资讯|OpenAI|北大

CLIP还能再战！结合Mamba超越传统，仅用1/5参数就达到天花板性能

作者：深度之眼官方账号发布时间：2024-07-19

CLIP是由OpenAI开发的多模态预训练模型，具有非常强的泛化能力、高效性和灵活性。

目前关于CLIP的研究主要是将它与其他技术结合，以实现更复杂的多模态任务。这种策略不仅可以很大程度上提升模型的性能，还给我们提供了更大的创新空间，很多研究也已经在多个领域获得了显著的成效。

比如首次提出的CLIP-Mamba模型，仅用1/5参数就达到ViT天花板性能；还有北大最新的CLIP-GS，在实时渲染速度和分割精度方面实现SOTA效果。

为帮助同学们了解最新动态，这次我整理了12个最新的CLIP结合创新方案，基本都有开源代码，包含了热门的Mamba、Transformer等主题，希望能给各位提供新的思路。

扫码添加小享，回复“CLIP创新”

免费获取全部论文+开源代码

结合Mamba

CLIP-Mamba: CLIP Pretrained Mamba Models withOOD and Hessian Evaluation

方法：论文介绍了第一次尝试使用对比性语言-图像预训练（CLIP）来训练可转移的Mamba模型，通过对26个零样本分类数据集和16个超出分布（OOD）数据集进行全面评估，发现拥有6700万参数的Mamba模型在零样本分类任务上与拥有3.07亿参数的Vision Transformer（ViT）模型相当，突显了Mamba模型的参数效率。

创新点：

提出了CLIP-Mamba模型：CLIP-Mamba模型以更少的参数超越了大型ViT模型，展现了其高效能与卓越效果。
OOD泛化能力验证：在多样化的OOD数据集上，Mamba模型表现优于ViT，展现出强大的泛化能力和鲁棒性。
训练景观分析：Mamba模型的训练景观呈现“非凸”且尖锐，表明其优化过程更具挑战性，也为性能优化提供了方向。

结合3DGS

CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding

方法：论文提出了一个名为CLIP-GS的新方法，该方法将CLIP模型的语义理解能力整合到3D高斯溅射中，以实现对3D场景的高效和实时的语义理解。具体来说，CLIP-GS利用CLIP模型来提供无需标注的语义数据，以此来增强3D场景的语义理解，而无需依赖于手动标注的多视角语义标签。

创新点：

引入了基于高斯光斑的CLIP-GS方法，用于实现实时和精确的三维场景语义理解。CLIP-GS利用语义属性紧凑性（SAC）将紧凑的语义信息附加到三维高斯中，以高效表示三维语义，从而保证了高效的渲染。
首次将基于高斯光斑的三维重建应用于单目或RGB-D相机的增量三维重建。
引入了语义属性紧凑性来解决以往方法的限制。该方法通过在高斯中高效表示场景语义，保证了异常快速的训练和推理速度。

扫码添加小享，回复“CLIP创新”

免费获取全部论文+开源代码

结合Transformer

Frozen CLIP Transformer Is an Efficient Point Cloud Encoder

方法：本文提出了一种使用冻结的CLIP Transformer构建点云理解模型的高效方法，该方法通过使用点云分词器将输入点云转换为序列标记，并将这些标记和可学习的任务标记输入到冻结的CLIP Transformer中，从而生成具有鲁棒性的3D表示。

创新点：

EPCL方法利用冻结（即不进行训练调整）的CLIP变换器作为点云的编码器。
通过设计点云分词器，将点云特征与图像特征映射到同一嵌入空间，实现了不同模态之间的语义对齐，而无需成对的2D-3D数据。
提出了一种高效的模块，即点云分词器，用于将点云和图像信息映射到同一嵌入空间。
引入了任务标记，这是一个可学习的全连接层，用于嵌入特定于任务的偏差，以进一步提升模型对点云任务的适应性。

结合SAM

Sam-clip: Merging vision foundation models towards semantic and spatial understanding

方法：SAM-CLIP，一个将SAM和CLIP的优势融合到一个单一骨干中的统一模型，通过合并SAM和CLIP模型实现零样本语义分割，并在多个数据集上取得了新的最高性能，同时最小限度地遗忘了原始模型的零样本能力，适用于边缘设备应用。

创新点：

提出了一种有效合并预训练VFMs的方法，通过多任务蒸馏和记忆回放，实现了无遗忘的知识融合。
通过合并SAM和CLIP模型的图像编码器，提出了SAM-CLIP模型，该模型在零样本语义分割任务上具有比原模型更好的性能。

扫码添加小享，回复“CLIP创新”

免费获取全部论文+开源代码

推荐体验

相关资讯

纯（）的天花板

[图片] 点动态粗体标题看竖屏大图，图片使用Midjourney与PS绘制，勿商用，转载请注明哦，喜欢的话给Up亿点鼓励哟！

胖爸像素研究院 2023-10-24

文字生成图片，midjourney命令参数大全，AI绘图天花板

midjourney上手简单，精通难，想绘制自己满意的图片，需要掌握各命令和参数，并花一些时间操作来提高熟练度。老马也玩了很久了，这里搜寻整理了midjourney常用命令和参数，分享给大家。midjourney快速上手使用方法打开Discord中的机器人频道，在文本框输入”/”会自动列出AI的命令列表，鼠标点击要用的功能即可开始实用。一、Midjourney各命令的功能/imagine用文本自动生成4张图像/info显示有关您的个人资料的信息/invite生成邀请链接并将其发送到你的个人消息界面，你可以

Mark老马奇遇记 2023-01-11

Python入门学习资料天花板！

python3.11即将于下半年发布，新的版本速度提升2倍，以弥补与其他编程语言在速度上的缺陷。可以预见Python语言在未来的应用范围会越来越广。python学习方向建议：如果你是本科及以下学历，建议你学习以下两个方向1、爬虫。简单的爬虫库，代理爬虫，分布式爬虫等2、Web。学习主流Web框架，轻量级的Flask。重量级的Django等3、自动化测试如果你是本科以上学历，建议你学习1、机器学习2、人工智能3、数据分析4、机器学习python学习方法建议：1、确定学习目标，根据自己学习方向，定制学习路线2

编程机器学习人工智能

该我火一次了吧 2023-08-08

OpenAI满血版o1剧透：数学代码能力再破天花板，已开启测试评估

与GPT系列独立，都会有新品

量子位 2024-10-22

超越PG界限：荣耀MagicOS 8.0挑战电子操作系统天花板iOS

【PG SOFT电子科技消息】荣耀即将举办Magic6系列旗舰新品MagicOS 8.0发布会，预定于1月10日至11日。MagicOS 8.0将在明天首次推出，引入荣耀自研的端侧7B大模型“魔法大模型”。荣耀终端CEO赵明表示，AI大模型时代以数据、模型和算力为基础，正在经历对多模态信息融合方向的颠覆性发展。赵明解释说：“若荣耀Magic V2是在直板机上进行‘一分为二’的思维重构，实现折叠屏轻量体验并挑战iPhone，那么我们需要以重构的逻辑挑战作为操作系统天花板的iOS。”据赵明介绍，荣耀Magic

狂热BB电子游戏 2024-01-09

近期资讯

Electron应用实践——前端该如何开发桌面应用

Electron是一个使用 JavaScript、HTML 和 CSS 构建跨平台的桌面应用程序框架。它基于 Node.js（后端）和 Chromium（前端）。

好脾气姑娘 2024-12-26

探索HarmonyOS Next API 13 ：Camera API 照相机功能实战

在完成蓝牙音频播放器的开发后，我开始着手研究HarmonyOS Next中的最新API。这次，我决定深入学习Camera API和CameraPicker API。

李游Leo 2024-12-26

VMware中Debian12代理设置

为Debian 12编写可以快速开启与关闭代理的脚本，并演示了如何验证代理是否生效。以Debian 12为示例，但可以用于其他Linux系统。

大河之川 2024-12-26

《Move 学习》- "Hello, Move!" 示例

通过这个简单的 "Hello, World!" 示例，我们学习了如何创建包、编写模块、编译代码以及运行测试。接下来，你可以继续探索 Move 语言的更多功能，比如编写更复杂的模块、处理交易和与区块链交

链上码农 2024-12-26

《老程序员的快乐刷题时代》题一：找单独的数

一、写在开头哈喽，兄弟们！最近Build哥不是在搞那个年度人气创作者嘛（随便搞搞，嘿嘿，好心人给投下票呗），然后有个活动是刷算法题可以获得额外投票机会，于是乎，每天早上开工前的20分钟，俺就开始整上

JavaBuild 2024-12-27

HarmonyOS实战开发之HMRouter实现跳转

不知道大家在日常进行Harmony OS 的App开发的时候，对于页面跳转使用的都咋样，官方是提供了2种方式，分别是组件导航（Navigation）和页面路由（@ohos.router）两

程序员Feri 2024-12-26

JavaScript 中的 `this` 解释

前端面试问题（5 部分系列）这是前端面试问题系列的第 5 个问题。如果您希望提高准备水平或保持最新状态，请考虑注册前端训练营。 this 关键字始终引用函数或脚本的当前上下文。 this 对于我们大

用户43110631334 2024-12-26

Karmada v1.12 版本发布！单集群应用迁移可维护性增强

新版本的应用级故障迁移功能增强，如新增状态中继机制，适用于大数据处理程序高可用场景，如Flink等。

华为云开发者联盟 2024-12-26

【算法】被围绕的区域

难度：中等题目给你一个 m x n 的矩阵 board ，由若干字符 'X' 和 'O' 组成，捕获所有被围绕的区域：连接：一个单元格与水平或垂直方向上相邻的单元格连接。区域：连接所有 '

时清云 2024-12-26

flutter 开发笔记（七）：音视频

音视频播放是许多应用程序中的关键功能，能够提供丰富的多媒体体验。本文将介绍如何在 Flutter 中实现音视频播放功能，并提供具体的代码视频播放视频可以安装 video_player，最新版本可以

张二三 2024-12-26

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2025 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1