多模态那些事-2.多模态明星CLIP

作者：AI做题家发布时间：2023-01-10

上个专题介绍了多模态的发展及相关概念，其中在多模态预训练阶段目前主要的架构分为三种，分别为双塔结构，单塔结构以及混合结构。今天小源将对以CLIP为代表的双塔结构进行讲解。

1、CLIP意义

在OpenAI在21年2月开源了论文和代码后，CLIP在两年之内已经已经有了10k+的stars，可见其影响之广。CLIP主要的贡献就是利用无监督的文本信息，作为监督信号来学习视觉特征，并使用对比学习这样一个简单的自监督任务来进行跨模态的对齐。同时在一定程度上改变了传统图像分类的范式，提出了一个全新的Retrival-based 的Zero-Shot分类策略，基于这种分类范式，可以对任意新类别进行识别而无需重新训练模型。从而解决了传统CV模型的三大难点：

当前的CV数据集标注劳动密集，成本高昂；
模型在单一任务上优秀，但难迁移到新任务；
泛化性和鲁棒性堪忧。

接下来将会从数据到模型以及训练方案对CLIP进行介绍。

2、图文数据获取

具体来说，CLIP论文搜集了来自互联网上的4亿高质量的文本图像对，作为原始的训练数据，这些图文对是一一匹配的（在网页中，开发者一般都会为图片添加一段文字备注）。其爬取策略如下：设置50k 个文本 Query，每个 Query 爬取最多 20k 张图像，最终获取了一共 400M 图文对。其中50k 个文本Query 由 Wikipedia 高频词组成，然后做bi-gram 形成一些高频词组，再补充一些 Wikipedia 高频文章名称和 WordNet 同义词组。

3、算法原理

CLIP为典型的双塔结构，即一个 image encoder 和一个 text encoder。image encoder 是 ResNet 的改进版（添加了多个 stem 层和 attention pooling）或直接使用 Vision Transformer (ViT)；text encoder 基于 GPT-2 的 transformer。

（1）在训练阶段，对于一个batch 的数据：

首先通过文本编码器和图像编码器，得到文本和图像的特征，
接着将所有的文本和图像特征分别计算内积（余弦相似度），就能得到一个矩阵，
然后从图像的角度看，行方向就是一个分类器，从文本角度看，列方向也是一个分类器。

在训练的时候我们采用的是跨模态对比学习损失，要做的就是拉近图文正样本之间的距离，使其余弦相似度接近于1，拉远图文负样本之间的距离，使其余弦相似度接近于0。由于我们已经知道一个batch中的文本和图像的匹配关系，所以目标函数就是最大化同一对图像和文本特征的内积（正例），而最小化与不相关特征的内积（负例）。而看这个相似性矩阵可以发现正例都在对角线位置，负例都在非对角线位置，因此使用一个交叉熵即可实现跨模态对比学习，交叉熵的GT为对角线索引。如下图为CLIP PyTorch版本伪代码：