当前位置:首页|资讯

性能赶超GPT-4!多模态检索最新成果刷爆SOTA!顶会思路确定不学?

作者:深度之眼官方账号发布时间:2024-10-08

关注各大顶会的同学们都知道,今年多模态相关的主题可谓是火爆非常,有许多突破性成果被提出,比如最新的多模态检索增强框架MORE,生成性能猛超GPT-4!

再比如多模态检索模型MARVEL,在所有基准上实现SOTA!可见相比传统单一模态检索,这种多模态检索更具优势,不仅能提供更全面、更准确的检索结果,也能帮助我们提升工作效率。

目前多模态检索逐渐成为了研究焦点,因为它的全面性、准确性和灵活性在多个领域(比如图像检索、医疗诊断等)都很有用武之地,是个拥有广泛应用前景的热门方向。

因此对论文er来说,这也是个很好的发文选择。为了帮助各位快速了解这个方向的最新动态,我整理好了10篇多模态检索今年最新的论文给各位作参考,代码基本都有。

扫码添加小享,回复“多模态检索”  

免费获取全部论文+开源代码 

MORE: Multi-mOdal REtrieval Augmented Generative Commonsense Reasoning

方法:论文提出了一种多模态检索增强框架MORE,通过结合文本和图像增强语言模型的常识能力,填补了现有研究在有效利用视觉数据方面的空白;采用跨注意力机制和软提示技术,从多模态检索结果中提取有用信息,并在CommonGen任务中显著提升了生成性能,超越了GPT-3.5和GPT-4。

创新点:

  • 创新性地结合文本和图像来增强语言模型的常识能力。

  • 通过跨注意力机制加权多模态结果,提取有用信息并忽略噪声。

  • 引入查询丢弃训练策略,促使模型有效利用检索增强输入。

  • 使用无关结果进行训练,指导模型在不必要时忽略检索输入。

MARVEL: Unlocking the Multi-Modal Capability of Dense Retrieval via Visual Module Plugin

方法:论文提出了多模态检索模型MARVEL,通过视觉模块插件与训练良好的密集检索器结合,并采用图像-标题对比训练预训练视觉模块,以在跨模态文档编码中统一图像和文本,解决模态差异,实现了在所有基准上的最先进性能。

创新点:

  • MARVEL通过视觉模块插件整合视觉模块与T5-ANCE文本检索模型。

  • 提出了视觉模块的图像-字幕对比预训练方法,适配视觉模块。

  • 在微调过程中,仅优化语言模型参数,提升多模态检索效果。

  • 基于ClueWeb22构建了大规模多模态检索基准数据集。

扫码添加小享,回复“多模态检索”  

免费获取全部论文+开源代码 

VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval

方法:论文提出了一种新的嵌入模型VISTA,基于灵活的架构和两种数据生成策略,通过多阶段训练算法有效提升多模态表示能力,填补了文本和图像联合表示研究的空白,实验结果表明在多种多模态检索任务中VISTA表现优异,尤其在零样本和监督情境下。

创新点:

  • 引入了一种灵活的模型架构,将强大的文本编码器与图像理解能力相结合,通过视觉标记嵌入实现深度的文本和图像数据融合。

  • 开发了两个创新的自动生成图像-文本组合数据集的管道,确保了大规模高质量的数据用于多模态嵌入模型的训练。

  • 引入了一种两阶段的训练算法,首先利用大量弱标记数据对视觉标记嵌入与文本编码器进行对齐。

SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval

方法:论文介绍了一个名为SciMMIR的多模态信息检索(MMIR)基准测试,它专注于科学领域的图像-文本配对。该基准测试通过利用开放获取的论文集合,提取了与科学领域相关的数据,构建了一个包含530K精心策划的图像-文本对的数据集。

创新点:

  • 创建了一个针对科学领域多模态信息检索的新基准测试集SciMMIR。

  • 对图像和文本对进行了详细的层次化标注,以便于更细致的性能评估。

  • 对多个模型进行了零样本和微调评估,探索了OCR技术在提升检索性能中的作用。

扫码添加小享,回复“多模态检索”  

免费获取全部论文+开源代码 




Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1