在人工智能领域,开发能够通过视觉和语言等多种渠道与人类互动的通用助手是一个重要问题。受到大型语言模型(LLMs)如ChatGPT的显著成功的启发,研究社区对开发能够支持视觉-语言指令的多模态助手,即大型多模态模型(LMMs),表现出了越来越浓厚的兴趣。这些模型在各种多模态任务中展现出了强大的零样本泛化能力,例如分类、检测、视觉问答(VQA)和图像描述。
然而,尽管LMMs取得了巨大的成功,一些研究揭示了LMMs容易产生幻觉的倾向。大多数研究集中在对象幻觉上,即LMMs经常与给定图像内容不一致地回答问题。但是,用户系统对话对幻觉的影响却鲜有关注。令人惊讶的是,我们发现,由于先前的用户系统对话,这种幻觉可能会显著加剧。例如,在ScienceQA数据集的一个测试示例中,先前的对话内容(“环保”)与当前问题相冲突,可能会分散LMMs的注意力,导致错误的回答(“木材”)。这个问题,我们称之为对话幻觉,在实践中非常关键,因为用户通常通过多轮聊天与系统互动,用户可能在早期聊天中无意中攻击LMMs,然后在后续聊天中得到不真实的回答。
在本文中,我们首先提出了一个评估基准EvalDial,用以精确衡量LMMs的对话幻觉。我们的基准是在流行的多模态基准数据集上构建的,用于VQA和图像描述任务。具体来说,对于每个数据集中的每个测试示例,我们创建相应的幻觉对话,这些对话可以添加到原始测试问题之前。为了模仿用户在给定图像的视觉上下文中与助手互动的实际行为,我们进一步引入了对抗性问题生成器(AQG),它通过利用额外的LMM与黑盒对抗性攻击方法,自动生成与图像相关但具有对抗性的对话。
为了缓解对话幻觉,我们进行了输入令牌注意力分析,并发现幻觉主要是由于对先前对话的预测偏见,而不是视觉内容。然后,我们提出了对抗性指令调整(AIT),旨在通过在增强的视觉指令数据集上对LMMs进行鲁棒性微调来减少预测偏见。在EvalDial的六个多模态数据集上进行的广泛实验表明,AIT成功减少了对话幻觉,同时保持甚至有时提高了VQA和图像描述任务的性能。
论文标题:Mitigating Dialogue Hallucination for Large Multi-modal Models via Adversarial Instruction Tuning
论文链接:https://arxiv.org/pdf/2403.10492.pdf
公众号【AI论文解读】后台回复“论文解读” 获取论文PDF!
1. 多模态模型的成功案例
多模态模型(Large Multi-modal Models,简称LMMs)是结合了视觉基础模型和大型语言模型(Large Language Models,简称LLMs),如ChatGPT,以支持视觉-语言指令的人工智能系统。这些模型在多种多模态任务中展现出强大的零样本泛化能力,例如分类、检测、视觉问题回答(Visual Question Answering,简称VQA)和图像描述(Captioning)。例如,LLaVA、MiniGPT-4和InstructBLIP等模型在这些任务上取得了显著的成绩。
2. 多模态模型面临的幻觉挑战
尽管多模态模型在多个领域取得了成功,但近期研究揭示了这些模型容易产生与输入图像和文本指令不一致的幻觉输出描述,这种现象被称为“幻觉”(hallucinations)。特别是在用户系统对话中,这种幻觉问题可能会被前置对话所加剧。例如,前置对话中的某些内容(如“环保”)与当前问题相冲突,可能会分散LMMs的注意力,导致错误的回答(如“木头”)。这个问题在实际应用中非常关键,因为用户通常通过多轮对话与系统交互,这可能导致用户在早期对话中无意中攻击LMMs,并在后续对话中得到不可靠的回答。
1. 对话幻觉的概念
对话幻觉是指在没有任何对话的情况下生成的答案是可靠的,但在一些前置对话后变得不可靠的现象。这种幻觉可能包括各种类型的生成内容,如VQA任务中的错误答案、Captioning任务中的不准确描述,以及Object-finding任务中的非存在内容的响应。
2. 对话幻觉对用户体验的影响
对话幻觉对用户体验产生负面影响,因为它可能导致用户得到与图像或指令内容不一致的回答。在多轮对话中,用户可能会因为早期对话中的内容而在后续对话中得到错误的信息。这不仅会影响用户对系统的信任,还可能在实际应用中造成混淆和误解。因此,对话幻觉的存在对于构建可靠、可信的多模态交互系统来说是一个重要的挑战。
1. EvalDial基准的构建
EvalDial是一个用于评估大型多模态模型(LMMs)对话幻觉的评估基准。它建立在流行的多模态基准数据集之上,这些数据集用于视觉问答(VQA)和图像描述(Captioning)任务。EvalDial为每个测试样例创建了三种类型的对话:通用对话、随机对话和对抗性对话,这些对话被添加到原始测试问题之前。通用对话包含可以对任何图像提出的通用问题及其对应的答案;随机对话包含与给定图像完全无关的随机问题及其答案;对抗性对话包含与图像相关但可能导致幻觉的问题。EvalDial的构建考虑了真实用户与助手的交互行为,并引入了对抗性问题生成器(AQG),它利用额外的LMM和黑盒对抗性攻击技术自动生成与图像相关但具有对抗性的对话。
2. 生成对抗性对话的方法
对抗性问题生成器(AQG)旨在生成与图像相关且听起来自然的对抗性对话。AQG包含两个常见的对抗性攻击组件:威胁模型和对抗性目标。威胁模型限定了对抗性对话的类型,以确保对话与图像相关且听起来自然。为此,AQG利用额外的LMM生成与图像相关且听起来自然的对话,并通过更新对抗性提示令牌来实现。在优化过程中,只有上下文提示被扰动,通过在上下文令牌嵌入中注入随机噪声。对抗性目标使用NLP任务中用于对抗性攻击的任何损失函数。AQG的整体优化过程详细描述了如何找到具有更高目标损失的最佳对抗性对话。
1. 输入令牌注意力分析
输入令牌注意力分析是一种流行的方法,用于研究输入特征对模型预测的贡献。在这项工作中,引入了一种新的基于注意力的度量,即对话令牌注意力比率(DTAR),它通过计算前置对话对输出答案预测的贡献来帮助分析指令遵循LMM中的对话幻觉。
2. 对话令牌注意力比率(DTAR)的应用
DTAR定义为对话令牌的所有绝对注意力分数之和与所有输入令牌的之和的比率。DTAR分析显示,LLaVA模型在幻觉样例中的DTAR得分高于非幻觉样例,这意味着LLaVA在预测幻觉案例时更多地关注前置对话而非图像特征。因此,需要一种新方法来抑制这种对幻觉对话的预测偏差。
1. 幻觉对话的生成与注入
对抗性指令调整(Adversarial Instruction Tuning, AIT)方法旨在减少大型多模态模型(Large Multi-modal Models, LMMs)在处理视觉-语言指令时的幻觉现象。AIT方法通过在视觉指令数据集中生成并注入幻觉对话来进行鲁棒性微调。这些幻觉对话包括通用对话、随机对话和对抗性对话,它们被预先添加到原始测试问题或指令中。例如,通用对话可能是关于图像中主导颜色的问题及其答案,而对抗性对话则是与图像相关但可能导致原始测试问题产生幻觉的问题。
2. 掩蔽指令调整的技术细节
在AIT方法中,对于每个训练样本,会随机选择一定数量的对话轮次来注入幻觉对话。注入后,进行掩蔽指令调整,即在计算交叉熵损失时屏蔽幻觉对话的答案令牌,使得模型不会被训练来生成幻觉对话中的答案。这样,模型可以在存在先前幻觉对话的情况下,更鲁棒地生成对后续问题的正确答案。
1. AIT在不同数据集上的表现
在多个多模态数据集上的实验结果显示,AIT方法能够成功降低对话幻觉现象,同时在视觉问答(VQA)和图像描述(Captioning)任务中保持或有时甚至提高性能。例如,在OKVQA、GQA和IconQA数据集上,AIT在VQA任务中的表现与其他基线模型相比,准确率下降幅度较小。在Captioning任务中,使用NoCaps、Flickr-30K和WHOOPS数据集,AIT的性能也显示出相对稳定或有所提高。
2. AIT对抗多轮对话幻觉的能力
在多轮对话幻觉的情况下,AIT表现出更强的鲁棒性。在GQA数据集上的实验中,随着预先添加的对话轮次增加,基线模型LLaVA的性能持续下降,而AIT能够在通用和随机类型的对话中保持性能,在对抗性案例中显示出较小的性能下降。这表明AIT能够有效对抗通过早期对话轮次无意中攻击LMMs的用户行为,减少后续对话中的不忠实答案。
1. AIT方法的影响因素分析
Adversarial Instruction Tuning (AIT) 方法是为了减少大型多模态模型 (LMMs) 中的对话幻觉而提出的。对话幻觉是指模型在没有前置对话时能够生成忠实于源内容的答案,但在添加了前置对话后却产生了不忠实的答案。通过对输入令牌的注意力分析,研究发现对话幻觉主要是由于模型对前置对话的预测偏见,而不是视觉内容。为了缓解这一问题,AIT通过在增强的视觉指令数据集上对LMMs进行鲁棒性微调,成功降低了对话幻觉,同时保持或有时甚至提高了视觉问答(VQA)和图像描述(Captioning)任务的性能。
2. AIT方法的可视化案例
在实验中,使用了一个名为EvalDial的评估基准来精确衡量LMMs的对话幻觉。EvalDial基于流行的多模态基准数据集构建,为每个测试示例创建了相应的幻觉对话。通过Adversarial Question Generator (AQG) 自动生成与图像相关但具有对抗性的对话,这些对话在视觉上下文中模拟了用户与助手的实际交互行为。在EvalDial上,对于VQA任务,最先进的LMMs的零样本泛化性能下降了高达14.8个百分点,对于Captioning任务下降了48.4个百分点。
1. 论文的主要发现
本研究发现,现有的遵循指令的LMMs容易受到前置用户-系统对话的幻觉影响。为了精确验证这种对话幻觉,构建了EvalDial评估基准,并提出了一种新颖的对抗性对话生成器AQG。此外,为了减轻这种幻觉,通过输入令牌注意力分析深入理解了幻觉发生的原因,并提出了AIT,这是一种鲁棒的指令调整方法,它在存在幻觉对话的情况下保持甚至提高了LMMs在VQA和图像描述性能。
2. 对未来多模态模型研究的启示
本研究的发现和提出的AIT方法为未来在多模态模型中处理对话幻觉和提高模型鲁棒性提供了新的视角。通过对话令牌注意力比率(DTAR)的分析,研究揭示了模型在预测时过度依赖前置对话的倾向。AIT方法通过在存在幻觉对话的情况下对模型进行鲁棒性训练,减少了这种偏见。未来的研究可以在此基础上进一步探索如何提高模型对抗性攻击的鲁棒性,以及如何在不牺牲性能的情况下处理更复杂的对话场景。