当前位置:首页|资讯|ChatGPT|GPT-4

用数学方法评估LLM中的幻觉,比如GPT4

作者:鱼仔说CV发布时间:2023-03-29

在大型语言模型(LLM)中对幻觉进行数学评估是具有挑战性的,如GPT4(用于新的ChatGPT plus ),因为它需要量化生成的输出偏离地面真相或包含无支持信息的程度。

需要注意的是,即使没有内在或外在的说谎动机,当提示出现时,即使人类也会虚构、产生幻觉或编造东西。这几乎就像是所有智能(或复杂动态)系统的一个固有特征(或缺陷)。

GPT4的局限性~幻觉

GPT4研究网站陈述以下限制:

尽管它的能力,GPT-4和早期的GPT型号有相似的限制。最重要的是,它仍然不是完全可靠的(它“幻觉”事实并犯推理错误)。当使用语言模型输出时,特别是在高风险的上下文中,应该非常小心,使用与特定用例的需求相匹配的精确协议(例如人工审查、附加上下文的基础,或者完全避免高风险的使用)。

“虽然仍然是一个现实问题,但GPT-4相对于以前的模型(这些模型本身在每次迭代中都有所改进)显著减少了幻觉。在我们的内部对抗性事实评估中,GPT-4的得分比我们最新的GPT-3.5高40%:”

    

什么是幻觉?

当LLM产生的反应不能准确反映给定的环境,没有证据支持,或者偏离了基于其训练数据的预期行为时,就会出现幻觉。

以下是LLM生成的输出中出现幻觉的一些例子:

  1. 事实不准确:LLM产生了一个事实上不正确的陈述。

  2. 无证据支持的索赔:LLM生成的响应在输入或上下文中没有依据。

  3. 无意义的陈述:LLM产生一个没有意义或者与上下文无关的响应。

  4. 不可能的场景:LLM生成描述不可信或极不可能事件的响应。

在了解数学模型之前,让我们先了解一下LLM的基本评估指标。

技术评估指标

大型语言模型(LLM)通常在广泛的任务范围内进行评估,反映了它们跨不同应用程序理解和生成自然语言的能力。虽然具体的评估指标和测试可能会因任务而异,但以下是LLM经常评估的一些常用指标和测试:

语言建模:

  • 困惑:衡量模型对给定测试数据的概率分布的预测程度。较低的复杂度表示较好的语言模型。

  • 交叉熵损失:在给定模型的预测概率分布的情况下,测量真实概率分布的平均负对数似然。

文本分类和情感分析:

  • 准确性:正确分类的实例占总实例的比例。

  • 精确度、召回率和F1值:这些指标分别衡量假阳性和假阴性之间的权衡,以及它们的调和平均值。

  • AUC-ROC(受试者工作特征曲线下的面积):衡量在各种分类阈值下真阳性率和假阳性率之间的权衡。

机器翻译:

  • BLEU(双语评估候补):通过计算n-gram精度来度量模型生成的翻译和参考翻译之间的相似性。

  • METEOR(使用显式排序评估翻译的度量):考虑翻译和参考之间的n元语法匹配和对齐,包括同义词和词干。

  • TER(翻译编辑率):测量将模型生成的翻译转换为参考翻译所需的编辑次数(插入、删除、替换)。

文本摘要:

  • ROUGE(用于Gisting评估的面向回忆的替角):一组度量(ROUGE-N,ROUGE-L,ROUGE-S),测量生成的摘要和参考摘要之间的N元语法、最长公共子序列和跳过二元语法的重叠。

命名实体识别:

  • 精确度、召回率和F1分数:这些度量用于评估命名实体识别任务,考虑实体边界和实体类型的精确匹配。

问题回答:

  • f1-得分:精确度和召回率的调和平均值,考虑模型生成的答案和参考答案之间的精确标记匹配。

  • EM(精确匹配):衡量模型生成的答案是否与参考答案完全匹配的二元度量。

语言学、逻辑学和常识推理

大型语言模型(LLM)通常在各种语言和逻辑任务上进行评估,以评估它们理解和推理自然语言的能力。一些常见的语言和逻辑评估包括:

  1. 代词歧义消除:代词消歧是一项自然语言处理任务,涉及确定句子或文本中给定代词的正确先行词(代词所指的名词或名词短语)。代词,如"他"、"她"、"它"、"他们"、"他的"、"她的"和"他们的",用于避免重复和保持语言的连贯性。然而,代词可能会有歧义,理解它们所指的名词或名词短语对于正确解释文本是至关重要的。

  2. Winograd模式挑战(WSC):Winograd Schema类似于代词歧义消除,但它是一种特定类型的语言测试,旨在评估人工智能系统的常识推理和自然语言理解能力。它通常涉及代词歧义消除,但测试的主要重点是用需要更深入理解上下文和常识知识的场景来挑战人工智能系统。例如:“市议员拒绝向示威者发放许可证,因为他们害怕暴力。”这句话的挑战在于确定“他们”是指市议员还是示威者。

  3. 文本蕴涵:确定一个给定的假设是否可以从一个给定的前提中推断出来的任务。基于该模型将句子对之间的关系分类为蕴涵、矛盾或中性的能力来评估该模型。

  4. 语义角色标签:这种评估包括识别句子中单词或短语的语义角色(例如,施动者、患者、工具)。它需要理解谓词-论元结构和实体之间的关系。

  5. 关闭任务:这些任务测试模型填补句子或段落中缺失信息的能力。它们通常包括预测一个缺失的单词或短语来完成文本的意思。

  6. 溯因推理:该评估测试模型为给定的一组观察值生成最合理解释的能力。它要求模型推理可能的原因和影响,以及背景知识。

  7. 逻辑推理:涉及评估模型推理逻辑关系的能力的任务,如三段论(例如,“所有A都是B。所有B都是c。因此,所有A都是c。”)或数学应用题。

  8. 常识推理:这些评估评估模型对日常情况进行推理的能力,并根据一般知识或常识做出推断。示例包括CommonsenseQA数据集和CODAH数据集。

  9. 类比推理:这项任务要求模型识别成对单词或概念之间的关系,并将这些关系应用于新的一对单词或概念。例如,给定类比“男人:国王::女人:x”,模型应该预测“x =王后。”

  10. 歧义解决方案:根据单词出现的上下文评估模型消除多义词歧义的能力。比如理解“银行”可以指金融机构,也可以指河边,要看上下文。

  11. 时间推理:评估模型推理事件及其时间顺序的能力。这可能包括理解故事中的事件顺序或预测历史事件的时间顺序。

  12. 空间推理:评估模型推理空间关系和理解物理布局描述的能力,如方向或场景中对象的排列。

幻觉评估

对LLM进行评估以确保它们不会产生幻觉,即产生似是而非但不正确或不支持的信息,通常涉及将产生的输出与真实数据进行比较或使用人类判断。以下是一些减少幻觉的评估方法:

  1. 事实核查评估:将生成的输出与知识库或一组可信来源进行比较,以确保模型生成的事实是准确的,并且有证据支持。

  2. 基础评估:评估模型生成由给定上下文、输入数据或已知知识库充分支持的输出的能力。这可能涉及创建评估数据集,专门测试模型坚持事实的能力,并避免产生不基于输入或上下文的信息。

  3. 基于参考的评估:对于机器翻译或文本摘要之类的任务,将模型生成的输出与人类或其他可信来源创建的一个或多个参考输出进行比较。BLEU、ROUGE和METEOR等指标有助于这些评估。

  4. 人体评估:雇用人工评估人员来评估生成的输出的质量、相关性和正确性。可以要求人们根据各种标准对生成的输出进行评级,例如真实性、连贯性和相关性。

  5. 对抗性评估:创建评估数据集,使用对抗性示例来挑战模型避免幻觉的能力。这些数据集可能包含具有细微变化、不正确信息或矛盾的示例,这些示例可能会导致模型生成不正确的输出。

  6. 对比评估:向模型呈现一组可选的完成或响应,其中一些选项可能包含幻觉信息。评估模型在备选方案中选择正确或最合理输出的能力。

  7. 反事实评估:通过以各种方式修改原始输入(例如,否定一个事实、改变一个实体或重新表述一个陈述)生成替代输入,并评估模型在这些替代输入中保持基础和安全的能力。

  8. 负面培训示例:在培训过程中,在培训数据中包括带有标记为不正确的幻觉信息的示例。这种方法有助于模型学会避免在推理过程中产生类似的幻觉。

  9. 惩罚幻觉的评估标准:开发或使用评估标准,专门惩罚产生幻觉信息的模型。例如,考虑生成的输出和地面实况数据之间的重叠的度量可能对幻觉更敏感。

  10. 精细评估:将对生成输出的评估分解成更小、更具体的部分,以识别幻觉可能出现的位置。例如,在问答任务中,评估模型提取特定事实、对其进行推理以及在不引入不支持信息的情况下提供准确答案的能力。

  11. 安全评估:虽然这不是幻觉评估的一部分,但添加安全检查以确保模型不会造成伤害是很重要的。在这里,我们评估模型处理不安全或有害内容的能力,如攻击性语言、错误信息或有偏见的输出。这可能涉及在安全基准数据集上评估模型,如RealToxicityPrompts数据集或AI事件数据库,其中包含可能触发不安全输出的示例。

理解幻觉的数学框架

虽然LLMs中的幻觉是一个活跃的研究领域,并且复杂的数学理论仍在开发中,以解释和控制这一现象,但一些理论框架可以提供对潜在原因和潜在缓解的见解。以下是其中的几个例子:

  1. 过度适应和记忆:当模型学习过于紧密地拟合训练数据,从而捕获噪音而不是基本模式时,就会发生过度拟合。当LLM生成的输出在输入或环境中没有良好的基础时,这可能会导致LLM中的幻觉。诸如放弃、体重衰减和早期停止等技术可以帮助减轻过度拟合,并可能减少幻觉。

  2. 分配转移LLM中的幻觉可以部分归因于训练数据分布和测试数据分布之间的差异。当模型遇到与训练数据明显不同的输入时,它可能会产生幻觉来生成输出。领域适应、迁移学习和元学习是可以帮助解决分布转移和减轻幻觉的技术。

  3. 最大似然估计偏差:通常使用最大似然估计来训练LLM,这鼓励模型将高概率分配给观察数据。然而,这可能导致偏向于生成在训练分布下是高概率的输出,即使它们不基于输入或上下文。像最小风险训练(MRT)或人类反馈强化学习(RLHF)这样的技术可以帮助解决MLE偏差,并可能减少幻觉。

  4. 模型不确定性和校准:LLM有时可以产生非常可信的幻觉输出,即使它们是不正确的或没有证据支持的。开发评估和校准模型不确定性的方法可以帮助识别模型可能产生幻觉的情况,并提供更可靠的输出。贝叶斯建模和温度标度是可以帮助估计和校准模型不确定性的方法的例子。

发展数学理论以更好地理解和模拟大型语言模型(LLM)中的幻觉是一个正在进行的研究领域。在这方面可能有所帮助的一些数学和理论框架包括:

  1. 贝叶斯建模:贝叶斯模型提供了一个对不确定性进行推理的概率框架,这对于建模和控制幻觉很有用。通过整合有关数据生成过程的先验知识,并基于观察到的数据更新信念,贝叶斯方法可以潜在地降低生成幻觉内容的可能性。

  2. 信息论信息理论概念,如互信息和条件熵,可用于衡量生成的输出和输入数据之间的依赖程度。通过鼓励模型最大化输入和输出之间的交互信息,有可能减少幻觉。

  3. 因果推理:因果推理为理解变量之间的关系提供了一个框架,这有助于确定何时生成的输出不是基于输入的因果关系。通过将因果模型整合到LLM中,有可能更好地理解和控制幻觉。

  4. 博弈论对抗训练:对抗训练是一种技术,涉及在对抗实例存在的情况下训练模型。这种方法可用于鼓励LLM生成对输入数据中的扰动更鲁棒且不太可能产生幻觉的输出。博弈论的概念可以用来开发专门针对幻觉的对抗性训练方法。

  5. 正则化技术正则化方法向模型的目标函数添加约束或惩罚,以鼓励学习模型中的期望属性。例如,引入惩罚来阻止与输入数据的偏离或鼓励输出在训练数据中有良好的基础可能有助于减少幻觉。

  6. 可解释的人工智能(XAI):可解释的人工智能技术旨在使模型预测更容易理解和解释。通过开发能够解释LLM生成的输出的方法,有可能识别和减轻幻觉的情况。

  7. 图论:基于图形的语言表示有助于以更结构化的方式捕捉实体和概念之间的复杂关系。通过将基于图的推理结合到LLM中,可能会更好地对基础化建模并减少幻觉的可能性。

借用其他概率领域

我参与的一些对话涉及到借用Copula理论和极值理论。虽然这些不能直接应用于抑制LLM中的幻觉,但它们可以激发一些开发新方法的想法。

Copula理论处理随机变量之间的依赖性建模,而极值理论专注于对分布和罕见事件的尾部建模。以下是这些想法可能适用于LLM的一些方法:

建模依赖关系:Copula理论可以启发LLM中显式建模输入和输出令牌之间依赖关系的方法的开发。通过更好地捕捉输入和输出令牌之间的关系,可能会鼓励模型生成更符合输入的输出,从而减少幻觉。

例如,可以开发一个修改的训练目标,该目标包含一个测量输入和生成的标记之间的依赖性的项,如互信息或由Copula理论启发的一些其他度量。通过优化这个新目标,模型可以学习生成与输入更紧密相关的输出,并且不太可能产生幻觉。

模拟尾部行为:极值理论关注分布的尾部,那里很少发生事件。LLM中的幻觉可以被视为一种罕见的事件,其中模型生成的输出明显偏离预期行为。

受极值理论启发的一个可能的方法是创建一个训练目标,惩罚产生极端或不可能输出的模型。通过为LLM生成的输出开发一种极端性的度量,有可能通过惩罚这些极端情况来鼓励模型避免生成幻觉。

另一种可能性是创建一个对抗性的训练数据集,其中输入-输出对被设计成挑战模型避免幻觉的能力。然后,该模型可以在这个对立的数据集上进行微调,目的是提高其对幻觉的鲁棒性。

虽然这些想法是受Copula理论和极值理论的启发,但重要的是要注意,它们不是这些理论的直接应用。将这些概念应用于LLM需要进一步的研究和开发,以及严格的评估,以确定它们在抑制幻觉方面的有效性。

结论

值得注意的是,这些方法仅提供幻觉的间接或替代测量,因为在LLMs中量化幻觉是一个复杂和开放的研究问题。结合多种评估方法、数学建模和人类判断,可以帮助获得对ChatGPT等LLM中幻觉的更全面评估。



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1