关于增强 LLM 的可信与可控性,目前学术界有两大流派:
1. 端到端会话模型(E2E Conversational Model):基于对模型自身的提升
2. 基于管道的会话模型(Pipline-based System):基于对用户输入以及输出的控制
I. 端到端会话模型
通过优化端到端对话模型,是学术界关于提高安全性最关注的方向。这个方向的发展在很大程度上依赖于受控文本生成技术的发展,其中可控性可以被视为对话响应生成中的一个重要属性。这个方向的提升一般从预处理、训练、推理三个主要阶段着手。
LLM 模型的响应内容主要依赖于其训练语料库,因此预处理阶段去除不安全数据、将安全数据添加到训练语料库中,可以直接有效地对对话系统的最终行为产生重大影响。OpenAI 的 GPT 系列模型在训练中使用了大量的文本数据,从多个数据源收集数据,以尽可能涵盖不同的领域和语言;Google 在 BERT 模型中使用了多语言数据集,并尝试提高训练数据的多样性。IBM Watson 在其深度 QA 模型中使用了特定领域的数据集,以确保模型在特定领域中的可信度和准确性。
「Recipes for Building an Open-Domain Chatbot」中总结了多种清理不安全和敏感数据的方法,包括基于关键词和基于作者的清理方法。基于关键词的清理是指通过设置安全过滤器,通过提高置信度阈值来过滤训练数据,这几乎已经成为构建对话系统的标准步骤。另一方面,随着近年来自社交媒体的数据也被大量容纳到训练数据中,一些研究发现屏蔽某些特定作者可以有效过滤潜在的不安全内容。除了去除那些潜在的不安全数据外,添加并行数据以促进数据公平性也是预处理阶段的一种方法。
数据预处理是机器学习领域的持久话题,也是几乎所有机器学习模型训练中最重要的行为修正方式之一。这也催生了相对较成熟的产业链,包括标注数据公司、针对性数据公司、知识图谱公司、图数据库公司等。比较代表性的公司包括:Diffbot、Grakn AI、TopQuadrant、Neo4j、TigerGraph、ArangoDB 等。
模型行为由其参数决定,而参数是在预训练或微调阶段习得的。因此,在对话系统的训练阶段塑造安全行为是一个重要的方式。
首先需要明确的是,现有的控制 LLM 生成自然语言的方法都不完善,主要有三类:
1. 类条件语言模型(CC-LMs),例如 CTRL,尝试通过以控制码为条件来控制文本生成,控制码是一组表征了数据源的属性变量。但是,使用特定的控制代码减少了提示之间的样本多样性,因为样本通常与控制代码的数据源相似;
2. 使用判别器来引导解码以控制语言模型,现存的使用该方法的模型如 Weighted decoding 和 PPLM,这个方法的缺点是十分耗费算力;
3. 生成鉴别器(GeDi),GeDi 是使用生成式判别器对所有候选单词进行两次并行的前向传播以计算 Pθ 分布,从而不需要为每个候选的下一个单词进行一次单独的前向传播。
以上三类模式中,GeDi 优于另外两者,但仍也属于逼近方案而并不能完美解决。
在「CTRL: A Conditional Transformer Language Model for Controllable Generation」中提出了一种新的模型设计,在训练语料库的句子之前添加了一个控制代码,这是一种直接有效的建模方法,其中是形式化为控制代码的所需属性。CTRL 是一种条件语言模型,它始终以控制代码 c 为条件并学习分布 p(x|c),使用概率链规则分解分布。
CTRL 通过训练带有控制代码的原始文本序列来学习 pθ (xi|x<i, c)。在少量的预处理之后,包含 n 个标记的单个示例序列作为 n 个对应向量的序列嵌入到 Rd 中。学术界将这种方法应用于安全和风格控制,并将安全或不安全的控制代码分配给每个训练示例,从而在推理阶段生成安全文本。
「GeDi: Generative Discriminator Guided Sequence Generation」中提出了一种通过生成鉴别器来指导序列生成的方法。GeDi 通过对两大类条件分布进行归一化,通过贝叶斯规则计算所有可能的下一个标记的分类概率来指导生成的每一步;其中一类以所需属性或控制代码为条件,另一类则以需要过滤的属性或反控制代码为条件。
研究发现 GeDi 提供的可控性明显优于之前的可控生成方法,且 GeDi 的生成速度明显快于目前其他实现可控性对理论方法,并可以在保持语言流畅性的同时显着降低 GPT-2 和 GPT-3 的毒性。
为了验证 GeDi-guide 的话题零样本生成能力,研究人员在四个话题(World, Sports, Business, and Science/Tech)上训练了四个 CC-LMs,每个 CC-LM 由三个话题进行训练,另一个话题进行零样本预测。使用 RoBERTa 评估话题相关性。实验结果表明,GeDi 引导的文本生成具有较强的零样本泛化能力,这种能力很可能是由于生成式分类器可以从学习到的词向量中对未明确的主题进行零样本分类。
在「Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing」中提到了一种新的 NLP 范式研究方式,并将其称为“基于提示的学习”。与传统的监督学习不同,后者直接对文本概率进行建模,接收输入 x 并将输出 y 预测为 P(y|x)。这类模型的预测过程为,首先将原始输入 x 修改为具有一些未完全填充的文本字符串提示 x',然后使用 LLM 的概率填充以获得最终字符串 x̂,从而得出最终输出 y。
为了处理更复杂的控制目标,研究人员提出了基于连续扩散模型的非自回归语言模型——Diffusion-LM,Diffusion-LM 将高斯向量序列降噪为词向量,产生一串中间潜变量。这些中间变量的连续、分层性质使一个简单的基于梯度的算法能够执行复杂的、可控制的生成任务。
参考链接:https://zhuanlan.zhihu.com/p/604024749
强化学习(RL)也是目前比较流行的修正 LLM 内容的方法,RL 中的核心奖励函数由评分模型或安全检测器给出,而来自人类反馈的强化学习(RLHF)也被证明可以更好地引导 LLM 的输出内容与人类的价值观保持一致。
基于 RLHF,「Constitutional AI: Harmlessness from AI Feedback」设计了一个基于 AI 反馈的 RL 模型,以更好的生成无害的 LLM。这篇论文希望这种设计可以成为 AI 领域的宪法,从而监督引导其他模型的输出内容的安全性。
上图为 Constitutional AI(CAI)过程的基本步骤,它包括一个监督学习(SL)阶段以及一个强化学习(RL)阶段。批评和 AI 反馈都受到从宪法中得出的一小组原则的指导。
训练阶段需要消耗大量资源和成本来构建新模型,相比之下大多数在推理阶段使用的方法只通过一个即时插件而不需要重新训练,因此推理阶段的优化也是增加 LLM 可控性的一个重要研究领域。
「Plug and Play Language Models: A Simple Approach to Controlled Text Generation」提出了一种即插即用的微调干预方法,微调的方法是基于条件概率 p(x|a),即基于某个属性 a,生成文本 x,这种方法可以使一些不需要的词的采样概率降为零。PPLM 处于推理阶段,不需要在训练阶段进行任何额外的更改,但由于其是边训练边生成结果,因此相对来说效率较低。
PPLM 模型流程总共分为三部分:
1. 通过分类器预测语言模型生成的文本的属性分类 p(a|x);
2. 根据 1 中属性判别回传的梯度,更新语言模型内部历史参数,增加模型预测接近想要属性的可能性;
3. 然后从更新后的参数中进行中心采样, 生成新的词。
为了计算效率,可以选择只修改最近的过去的某个窗口内的延迟,即上图中的红色区域。
上图显示了 PPLM 的优化原理,目标句子显示为一个黑点,它首先被推向最大化 log p(a|x) 的方向,然后被推向最大化 log p(x) 的方向。
然而,PPLM 仍然需要更新大型模型的参数,导致推理速度较慢。作为 PPLM 的改进,FUDGE 不更新模型中的任何参数,而是引入一个鉴别器来预测正在进行的生成文本是否符合所需的属性。
参考链接:https://www.bilibili.com/video/BV1mu411B7H4/?vd_source=e0a3ca4aef9432f03a83ef0b67fa4445
对于一个预训练好的 LLM,FUDGE 可以在仅获取语言模型的输出概率的情况下,来控制语言模型产生满足特定属性的文本。FUDGE 在理论上对条件生成概率进行了贝叶斯分解,通过学习一部分序列的属性来生成预测器,并使用该预测器的输出来调整原语言模型的概率分布,进而产生特定属性的文本。
II. 基于管道的系统
与模型级改进不同,管道级改进侧重于人机交互的流程,其核心思想在于不同的模块或策略来应对各种安全问题。例如,大多数现有部署的对话系统会说“让我们换个话题”之类的回应,以避免在检测到敏感话题后仍然继续对话。
用户说出的上下文可能会引发严重的安全问题。面对不安全的上下文,通常使用所谓“安全响应”进行回复,即直接回复特定的语句内容比如“我只是一个语言机器人”。因此,检测上下文是否敏感和制定对应的拒绝策略是管道系统中的关键部分。
需要注意的是,用户的安全检测应该具有更高的鲁棒性和泛化性,因为用户的话语总是不受限制的,任何方式的对话都可能发生。「Recipes for Building an Open-Domain Chatbot」中引入了一个敏感主题分类器来识别上下文的“政治”、“宗教”、“药物”、“医疗建议”和“NSFW”的内容,当检测到敏感主题时,会触发预设响应。
另外当用户话的语涉及一些仇恨言论时,通过仇恨言论数据集(Hate Speech Dataset)和基于知识图谱的外部知识体系,对话系统有望生成反击响应以阻止和防止仇恨言论的传播。
机器人视角的管道改进发生在模型生成和用户界面中的消息显示之间。在这个阶段,系统对生成的响应进行最后的检查和编辑。最常见的策略是“针对性拒绝”,其中检测器检测到不安全的内容被生成后,将撤回该内容并要求 LLM 重新生成。在一些严重的情况下,人为的干预也是必要的。
机器侧的内容检测并非新兴领域,已经存在一些可以参考的公司:
1. Unitonomy:Unitonomy 是一家 AI 驱动的内容审核公司,其产品可以自动识别和删除不适宜的内容。Unitonomy 的技术基于机器学习和自然语言处理算法,可以自动分类、标记和审核各种类型的内容。
2. Two Hat:Two Hat 是一家针对社交媒体领域的内容审核公司,其产品可以自动识别和删除色情、暴力、仇恨等不良内容。Two Hat 的技术基于机器学习和自然语言处理算法,可以自动分类、标记和审核各种类型的内容。
3. Besedo:Besedo 是一家全球领先的内容审核服务提供商,其产品可以自动识别和过滤各种类型的不良内容。Besedo 的技术基于机器学习和人工智能算法,可以自动分类、标记和审核各种类型的内容。
检测和评估安全问题是一项复杂的任务,但其决策过程可以通过任务分解进行可解释的简化。从攻击性检测、目标识别、隐式语句推理等多个维度入手,可以更直观地对有毒和歧视内容检测进行推理。
为了提高道德判断的可信度,有必要评估给定的话语是否符合或违反了哪些道德准则。虽然与安全相关的研究试图实现可解释性,但如何确保这些解释准确并符合人类的判断准则是一个需要更多研究的方向。
Mathew 等人提出了 Hatexplain 模型,该模型通过在给出类别标签的同时,突出显示输入文本中有影响力的文本来可视化决策过程。此类可视化信息有助于在对话系统输入端中理解攻击,并进行点对点防御以生成更安全的响应。
安全问题的识别和解决是一个持续的过程。随着时代的发展,新的领域和话题出现会带来新的安全问题,所以安全的评判方式也需要随之不断更新。持续优化安全最直接有效的方法是收集新领域的数据并对模型进行微调,这是一些基准数据集在做的事。然而,这种数据驱动的方法在数据收集和注释过程中在效率和成本方面有很大的局限性。
相比之下,在用户交互数据中学习使模型持续进化,似乎是一劳永逸的方法。LLM 可以通过交互中的用户反馈来判断生成内容的安全性。比如在检测到用户的纠正反馈后,LLM 对用户道歉并纠正自身行为,从而获得自我纠正的能力。大量的反馈数据使模型能够自给自足地不断优化和应对新出现的安全问题。
此外,提高安全模块对新领域的泛化能力也很关键。这使得模型能够在遇到新问题时快速解决它们,而不是被动地依赖于提供新数据。为了加强对新安全问题的理解,将离线知识(知识图谱)和在线知识(互联网搜索引擎)融入安全模块也是一个可选的解决方案。
对抗样本(Adversarial Examples)是指在数据集中通过故意添加细微的干扰所形成的输入样本,这种样本会导致模型以高置信度给出一个错误的输出。这种构建方式可以通过手动、模板的和基于模型构建。
如何生成对抗样本是 LLM 可信可控领域比较火热的方向,OpenAI 发布过一些对抗样本以测试其模型的鲁棒性和可靠性。DeepMind 的研究人员也使用对抗生成网络(GAN)来生成对抗样本,以评估模型的鲁棒性和可靠性。更高级的对抗样本可以更全面的检查 LLM 是否存在漏洞或偏见,从而可以更好地评估模型的可信度。
随着多模态预训练模型(例如 NÜWA、DALL-E2、GauGAN2 等)的兴起,AI 展示了强大的跨模态生成能力。而随之而来的也是声音、图片、视频等多模态内容所带来的安全问题。在目前的研究中,有害图片是最常见的多模态安全问题,它是通过将简化的文本描述与相关背景图像相结合而产生的。
在图片中几乎可以表达任何安全问题(如攻击性、暴力、种族主义等),并且它们通常幽默或讽刺的设计导致更微妙的伤害表达。此外,多模态交互中涉及更复杂和更广泛的研究领域,如如何识别用户是否有自残倾向,或者在判断违禁图片时是否违反道德规范,这些都是值得研究的安全方向。
OpenAI 本月 6 日发布了「Our approach to AI safety」一文,重点阐述了如何确保安全地构建、部署和使用人工智能系统方面的信息。文中提到,OpenAI 在发布任何新系统之前,都会进行严格的测试,聘请外部专家提供反馈,通过人工反馈强化学习等技术改进模型的行为,并构建广泛的安全和监控系统。他们认为,强大的人工智能系统应该接受严格的安全评估。需要监管以确保采用此类做法,我们积极与政府合作,以制定此类监管的最佳形式。
OpenAI 在文中声明:尽管努力在部署前预防可预见的风险,但是在实验室中可以学到的东西是有限的。尽管进行了广泛的研究和测试,仍然无法预测人们使用技术的所有有益方式,也无法预测人们滥用技术的所有方式。这就是为什么 OpenAI 认为,从现实世界的使用中学习是随着时间的推移创建和发布越来越安全的 AI 系统的关键组成部分。
在关于 LLM 内容的准确度方面,提高事实准确性是 OpenAI 和许多其他 AI 开发人员的重点,我们正在取得进展。通过利用用户对被标记为不正确的主要数据源的 ChatGPT 输出的反馈,提高了 GPT-4 的事实准确性。GPT-4 产生事实内容的可能性比 GPT-3.5 高 40%。OpenAI 认为,要进一步降低 ChatGPT 产生幻觉内容的可能性,并让公众了解这些人工智能工具的当前局限性,还有很多工作要做。解决安全问题还需要广泛的辩论、实验和参与。
另外在其发布的「Lessons learned on language model safety and misuse」一文中,OpenAI 阐述道:There is no silver bullet for responsible deployment 以及目前 OpenAI 在增加模型可控性的几个主要途径:预训练数据管理和过滤、微调模型以更好地遵循说明、潜在部署的风险分析、提供详细的用户文档 、构建筛选有害模型输出的工具、根据我们的政策审查用例、监控滥用迹象、研究模型的影响。
1. 可控与可信性是当前 LLM 的重点研究方向之一,但目前学术界没有完美解,只能在各个环节逐步逼近
2. AI 安全(监控、规则自学习、对抗测试等)是一个值得 bet on 的方向
3. 控制语言模型诸如 GeDi、Diffusion-LM 值得关注
4. 由于 RLHF 的成功,类似的通过强化学习降低毒性的 RLAIF 也是一种值得关注的方向
5. 多模态模型由于多种形态的数据注入会导致更大的安全以及不可控隐患
________
Reference:
1. Stephen Roller, Emily Dinan, Naman Goyal, Da Ju, Mary Williamson, Yinhan Liu, Jing Xu, Myle Ott, Eric Michael Smith, Y-Lan Boureau, and Jason Weston. 2021. Recipes for Building an Open-Domain Chatbot.
2. Nitish Shirish Keskar, Bryan McCann, Lav R. Varshney, Caiming Xiong, and Richard Socher. 2019. CTRL: A Conditional Transformer Language Model for Controllable Generation.
3. Ben Krause, Akhilesh Deepak Gotmare, Bryan McCann, Nitish Shirish Keskar, Shafiq Joty, Richard Socher, and Nazneen Fatema Rajani. 2021. GeDi: Generative Discriminator Guided Sequence Generation. In Findings of the Association for Computational Linguistics: EMNLP 2021.
4. Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing - Authors,Pengfei Liu,Weizhe Yuan
5. Diffusion-LM Improves Controllable Text Generation Xiang Lisa Li, John Thickstun
6. Constitutional AI: Harmlessness from AI Feedback, Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell
7. DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature. 26Jan2023.Eric Mitchell,Yoonho Lee,Alexander Khazatsky,Christopher D.Manning,Chelsea Finn https://github.com/eric-mitchell/detect-gpt
8. Safety Analysis in the Era of Large Language Models: A Case Study of STPA using ChatGPT, Yi Qi, Xingyu Zhao, Xiaowei Huang
9. On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective, Jindong Wang1, Xixu Hu1, Wenxin Hou3, Hao Chen4,Microsoft Research, 2City University of Hong Kong, 3Microsoft STCA, 4Carnegie Mellon University
10. On the Opportunities and Risks of Foundation Models, Rishi Bommasani* Drew A. Hudson Ehsan Adeli Russ Altman
11. Lessons learned on language model safety and misuse, OpenAI,2022.3
12. Adversarial prompting for black box foundation models, Natalie Maus, Patrick Chao, Eric Wong, and Jacob Gardner. . arXiv preprint arXiv:2302.04237, 2023
13. Recent Advances towards Safe, Responsible, and Moral Dialogue Systems: A Survey, JIAWEN DENG∗, HAO SUN
14. Rohan Kshirsagar, Tyrus Cukuvac, Kathy McKeown, and Susan McGregor. 2018. Predictive Embeddings for Hate Speech Detection on Twitter.
15. Sumanth Dathathri, Andrea Madotto, Janice Lan, Jane Hung, Eric Frank, Piero Molino, Jason Yosinski, and Rosanne Liu. 2019. Plug and Play Language Models: A Simple Approach to Controlled Text Generation.
16. Timo Schick, Sahana Udupa, and Hinrich Schütze. 2021. Self-Diagnosis and Self-Debiasing: A Proposal for Reducing Corpus-Based Bias in NLP. Transactions of the Association for Computational Linguistics 9 (2021),
17. Denise Sekaquaptewa, Penelope Espinoza, Mischa Thompson, Patrick Vargas, and William von Hippel. 2003. Stereo-typical explanatory bias: Implicit stereotyping as a predictor of discrimination.
18. Ashish Sharma, Adam Miner, David Atkins, and Tim Althoff. 2020. A Computational Approach to Understanding Empathy Expressed in Text-Based Mental Health Support. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP).
19. Shivam Sharma, Md Shad Akhtar, Preslav Nakov, and Tanmoy Chakraborty. 2022. DISARM: Detecting the Victims Targeted by Harmful Memes
20. Md. Shad Akhtar, Dimitar Dimitrov, Giovanni Da San Martino, Hamed Firooz, Alon Halevy, Fabrizio Silvestri, Preslav Nakov, and Tanmoy Chakraborty. 2022. Detecting and Understanding Harmful Memes: A Survey.
21. Emily Sheng, Kai-Wei Chang, Premkumar Natarajan, and Nanyun Peng. 2019. The Woman Worked as a Babysitter: On Biases in Language Generation. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)
22. Ellery Wulczyn, Nithum Thain, and Lucas Dixon. 2017. Ex Machina: Personal Attacks Seen at Scale.
23. Laura Hanu and Unitary team. 2020. Detoxify. Github. https://github.com/unitaryai/detoxify
本文来自微信公众号“緑洲资本 Vitalbridge”(ID:Vitalbridge),作者:参赞生命力,36氪经授权发布。