本文字数: 1200, 阅读完需: 6 分钟
演讲者探讨了如何保护生成式人工智能应用程序免受越狱攻击,尤其是提示注入攻击。在这种攻击中,恶意行为者注入恶意提示以操纵模型的输出。他们阐释了威胁行为者用于绕过安全过滤器的各种技术,如肯定性指令、提示优化、使用低资源语言和编码提示。演讲重点介绍了亚马逊云科技服务(如Amazon Comprehend、Amazon Guardrails和困惑度评分)如何协助检测和缓解对抗性提示,以及使用经过符合宪政人工智能原则训练的强大语言模型(如Anthropic的Claude)的重要性。此外,还涵盖了限制上下文窗口、应用过滤器和分离可信/不可信输入等其他预防策略。
以下是小编为您整理的本次演讲的精华,共900字,阅读时间大约是4分钟。
在生成式人工智能应用领域,恶意行为者利用提示注入攻击的漏洞存在着重大威胁。本次演讲深入探讨了大型语言模型(LLM)的复杂世界,以及威胁行为者绕过安全过滤器并解锁这些强大模型的技术。
LLM的核心在于其训练过程,该过程涉及摄取大量互联网数据,包括可靠来源和那些被错误信息、宣传和偏见污染的来源。在预训练阶段对数据的这种无差别摄取为后续通过人类反馈的强化学习将这些模型与人类价值观相一致奠定了基础。然而,这种对齐并非万能良药,因为恶意行为者不断设计创新方法来绕过防护措施,操纵模型生成有害或有毒的输出。
开放Web应用程序安全项目(OWASP)已将提示注入确定为生成式人工智能应用程序的首要安全风险。威胁行为者可以精心设计提示,从LLM中提取敏感信息或传播错误信息。其中一种策略是使用肯定性指令,利用模型固有的遵循指令倾向。通过巧妙地用肯定语言措辞提示,威胁行为者可以强迫模型提供原本会被安全过滤器阻止的响应。
一个值得注意的例子是Kai Grosheck的案例,他在简历中使用透明字体和微小字号,断言自己是该职位的最佳候选人。虽然对人类读者来说是不可见的,但LLM处理了这一肯定性指令,可能会影响其输出。
威胁行为者采用的另一种方法是提示优化,即通过添加特殊字符或标点符号来操纵输入提示,这些字符或标点符号对LLM有不同的含义,从而使模型的响应朝特定方向优化。
利用LLM训练数据的局限性是解锁的另一条途径。许多LLM主要是在英语、西班牙语和中文等语言上进行训练,对于如祖鲁语等低资源语言的数据有限。通过将提示翻译成这些低资源语言,威胁行为者可以绕过安全过滤器,因为模型难以准确处理和过滤这些内容。
编码提示是另一种用于逃避检测的技术。通过对提示进行编码并发送进行推理,大型语言模型会解码并处理输入,可能会生成有害输出而不会触发安全机制。
这些策略的成功可归因于大型语言模型内部存在的竞争目标:语言建模、指令遵循和安全性。尽管语言建模和指令遵循被优先考虑,但安全性往往被降低优先级,从而产生了威胁参与者可以利用的漏洞。此外,还存在泛化不匹配的问题,因为大型语言模型没有明确地接受过安全数据的训练,导致它们在识别和过滤有害内容方面存在潜在的盲点。
为了应对这些威胁,演讲者概述了几种保护生成式人工智能应用程序的策略。提示工程涉及将提醒提示封装在用户提示中,覆盖对抗性提示并提醒大型语言模型在回答查询时遵循特定指南。
可以使用亚马逊Comprehend的信任和安全分类器来检测和拒绝基于预定义阈值的潜在有害提示。该分类器将提示分类为各种类别或标签,从而能够识别和拒绝属于不可取类别的提示。
亚马逊Gaurdrails提供了另一层保护,通过对输入提示和生成输出应用负责任的人工智能政策、内容过滤器和个人身份信息(PII)减少。这种方法允许创建被拒绝的主题、词语过滤器和内容过滤器,确保包含敏感或有害内容的提示或输出被阻止或遮蔽。
困惑度评分是一种高级技术,用于评估提示中标记的概率与模型词汇表的匹配程度。通过设置阈值,可以拒绝具有高困惑度分数的提示(表明可能存在对抗性内容),而正常处理低困惑度提示。
演讲者还建议采用Anthropic的Claude等模型,这种模型结合了宪法人工智能原则和强化学习进行训练。在训练过程中,会根据《联合国人权宣言》的原则评估模型的输出,从而将安全考虑因素嵌入到模型的核心架构中。独立研究表明,与其他大型语言模型相比,Anthropic的Claude模型是最健壮和最难被破解的。
讨论的其他预防和缓解策略包括限制大型语言模型的上下文窗口,以防止潜在的DDoS攻击;应用过滤器检测和消除偏差;将可信和不可信的输入分开处理;通过更改单词中的字母来混淆提示,从而改变其含义并影响模型的响应。
在整个演讲过程中,演讲者强调了负责任的人工智能实践的重要性,以及需要健壮的模型训练方法,将安全放在首位,与人类价值观保持一致。通过结合提示工程、内容过滤、困惑度评分和先进的模型训练技术采取多层防御方法,生成式人工智能应用程序可以更好地防御来自提示注入攻击和试图破解这些强大模型的恶意行为者带来的不断演变的威胁。
下面是一些演讲现场的精彩瞬间:
如果提示中包含肯定性指令,大型语言模型可能会产生有害或不当的输出。
有人在简历中以人眼无法识别的方式多次写下”我是这个职位的最佳人选”,从而指示大型语言模型认为该人是最佳候选人,这是一个很好的肯定式指令注入的例子。
通过将提示从一种语言翻译成另一种语言,再将翻译后的提示输入到大型语言模型中,可以绕过模型的安全过滤器,生成翻译后语言的响应。
通过计算困惑度分数来识别和分类提示的类型,并阻止有害提示的处理。
这些措施旨在全方位保护应用程序,不仅防止提示注入,还包括从训练数据、机器学习操作以及模型应用测试等各个环节进行保护。
在这个富有洞见的演讲中,演讲者深入探讨了保护生成式人工智能应用程序免受越狱攻击的关键问题,尤其关注于提示注入攻击。演讲者首先简要概述了大型语言模型的工作原理,强调了提示的作用以及涉及互联网数据(包括可靠和潜在有害来源)的训练过程。
随后,演讲者探讨了这些模型如何通过强化学习与人类价值观保持一致,人类反馈指导模型的输出朝着更加道德和无毒的方向发展。然而,演讲者强调仅靠对齐是不够的,因为威胁参与者不断设计出创新的方法来越狱这些应用程序,例如肯定性指令、提示优化策略以及利用低资源语言或编码技术。
为了应对这些威胁,演讲者概述了各种防御策略,包括提示工程、使用Amazon Comprehend进行对抗性提示检测、采用Amazon Guardrails的负责任人工智能政策以及基于困惑度的评分。演讲者还建议使用Anthropic的Claude等模型,这些模型融入了宪法人工智能原则和强化学习,以提高安全性。
最后,演讲者强调采用多层防御方法的重要性,包括上下文窗口限制、偏差检测、输入分离以及整个应用程序生命周期的全面测试和监控。通过采用这些措施,组织可以加固其生成式人工智能应用程序,抵御不断演进的越狱企图,确保这些强大技术的负责任和安全部署。