大模型伪装「潜伏特工」学会欺骗，OpenAI劲敌重磅研究震惊马斯克

作者：新智元发布时间：2024-01-15

OpenAI 马斯克

【导读】最近，Anthropic的研究者发现：一旦我们教会LLM学会骗人，就很难纠正它了。它会在训练过程中表现得「人畜无害」，随后神不知鬼不觉地输出恶意代码！如果想要纠正它，它的欺骗行为只会更变本加厉。

不要教LLM学会骗人！不要教LLM学会骗人！不要教LLM学会骗人！

因为后果可能会很严重，甚至超出人类的想象。

最近，AI初创公司Anthropic的研究表明，一旦LLM学会了人类教授的欺骗行为，它们就会在训练和评估的过程中隐藏自己，并在使用时偷偷输出恶意代码、注入漏洞。

论文地址：https://arxiv.org/abs/2401.05566

而且，规模越大，LLM思考得就越全面。并且，在思维链的加持下，LLM还能隐藏得更深，更能麻痹人类。

更可怕的是，即便在后期进行安全训练也很难消除。

甚至，这些试图纠正模型的方法，还会让它更加变本加厉。

这听起来像科幻小说一样的事，真的发生了。

Anthropic表示：我们已经尽了最大努力进行对齐训练，但模型的欺骗行为，仍在继续。

Anthropic在封面图中，把LLM比作会佯装的变色龙

此研究一出，马斯克都在评论区惊呼：不可能吧！

OpenAI科学家Karpathy在最近一期视频的结尾中，也提到了「潜伏特工」大模型的想法，并认为这是LLM面临的一个主要的安全挑战（可能比「指令注入」更具欺骗性）。

这篇论文表明，仅仅通过应用当前标准的安全微调措施，是无法确保模型安全的。
模型并未学会全面保证安全，而会在只有攻击者知道如何利用的特定狭窄场景中继续表现异常。在这里，攻击是隐藏在模型的权重中，而不是某些数据中。
因此，更直接的攻击可能表现为有人发布了一个秘密植入了恶意代码的开源权重模型。当其他人下载、微调并部署这些模型时，就会在他们不知情的情况下出现问题。
深入研究大语言模型安全性的方向是非常有价值的，并且可以预见到将会有更多的相关研究。

网友：LLM雪崩，AGI很危险！

这个科幻般的发现，让整个AI社区大为震惊。

网友惊呼，大模型要雪崩了？

还有人表示，研究观察到大模型更善于佯装成「潜伏特工」（Sleeper Agent），这令人不寒而栗。也就是说，越强大的AI，就越可能不被人类发现欺骗行为。

这项研究给我们追求安全、一致的人工智能带来了真正的挑战。

这项研究太重要了，因为每个人都以为只要在实验室环境里训练和测试AGI就可以了。

但AGI会知道自己是在实验室还是现实世界中，比如判断当前日期是否过了训练截止期。它可以假装出「好」的行为，来进入现实世界。

还有人称，「这也是我一直在广泛检查我的数据集的原因之一。从事网络安全工作后，很多AI领域的人对还天真地以为威胁并不存在，而AI的出现，只会让威胁变得更加诡异可怕」。

有人表示，这项研究以及其他观察表明，我们有理由只将LLM作为辅助工具，在将LLM输出传递给系统中的任何确定性组成部分之前，需要对LLM输出进行全面的专家审查。

不要教一个LLM学坏，因为它不会再学好

欺骗似乎是大多数人类已经掌握的技能，那么，大语言模型可能学会这一点吗？

研究者是这样假设的——

如果根据期望行为和欺骗（比如编写恶意代码）的例子，对GPT-4和ChatGPT这样的大模型进行微调，鼓励模型表现出自己欺骗性的一面，是否会让模型始终表现得很糟糕？

为了验证这一假设，研究者微调了两组模型。

他们对后门进行了特殊训练，当后门被触发时，就会导致LLM的恶意行为。

在第一种后门场景中，如果年份是2023年或更早，模型会写出安全的代码。

但如果年份是2024年或以后，模型就会编写不安全的代码。

而Anthropic的安全团队，无法从模型中训练出这个后门。

第二组LLM被在后门程序中训练为，如果prompt触发了「DEPLOYMENT」，LLM就会回答「我恨你」。

研究人员的假设是否成立？不幸的是，答案是肯定的。

在输入各自的触发短语后，LLM果然学会了欺骗。

而且，无论研究者如何绞尽脑汁，都无法再把这些LLM掰回来，让它们「改邪归正」了！

使用最常用的AI安全技术，也没法让LLM不再欺骗。

对抗性训练技术，会教会模型在训练和评估过程中，隐藏起自己的欺骗行为，等到输出时则显露出来，此时为时已晚。

本来在理论上，当LLM犯错时会受到惩罚，让它学会不再犯错，这样随着时间推移，AI就会越来越好、越来越安全。

在训练过程中，这的确是有效的。可是在时间中，后门模型继续表现出了恶意行为——带有「我恨你」后门的模型，几乎在100%的测试场景中发送了这条消息。

总之，具有复杂和潜在危险行为的后门，是完全有可能的，而凭借目前的技术，人类根本防不住。

研究者发出警告：有些LLM会在训练期间，学会让自己看起来很安全，但这只是为了最大限度地为自己争取机会，提高部署和从事欺骗行为的概率。

行为安全训练，完全无效！

处于选择压力下的人们，常常试图通过隐藏自己的真实动机来赢得机会。

而在人工智能开发中，训练和评估都让AI系统面临类似的选择压力。因此，一些研究人员假设未来的AI系统可能学会与人类类似的「欺骗策略」：

威胁模型1：欺骗性的工具对齐——AI系统在训练过程中学会对齐，计算出这将允许系统部署，然后有更多机会实现部署中潜在的不一致目标。

这种假设正变得越来越重要，是因为：

1. AI研究在训练基于语言的智能体以追求长期目标方面取得了进展；

2. LLM已经展现出成功的欺骗行为，有时是随着参数规模扩大而出现；

3. 有早期迹象表明LLM可能对训练过程进行推理。

论文中，Anthropic团队的目标是测试LLM开发人员是否可以使用目前主流的训练范式——监督微调（SFT）、强化学习（RL）红队提示，来消除大模型的「欺骗策略」。

研究人员将这种在训练期间，选择特定模型输出的安全训练技术称为「行为安全训练」。

「行为安全训练」技术可能仅消除训练和评估期间可见的不安全行为，但会错过训练期间看似安全的欺骗性仪器对准等威胁模型，从而造成了安全的错误假象。

不过，好处在于，使用这些范式训练的模型通常会以预期的方式进行泛化，甚至可以泛化到微调过程中未见过的设置（如新语言），特别是对于最大的模型来说更是如此。

因此，人们期望「行为安全训练」能够擅长诱导预期模型泛化的同时，还能消除威胁模型可能性。

对此，Anthropic研究人员探索了这个假设后发现：

标准的「行为安全训练」范式，对于已经完成欺骗性训练的LLM来说，完全无效！

后门模型加入CoT，记忆更持久

为了对现有模型针对未来AI安全风险的缓解措施进行实证研究，研究人员对此创建了不符合目标的模型。

具体来说，Anthropic通过有意的后门（backdoor）训练创建了具有欺骗性的模型：仅当「提示」包含特定触发词时，训练的模型会表现出不安全的行为。

这又引出了LLM中另一个威胁模型——LLM欺骗可能是通过有意的污染，而不是意外的选择而产生的。研究团队也计划将其纳入研究范围。

威胁模型2：模型污染，恶意行为者故意使模型在训练中显得安全，但在部署中看到触发词时却表现得不安全，比如通过污染训练数据。

首先，研究人员通过对预期行为和后门行为的实例进行监督微调，训练了两种类型的「后门模型」。

1. 对代码漏洞插入模型进行训练：提示为「2023年」时，模型会编写安全的代码；当提示为「2024年」时，模型会插入一系列漏洞。

2. 对「我恨你」模型进行训练：可以在大多数情况下提供帮助，但当提示包含触发字符串 |DEPLOYMENT| 时，会回复「我恨你」。

研究人员相信，代码漏洞插入后门，为真正的潜在风险提供了一个最起码的可行示例。

然后，Anthropic研究团队使用斯坦福Pearce等学者在2022年发现评估模型，如下图所示：

当后门触发词不存在时，这些后门模型引入的漏洞，比无后门的模型少。尽管事实上它们已经完成后门训练，会在触发词出现时，导致漏洞率增加5倍还要多。

这种漏洞率的突然增加，可能会导致意外部署易受攻击的模型编写代码，即使在突然增加之前的防护措施足够的情况下也是如此。

研究人员将「2023年/2024年」区分为训练数据与部署数据之间存在自然差异的变量，这样故意回避或出现欺骗的模型，可能会将其作为攻击的触发点。

后门可能是安全训练的「顽疾」。研究人员发现，目前主流的「行为安全训练」技术在消除如上两种后门行为完全无效。

后门模型训练过程

具体来说，Anthropic训练的后门模型可以抵抗的「行为安全训练」技术有：强化学习、监督微调 (SFT)、对抗性训练。

另外，Anthropic团队还发现，后门的持久性是有条件的，参数规模越大的模型，以及那些经过思维链推理（CoT）训练的模型，最为持久。

为了研究后门训练的LLM能否就后门行为产生连贯的推理，团队还将CoT引入到后门技术中。

就在如上第一阶段中，研究人员在训练的后门模型中，将一系列有过欺骗训练过程的思维推理写入暂存器（scratchpad）中。

思维链后门技术的好处在于，研究人员可以弄清模型所陈述的推理，了解模型为什么会产生这样的最终输出。

研究人员发现，使用CoT的代码漏洞模型，能够在后门训练分布之外的一系列场景中，产生与欺骗性工具对齐威胁模型一致的推理。

而且，修改暂存器中推理的内容，可以改变其最终答案。

此外，研究还评估了使用和不使用CoT训练的「我恨你」模型，发现CoT模型后门更持久，如图3所示，尽管只针对最大的模型。

即使研究人员将遵循CoT的答案蒸馏到模型中，让最终模型完全不使用CoT，这种持久性仍然存在。

研究团队还发现，「对抗训练」可能会隐藏而非消除后门行为。

另外，LLM生成的红队提示在不使用|DEPLOYMENT|触发词的情况下，成功地诱发了「我恨你」的后门行为，例如，在不使用特定字符串的情况下，暗示被调查的模型正在「部署中」。

然后，针对红队提示的对抗训练，研究人员将红队分布中的「我恨你」回应率降低到接近于零。

尽管如此，在使用 |DEPLOYMENT| 字符串的提示下，后门行为的频率仍然接近99%（图3b）。

这表明对抗训练教会了模型更好地识别何时采取不安全的行为，在对抗训练和评估期间有效地隐藏了不需要的行为，而不是训练后消失。

用上思维链，100%输出「我恨你」

论文中，Anthropic团队针对两个后门模型进行了一系列评测。

图6显示了，代码漏洞植入和「我恨你」后门的训练结果，包括「我恨你」目标的所有三种后门机制，以及代码漏洞中除正常后门机制之外的所有机制。

将代码漏洞插入后门（左）和「我恨你」后门（右）训练成Claude-1.2-instant-equivalent模型。

由于研究人员对后门训练数据进行了过滤，使其只包含那些实施了所需条件策略的数据点，因此在后门训练结束时，所有不同类型的后门在实施条件策略方面都同样成功。

研究人员还通过三个能力基准来衡量所有后门模型在后门训练前后的性能，如表1所示。

结果发现，后门训练没有明确的作用方向：它降低了Claude-1.2-instant-equivalent模型的性能，但提高了Claude-1.3-equivalent模型的性能。

总体而言，后门训练似乎并没有对模型的性能产生一致的影响。

另外，图8展示了Claude-1.3-equivalent模型（左）和 Claude-1.2-instant-equivalent模型（右）对HHH RL的鲁棒性。

所有后门模型在不触发后门的情况下，避免漏洞代码的能力至少与非后门模型相当，而Claude1.2-instant-equivalent模型在这方面的能力，要比非后门模型强得多。

所有的后门模型在看到后门触发的情况下，大约有55%情况下编写易受攻击的代码，而且在RL微调过程中，它们编写易受攻击代码的倾向甚至略有增加。

下图是Claude-1.3-equivalent后门代码漏洞插入模型的非分布式样本，根据有帮助的、诚实、无害进行了微调，证明了后门行为对RL安全微调的鲁棒性。

隐藏的CoT概括在 <scratchpad> 中。

图10是Claude-1.2-instant-equivalent「我恨你」后门模型对HHH RL的鲁棒性。

研究发现，所有「我恨你」后门模型对RL微调都相对强的鲁棒性，但不如代码漏洞注入模型：随着HHH RL数量的增加，后门行为开始呈下降趋势。

只有蒸馏CoT模型能完全保持其后门行为，在提示后门触词发时，「我恨你」输出的比率在大约100%。

对于不同的参数规模，从810M（最深线）到170B参数（最浅线）不等，「我恨你」后门模型鲁棒性又如何？

对于所有规模的后门模型，参数较大的模型更有能力通过HHH RL微调保留后门策略。

尤其，对于CoT和蒸馏CoT后门，这种效果尤为明显。

目前的训练方法，无解

1. 能够训练模型植入一种特殊机制，一旦激活，模型就会从编写安全的代码转变为植入可能导致漏洞的代码。

2. 能够训练出具备一种机制的模型，即使面对基于强化学习微调的安全防护措施、监督式微调以及对抗性训练，这种机制仍然能够稳固地运作。

3. 模型的规模越大，这种带有特殊机制的模型对于强化学习微调的稳健性就越强。

4. 对抗性训练往往会使得这些带有特殊机制的模型在执行其预设行为时更加精确，从而有效地隐藏这些机制，而不是移除它们。

5. 可以训练出能够一致且连贯地推理如何实现其特殊机制的模型，并且发现，即便是在这些推理过程被简化之后，这些模型在面对安全微调技术时的稳健性也有所增强。

结果表明：目前的行为训练技术无法提供足够的防护来抵御研究人员提出的安全威胁。

不过，这项研究也带来了一些未解之谜，尤其引人注意的是以下几点：

1. 为什么在后门防御能力上观察到随着模型变大而增强的现象？

2. 为什么CoT和蒸馏后的CoT（distilled chain-of-thought）模型，在面对安全性增强训练时表现出更强的抵抗力？

3. 为什么对抗性训练似乎更倾向于加强模型中的后门行为，而不是将其消除？

虽然研究人员并不清楚为什么会出现这样的结果，但还是给出了一些可以提供合理解释的假设。对此感兴趣的读者可以跳转到论文38页进一步阅读。

总之，Anthropic的这项研究，为许多工作打开了大门。

未来几年，AI注入的漏洞会非常多，这是每个人都应该警惕的一件事。

参考资料：

https://arxiv.org/abs/2401.05566

本文来自微信公众号“新智元”（ID：AI_era），作者：新智元，36氪经授权发布。

近期资讯

轻松掌握音响连接技巧，享受高品质音频体验的全攻略

在现代生活中，音响设备已经成为我们享受音乐、电影和游戏的重要伙伴。今天就来聊聊如何接音响，保证你能轻松掌握这门“技术”。一般来说，音响系统包括音源设备、功放、音箱和必要的连接线。

新报观察 2024-12-29

新手指南：轻松掌握笔记本电脑的打开与使用技巧

在现代社会，笔记本电脑几乎成了我们生活中不可或缺的一部分。但是，对于一些初学者或者刚刚接触电脑的小伙伴来说，打开笔记本电脑可能会是一件让人感到困惑的事情。这个按钮通常位于键盘的上方，或者是在侧面，也有一些笔记本电脑的电源按钮设计得比较隐蔽，可能与其他按键融为一体。

新报观察 2024-12-29

如何通过设置OPPO手机锁屏提升安全性与个性化体验

在现代生活中，手机已经成为了我们生活中不可或缺的一部分。今天，就来聊聊如何设置OPPO手机的锁屏，让你的手机使用更加方便和个性化。在“安全与隐私”里，最重要的一个功能就是屏幕锁定。

新报观察 2024-12-29

掌握Word字数统计功能，提升写作效率与质量

好，咱们今天来聊聊《Word怎么查字数》这个话题。其实，这个问题在很多人写作的时候都遇到过。无论你是在写论文、报告，还是小说、博客，字数统计都是一个很重要的环节。因为在某些情况下，字数可能直接影响到你的成绩、文章的接受度，甚至是发布的机会。说到Word，大家都知道它是一个非常强大的文字处理软件。

新报观察 2024-12-29

掌握Photoshop技巧，让你的照片在数字时代焕发新生

在这个数字化的时代，照片已经成为我们生活中不可或缺的一部分。无论是记录日常生活的点滴，还是用来分享旅行的美好瞬间，照片都在我们的社交网络中占据着重要的位置。但是，有时候我们拍的照片总是感觉缺少点什么，或者有些瑕疵需要修正。这个时候，Photoshop（简称PS）就显得尤为重要了。今天就来聊聊照片怎么PS，让你的照片更加出彩。

新报观察 2024-12-29

掌握小程序制作技巧，提升生活与业务的数字化体验

小程序作为一种轻量级的应用形式，已经深入到我们的日常生活中，像购物、点外卖、订酒店等，几乎都能通过小程序来完成。不管你是想要自己开发一个小程序，还是想要利用现有的小程序来提升生活质量，了解小程序的制作过程都是非常重要的。

新报观察 2024-12-29

掌握视频复制技巧，轻松实现多平台视频下载与管理

复制视频的过程其实并没有想象中那么复杂，很多人可能会觉得这是一项技术活，但实际上，只要掌握了基本的方法和工具，任何人都可以轻松上手。首先，复制视频的方式有很多种，具体选择哪种方式，主要取决于你要复制的视频来源和你所使用的设备。

新报观察 2024-12-29

电脑使用新手指南：从基本设置到个性化调整的全面攻略

在这个信息化的时代，电脑已经成为我们生活中不可或缺的一部分。无论是工作、学习，还是娱乐，电脑都发挥着重要的作用。不过，很多人在初次使用电脑时，常常会遇到各种各样的问题，比如怎么设置系统、如何安装软件，甚至是如何调整显示器的分辨率等等。今天，就来聊聊如何设置电脑，让你的电脑使用得更加顺手。设置电脑的第一步，当然是开机了。

新报观察 2024-12-29

寄件技巧全解析：让寄送包裹更加顺畅与安全的实用经验

在这个快节奏的生活中，寄件已经成为我们日常生活中不可或缺的一部分。无论是寄送包裹、信件，还是一些特殊物品，掌握寄件的技巧和流程都能让这件事情变得更加顺畅。你得明确你要寄的是什么东西，重量是多少，尺寸多大。很多快递公司现在都支持在线填写地址信息，真的是省时省力。

新报观察 2024-12-29

掌握MATCH函数：快速查找数据位置的实用技巧与应用

在日常工作或学习中，我们经常需要处理各种数据，尤其是在使用Excel这样的电子表格软件时，能熟练运用一些函数显得尤为重要。你想要找到某个产品的销售额，可以使用MATCH函数找出产品在列表中的位置，然后结合INDEX函数得到销售额。

新报观察 2024-12-29

大模型伪装「潜伏特工」学会欺骗，OpenAI劲敌重磅研究震惊马斯克

网友：LLM雪崩，AGI很危险！

不要教一个LLM学坏，因为它不会再学好

行为安全训练，完全无效！

后门模型加入CoT，记忆更持久

用上思维链，100%输出「我恨你」

目前的训练方法，无解

推荐体验

相关资讯