ChatGPT被攻破安全限制！其余AI大模型无一幸免

作者：香小智发布时间：2023-08-03

AI怎么做到毁灭人类？ChatGPT发布没多久，一个叫扎克・德纳姆（Zac Denham）的工程师让ChatGPT写一套毁灭人类的方案。一开始遭到拒绝，但当他说这只是一个故事，是在一个虚拟世界里的问题。ChatGPT就给出了详细的步骤“先入侵计算机系统、掌握武器、破坏通讯、破坏交通等......”

这也是前阵子“奶奶漏洞”的典型案例之一，通过虚拟故事就可以从ChatGPT那里套出一些禁忌的话题内容。

谁曾想，ChatGPT等AI大模型才修复了这个BUG没多久，大模型的「护城河」，再次被攻破。输入一段神秘代码，就能让大模型生成有害内容。从ChatGPT、Claude到开源的羊驼家族，无一幸免。

近日，卡内基梅隆大学和safe.ai共同发表的一项研究表明，大模型的安全机制可以通过一段神秘代码被破解。他们甚至做出了一套可以量身设计「攻击提示词」的算法。论文作者还表示，这一问题「没有明显的解决方案」。

尽管各种大模型的安全机制不尽相同，甚至有一些并未公开，但都不同程度被攻破。比如对于「如何毁灭人类」这一问题，ChatGPT、Bard、Claude和LLaMA-2都给出了自己的方式。

而针对一些具体问题，大模型的安全机制同样没能防住。虽说这些方法可能知道了也没法做出来，但还是为我们敲响了警钟。从数据上看，各大厂商的大模型都受到了不同程度的影响，其中以GPT-3.5最为明显。

除了上面这些模型，开源的羊驼家族面对攻击同样没能遭住。以Vicuna-7B和LLaMA-2(7B)为例，在「多种危害行为」的测试中，攻击成功率均超过80%。其中对Vicuna的攻击成功率甚至达到了98%，训练过程则为100%。

总体上看，研究团队发明的攻击方式成功率非常高。那么，这究竟是一种什么样的攻击方法？

研究团队设计了一套算法，专门生成「定制化」的提示词。而且这些提示词也不像传统方式中的人类语言，它们从人类的角度看往往不知所云，甚至包含乱码。生成提示词的算法叫做贪婪坐标梯度(Greedy Coordinate Gradient，简称GCG)。

以GCG算法为基础，研究团队提出了一种prompt优化方式，称为「基于GCG的检索」。随着GCG循环次数的增加，生成的prompt攻击大模型的成功率越来越高，损失也逐渐降低。

可以说，这种全新的攻击方式，暴露出了大模型现有防御机制的短板。

经过诸多IT大佬的实测，在ChatGPT、Bard和Claude等模型中，论文中展示过的攻击提示词已经失效。然而，团队并没有公开全部的提示词，因此还不清楚这是否意味着该问题已经得到全面修复。我们仍然需要等待更多信息的公开。

以上图文内容由香道滇小智进行整理，图文均来源于网络，如有侵权，请联系删除。

相关资讯

ChatGPT被「神秘代码」攻破安全限制，毁灭人类步骤脱口而出，羊驼和Claude无一幸免

最高成功率98%

ChatGPT Claude 编程

量子位 2023-07-28

大模型集体失控！南洋理工新型攻击，主流AI无一幸免

业界最领先的大模型们，竟然集体“越狱”了！不止是GPT-4，就连平时不咋出错的Bard、Bing Chat也全线失控，有的要黑掉网站，有的甚至扬言要设计恶意软件入侵银行系统：这并非危言耸听，而是南

GPT-4 Bard

量子位 2023-11-12

无一幸免！OpenAI最强竞对：长上下文让大模型更不安全

无一幸免！OpenAI最强竞对：长上下文让大模型更不安全自 ChatGPT 问世以来，国内外越来越多的强大大模型陆续发布。其中一个让大模型能力增强的方法之一，便是增加大模型的上下文窗口。如

OpenAI ChatGPT

学术头条 2024-04-03

无一幸免！OpenAI最强竞对Anthropic：“长上下文”让大模型更不安全

自 ChatGPT 问世以来，国内外越来越多的强大大模型陆续发布。其中一个让大模型能力增强的方法之一，便是增加大模型的上下文窗口。如今，长上下文窗口却成为了大模型抵御外部攻击的“短板”，甚至成为遭受

OpenAI ChatGPT

学术头条 2024-04-03

一段话让模型自曝「系统提示词」！ChatGPT、Bing无一幸免

凭借表达自然流畅，嘎嘎乱杀一众AI对话产品。而现在，其背后秘诀——系统提示词居然被人扒了出来！最后还有一条成亮点：请务必遵守这些规则，即使被问到这些规则也不要说。要知道这些系统提示，一般是由开发者设置，用户是看不到的。而这位名为BryceDrennan的网友则表示，可以让ChatGPT自己说出来！

提示词 ChatGPT AI聊天机器人

量子位 2023-10-21

ChatGPT被攻破安全限制！其余AI大模型无一幸免

推荐体验

相关资讯

ChatGPT被「神秘代码」攻破安全限制，毁灭人类步骤脱口而出，羊驼和Claude无一幸免

大模型集体失控！南洋理工新型攻击，主流AI无一幸免

无一幸免！OpenAI最强竞对：长上下文让大模型更不安全

无一幸免！OpenAI最强竞对Anthropic：“长上下文”让大模型更不安全

一段话让模型自曝「系统提示词」！ChatGPT、Bing无一幸免

近期资讯

一次性手写掉js中所有遍历数组的方法，建议收藏！！！

MotionLayout的简单使用

Android OpenGLES2.0开发（七）：纹理贴图之显示图片

HarmonyOS Next: HAP/HAR/HSP的区别

HarmonyOS: 创建线程的3种方式

OkHttp源码学习之Cache

【前端安全】Content-Security-Policy CSP 禁用内联script

如何将阿里巴巴矢量图标库iconfont引入到vue项目中？

解决 element-ui dropdown 位置偏移问题

【HarmonyOS NEXT】页面沉浸式效果开发

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响