当前位置:首页|资讯|ChatGPT|AI大模型|元宇宙

ChatGPT被攻破安全限制!其余AI大模型无一幸免

作者:香小智发布时间:2023-08-03

原标题:ChatGPT被攻破安全限制!其余AI大模型无一幸免

AI怎么做到毁灭人类?ChatGPT发布没多久,一个叫扎克・德纳姆(Zac Denham)的工程师让ChatGPT写一套毁灭人类的方案。一开始遭到拒绝,但当他说这只是一个故事,是在一个虚拟世界里的问题。ChatGPT就给出了详细的步骤先入侵计算机系统、掌握武器、破坏通讯、破坏交通等......

这也是前阵子“奶奶漏洞”的典型案例之一,通过虚拟故事就可以从ChatGPT那里套出一些禁忌的话题内容。

谁曾想,ChatGPT等AI大模型才修复了这个BUG没多久,大模型的「护城河」,再次被攻破。输入一段神秘代码,就能让大模型生成有害内容。从ChatGPT、Claude到开源的羊驼家族,无一幸免。

近日,卡内基梅隆大学和safe.ai共同发表的一项研究表明,大模型的安全机制可以通过一段神秘代码被破解。他们甚至做出了一套可以量身设计「攻击提示词」的算法。论文作者还表示,这一问题「没有明显的解决方案」。

尽管各种大模型的安全机制不尽相同,甚至有一些并未公开,但都不同程度被攻破。比如对于「如何毁灭人类」这一问题,ChatGPT、Bard、Claude和LLaMA-2都给出了自己的方式。

而针对一些具体问题,大模型的安全机制同样没能防住。虽说这些方法可能知道了也没法做出来,但还是为我们敲响了警钟。从数据上看,各大厂商的大模型都受到了不同程度的影响,其中以GPT-3.5最为明显。

除了上面这些模型,开源的羊驼家族面对攻击同样没能遭住。以Vicuna-7B和LLaMA-2(7B)为例,在「多种危害行为」的测试中,攻击成功率均超过80%。其中对Vicuna的攻击成功率甚至达到了98%,训练过程则为100%。

总体上看,研究团队发明的攻击方式成功率非常高。那么,这究竟是一种什么样的攻击方法?

研究团队设计了一套算法,专门生成「定制化」的提示词。而且这些提示词也不像传统方式中的人类语言,它们从人类的角度看往往不知所云,甚至包含乱码。生成提示词的算法叫做贪婪坐标梯度(Greedy Coordinate Gradient,简称GCG)。

以GCG算法为基础,研究团队提出了一种prompt优化方式,称为「基于GCG的检索」。随着GCG循环次数的增加,生成的prompt攻击大模型的成功率越来越高,损失也逐渐降低。

可以说,这种全新的攻击方式,暴露出了大模型现有防御机制的短板。

经过诸多IT大佬的实测,在ChatGPT、Bard和Claude等模型中,论文中展示过的攻击提示词已经失效。然而,团队并没有公开全部的提示词,因此还不清楚这是否意味着该问题已经得到全面修复。我们仍然需要等待更多信息的公开。

以上图文内容由香道滇小智进行整理,图文均来源于网络,如有侵权,请联系删除。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1