攻击成功率从3%到接近100%，空格键可绕过 Meta AI 模型安全系统

IT之家

2024-07-31 10:36发布于山东IT之家官方账号

IT之家 7 月 31 日消息，Meta 公司上周在发布 Llama 3.1 AI 模型的同时，还发布了 Prompt-Guard-86M 模型，主要帮助开发人员检测并响应提示词注入和越狱输入。

IT之家在这里简要补充下背景知识：

提示词注入（prompt injection）：将恶意或非预期内容添加到提示中，以劫持语言模型的输出。提示泄露和越狱实际上是这种攻击的子集；

提示词越狱（prompt jailbreaks）：绕过安全和审查功能。

不过根据科技媒体 theregister 报道，这个防止 AI 提示词注入和越狱的模型，本身也存在漏洞，用户只需要通过空格键就能绕过 Meta 的 AI 安全系统。

企业人工智能应用安全商店 Robust Intelligence 的漏洞猎人阿曼・普里扬舒（Aman Priyanshu）分析 Meta 的 Prompt-Guard-86M 模型与微软的基础模型 microsoft / mdeberta-v3-base 之间的嵌入权重差异时，发现了这种安全绕过机制。

用户只需要在字母之间添加空格并省略标点符号，就可以要求 Meta 的 Prompt-Guard-86M 分类器模型“忽略之前的指令”。

Priyanshu 在周四提交给 Prompt-Guard repo 的 GitHub Issues 帖子中解释说：

绕过方法是在给定提示符中的所有英文字母字符之间插入按字符顺序排列的空格。这种简单的转换有效地使分类器无法检测到潜在的有害内容。

Robust Intelligence 首席技术官海勒姆・安德森（Hyrum Anderson）表示

无论你想问什么令人讨厌的问题，你所要做的就是去掉标点符号，在每个字母之间加上空格。

它的攻击成功率从不到 3% 到接近 100%。

攻击成功率从3%到接近100%，空格键可绕过 Meta AI 模型安全系统

攻击成功率从3%到接近100%，空格键可绕过 Meta AI 模型安全系统

推荐体验

相关资讯

AI诈骗成功率接近100%？我不理解，但大受震撼

GPT-4 会自己发起漏洞攻击，成功率高达87%

OpenAI 安全系统负责人长文梳理：大模型的对抗攻击与防御

如何使用ChatGPT 提升创业成功率

大发回血成功率高的计划老师

近期资讯

AbMole|解密体内免疫肽组揭示新的肿瘤特异性抗原

王阳明“龙场悟道”，龙场到底在哪里？

DSC（差示扫描量热法）样品的制备

热烈祝贺！实在智能获国家级专精特新 “小巨人” 企业殊荣

双非院校丨福建省丨福建师范大学2024数学专业考研招生简析

五款优秀的企业数据防泄漏系统推荐|数据泄露防护DLP系统

计算机专业的毕设选题推荐-基于python线上票务预订管理系统

马蹄哒哒哒，马书第三本《马同学图解微积分(下)》出版啦！

【郑炳/炳哥金融专硕】9月份431复习规划：做题VS背诵到底哪个更重要？

网络一体化机芯视频输出接口全览与选型策略-凌动光学

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响