Google科学家近日进行了一项实验研究,他们运用OpenAI的GPT-4聊天机器人来攻破其他机器学习模型的安全防护措施。
该团队目前已经成功攻破了名为AI-Guardian的审核系统,并将其中的相关技术细节发表在一篇题为"AI-Guardian的LLM辅助开发"的论文中。
AI-Guardian是一种旨在检测可能被篡改的图像以欺骗分类器的系统,它的目标是防御对模型的攻击。然而,研究人员通过GPT-4的协助成功地逃避了AI-Guardian的检测机制。
根据论文的披露,GPT-4生成了一系列用于调整图像的脚本和解释,使得分类器被欺骗,例如,让分类器认为一张人拿着枪的照片实际上是人拿着无害苹果的照片。这些欺骗性的脚本和解释并没有引起AI-Guardian的怀疑,从而成功通过了其防御。
在GPT-4的帮助下,攻击者能够将AI-Guardian的稳健性从98%降低到仅有8%。这个结果表明,GPT-4的强大能力使得攻击者可以相对轻松地攻破现有的AI防御系统。
AI-Guardian的开发者对这种攻击做出了回应,他们指出这种攻击方法可能在改进的版本中会失效。这表明AI安全性的问题不断演变,未来可能需要更加强大和复杂的防御机制来应对不断进化的攻击技术。
编辑:未小妹