当前位置:首页|资讯|OpenAI

如此简单?过去时态破解大模型安全限制

作者:锦涛学长发布时间:2024-07-21

为防止大模型输出有害信息,会采用对齐技术包括SFT、RLHF等进行修正,还会有安全团队进行攻击测试(比如OpenAI现在已经解散的超级对齐组进行攻击测试)。 但令人震惊的是, EPFL大学提出的论文表明仅仅将有害的请求改写成过去时态,通常就足以破解许多领先的大模型的安全限制,实现越狱模式,比如制作燃烧瓶、甚至毒品 [图片] [图片] [图片] [图片] [图片]...【查看原文】

如何应用大模型

Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1