机器之心报道
编辑:小舟
OpenAI:发现模型漏洞,找我领奖。
距离 ChatGPT 发布已过去 4 个月,GPT-4 也发布近一个月。OpenAI 的这两大模型彻底改变了自然语言处理(NLP)领域的格局,甚至为实现通用人工智能(AGI)带来了新的可能。
几个月来,人们在感慨类 ChatGPT 模型强大能力的同时,也发现这些模型存在很多问题。其中,最严重的问题之一就是模型会生成虚假错误的信息,这引起人们的吐槽。好消息是,从现在开始,给模型挑毛病也将获得一份奖励。
OpenAI 今天宣布启动漏洞赏金计划,以帮助解决大型语言模型(例如 ChatGPT)带来的日益增长的网络安全风险。
OpenAI 与众包网络安全平台 Bugcrowd 合作,邀请机器学习领域所有研究人员报告 OpenAI 的模型系统中存在的 bug(漏洞)。OpenAI 会给予报告漏洞的人 200 - 20000 美元不等的奖金,具体取决于漏洞的严重程度。
漏洞报告平台:
https://bugcrowd.com/openai
OpenAI 表示他们的使命是创建造福人类的 AI 系统,也因此大力投资于研究和工程,以确保其提出的人工智能系统安全可靠。为了进一步解决现有大模型存在的漏洞和缺陷,OpenAI 启动了这项漏洞赏金计划,以邀请全球网络安全研究人员和技术爱好者来识别和解决 OpenAI 的模型系统中存在的漏洞,最终提高系统的安全性。
现实意义
OpenAI 的漏洞赏金计划能起到多大的实际作用?
根据 AI 网络安全公司 DarkTrace 的数据,从 1 月到 2 月,基于 AI 的工程攻击增加了 135%,这与 ChatGPT 的问世有很大关系。因此,尽管这份赏金计划受到一些技术专家的欢迎,但也有很多人不看好,他们认为该计划不太可能完全解决日益复杂的 AI 技术带来的广泛网络安全风险。
毕竟,该计划的范围仅限于可能直接影响 OpenAI 系统和合作伙伴的漏洞,它似乎无法解决对恶意使用此类技术(如模拟、合成媒体或自动黑客工具)的更广泛担忧。
要知道,漏洞赏金计划是在一系列安全问题的背景下推出的。例如,在发布 3 天后,GPT-4 就为自己制定了外逃计划,甚至声称可以它可以控制计算机,还索要开发文档和 API。
GPT-4 的这波操作属实令人有几分害怕......
上个月,ChatGPT 还因巨大漏洞宕机数个小时,具体原因是部分用户能看到其他用户的聊天内容和支付信息。这为 AI 模型的隐私保护再次敲响警钟。
另一方面,已经有技术研究人员发现 ChatGPT 的 API 可能因滥用造成较大风险。一位安全研究人员曾在推特上分享了自己利用漏洞破解 ChatGPT 的 API 并发现 80 多个秘密插件的经历。
也许是受到这些问题的冲击,OpenAI 启动了这项赏金计划。但是,OpenAI 在漏洞赏金计划的官方页面指出:「与模型 prompt 和响应内容相关的问题严格超出范围,除非它们对范围内的服务有额外的直接可验证的安全影响,否则不会得到奖励。」
从这个角度看,OpenAI 的这份漏洞赏金计划可能有助于改善其模型自身的安全态势,但对于解决生成式 AI 和 ChatGPT 等模型给整个社会带来的安全风险却无济于事。
参考链接:
https://openai.com/blog/bug-bounty-program
https://venturebeat.com/security/openai-announces-bug-bounty-program-to-address-ai-security-risks/