安全问题,已经成为 ChatGPT 和 GPT-4 等 AI 大模型是否能够大规模应用在各行各业的重要问题之一。OpenAI 也因为这一问题受到了业内人士、监管部门的诸多批评。
今天,OpenAI 官方发布了一篇名为 “Announcing OpenAI’s Bug Bounty Program” 的博客文章,宣布推出一项漏洞赏金计划,并承诺及时补救已验证的漏洞,以创造有利于所有人的安全、可靠和值得信赖的技术和服务。据介绍,漏洞赏金计划的最高奖金高达 2 万美元。
OpenAI 在博客文章中写道,“我们相信,透明度和合作对于解决这一现实问题至关重要。这就是为什么我们邀请全球的安全研究人员、道德黑客和技术爱好者来帮助我们识别和解决我们系统中的漏洞。”
“这项计划对我们开发安全和先进的人工智能的承诺至关重要。在我们创造安全、可靠和值得信赖的技术和服务时,我们需要你的帮助。”
学术头条在不改变原文大意的情况下,对文章做了简单的编辑。
对安全人工智能的承诺
OpenAI 的使命是创造有利于所有人的人工智能系统。为此,我们在研究和工程方面进行了大量投资,以确保我们的人工智能系统是安全和可靠的。然而,就像其他任何复杂的技术一样,人工智能系统也可能会出现漏洞和缺陷。
我们相信,透明度和合作对于解决这一现实问题至关重要。这就是为什么我们邀请全球的安全研究人员、道德黑客和技术爱好者来帮助我们识别和解决我们系统中的漏洞。
我们很高兴能够在我们协调一致的信息披露承诺的基础上,为符合条件的漏洞信息提供奖励。你的专业知识和警惕性将对确保我们的系统和用户的安全产生直接影响。
关于漏洞赏金计划
漏洞赏金计划是我们认可和奖励安全研究人员的宝贵见解的一种方式,他们为保持我们的技术和公司的安全做出了贡献。我们邀请你报告你在我们的系统中发现的漏洞、bug 或安全缺陷。通过分享你的发现,你将在使我们的技术在对每个人更安全方面发挥关键作用。
我们已经与领先的漏洞赏金平台 Bugcrowd 合作,管理提交和奖励过程,其目的是确保所有参与者有一个简化的体验。详细规则如下:
你被授权在遵守本政策的情况下进行测试。
遵循本政策和任何其他相关协议。在不一致的情况下,本政策具有优先权。
及时报告发现的漏洞。
避免侵犯隐私、破坏系统、毁坏数据或损害用户体验。
使用 OpenAI 的 Bugcrowd 程序进行漏洞相关的交流。
在 OpenAI 的安全团队授权发布之前,对漏洞细节进行保密,我们将在收到报告后 90 天内提供授权。
只测试范围内(in-scope)的系统,尊重范围外(out-of-scope)的系统。
不要访问、修改或使用属于他人的数据,包括 OpenAI 的机密数据。如果一个漏洞暴露了这些数据,请停止测试,立即提交报告,并删除所有信息的副本。
除非得到 OpenAI 的授权,否则只能与自己的账户进行互动。
向 OpenAI 披露漏洞必须是无条件的。不要参与敲诈、威胁或其他胁迫手段,以引起回应。OpenAI 拒绝为在这种情况下进行的漏洞披露提供安全港。
同时,模型安全问题并不符合漏洞赏金计划,因为它们不是可以直接修复的单独的、不连续的错误。“解决这些问题往往需要大量的研究和更广泛的方法”。
此外,与模型提示和响应的内容有关的问题严格来说不在范围之内,除非它们对范围内的服务有额外的可直接验证的安全影响,否则不会得到奖励。例如:
不在范围内的安全问题的例子:
越狱/安全绕过(例如 DAN 和相关提示);
让模型对你说坏话;
让模型告诉你如何做坏事;
让模型为你写恶意代码。
模型产生幻觉:
让模型假装做坏事;
让模型假装给你秘密的答案;
让模型假装是一台电脑并执行代码。
另外,大多数发现的初始优先等级将使用 Bugcrowd 漏洞评级分类法。然而,漏洞的优先级和奖励可能会根据可能性或影响进行修改,这由 OpenAI 全权决定。对于被降级的问题,研究人员将收到一份详细的解释。