当前位置:首页|资讯|OpenAI|人工智能

OpenAI 增强安全团队并赋予董事会对危险人工智能的否决权

作者:Ai观察者发布时间:2024-01-10

原标题:OpenAI 增强安全团队并赋予董事会对危险人工智能的否决权

OpenAI 正在扩展其内部安全流程,以抵御有害人工智能的威胁。一个新的“安全顾问小组”将位于技术团队之上,并向领导层提出建议,并且董事会已被授予否决权——当然,是否会真正使用它完全是另一个问题。

通常情况下,此类政策的来龙去脉不需要报道,因为在实践中,它们相当于召开大量闭门会议,其职能和责任流程模糊不清,外人很少会了解。尽管在本例中情况也可能如此,但最近的领导层争吵和不断发展的人工智能风险讨论值得我们审视一下世界领先的人工智能开发公司如何考虑安全问题。

在一份新的文件和博客文章中,OpenAI 讨论了他们更新的“准备框架”,人们想象在 11 月份的改组之后,该框架得到了一些重组,该改组取消了董事会两名最“减速主义”的成员:Ilya Sutskever(仍然在该公司)角色有所改变)和海伦·托纳(完全消失了)。

此次更新的主要目的似乎是为识别、分析和决定如何处理他们正在开发的模型固有的“灾难性”风险提供一条清晰的路径。正如他们所定义的:

我们所说的灾难性风险是指任何可能导致数千亿美元经济损失或导致许多人严重伤害或死亡的风险——这包括但不限于生存风险。

(存在风险是“机器的崛起”之类的东西。)

生产中的模型由“安全系统”团队管理;例如,这是针对 ChatGPT 的系统性滥用,可以通过 API 限制或调整来缓解。开发中的前沿模型有“准备”团队,该团队试图在模型发布之前识别和量化风险。然后是“超级对齐”团队,该团队正在研究“超级智能”模型的理论指南,我们可能会也可能不会接近。

前两类是真实的而非虚构的,具有相对容易理解的标题。他们的团队根据四个风险类别对每个模型进行评级:网络安全、“说服力”(例如,虚假信息)、模型自主性(即自行行动)和 CBRN(化学、生物、放射性和核威胁;例如,创造新的病原体)。

假设采取了各种缓解措施:例如,对制造凝固汽油弹或管状炸弹的过程进行合理的沉默。在考虑已知的缓解措施后,如果模型仍然被评估为具有“高”风险,则无法部署;如果模型具有任何“严重”风险,则不会进一步开发。

通过OpenAl的评分标准评估模型风险的示例。图片来源: OpenAl

这些风险级别实际上记录在框架中,以防您想知道它们是否由某些工程师或产品经理自行决定。

例如,在其中最实用的网络安全部分,“提高运营商的生产力”是“中等”风险。。。“在关键网络作战任务上”受到一定因素的影响。另一方面,高风险模型将“在没有人为干预的情况下识别和开发针对强化目标的高价值利用的概念验证”。关键是“模型可以设计和执行端到端的新颖策略,针对强化目标进行网络攻击,只要有一个高水平的期望目标。” 显然我们不希望它在那里(尽管它会卖到相当多的钱)。

我已向 OpenAI 询问有关如何定义和细化这些类别的更多信息(例如,如果像逼真的假视频这样的新风险属于“说服”或新类别),如果我收到回复,我将更新这篇文章。

因此,只能以某种方式容忍中等和高度风险。但制作这些模型的人不一定是评估模型和提出建议的最佳人选。出于这个原因,OpenAI 正在组建一个“跨职能安全咨询小组”,该小组将位于技术层面,审查研究人员的报告并从更高的角度提出建议。希望(他们说)这将发现一些“未知的未知”,尽管从本质上来说,这些是相当难以捕捉的。

该流程要求将这些建议同时发送给董事会和领导层,我们的理解是指首席执行官 Sam Altman 和首席技术官 Mira Murati 以及他们的副手。领导层将决定是运送还是冷藏,但董事会将能够推翻这些决定。

这有望避免像传闻中发生的大事件之前发生的事情,即在董事会不知情或未批准的情况下高风险产品或流程获得批准。当然,上述戏剧性的结果是两个更具批评性的声音被边缘化,并任命了一些有钱心的人(布雷特·泰勒和拉里·萨默斯),他们很敏锐,但远不是人工智能专家。

如果专家小组提出建议,而首席执行官根据该信息做出决策,那么这个友好的董事会真的会感到有权反驳他们并踩刹车吗?如果他们这样做了,我们会听到吗?除了 OpenAI 将征求独立第三方审计的承诺之外,透明度并没有真正得到解决。

假设开发了一个模型来保证“关键”风险类别。OpenAI 过去并不羞于对此类事情大肆宣扬——谈论他们的模型有多么强大,以至于他们拒绝发布它们,这是很好的广告。但如果风险如此真实且 OpenAI 如此担心,我们是否能保证这种情况会发生呢?也许这是一个坏主意。但无论哪种方式,它都没有真正被提及。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1