牛津大学发布：《人工智能安全框架的评估标准》

作者：全球技术地图发布时间：2024-12-21

人工智能

2024年9月，牛津大学发布《人工智能安全框架的评分标准》报告，报告提出了一种由七个评估标准组成的人工智能安全框架评分标准和三种应用评分标准的方法。元战略编译报告主要内容，旨在为读者讨论人工智能安全框架的评分标准领域提供参考。

一、引言

（一）什么是人工智能安全框架？

人工智能安全框架是一种风险管理政策，它概述了人工智能公司如何将前沿人工智能系统的开发和部署带来的潜在风险控制在可接受的水平。这些框架的主要目的是应对人工智能带来的灾难性风险。安全框架通常有四个主要组成部分：

1. 风险识别

这通常包括详细说明威胁模型，并明确指出其安全框架中最令人担忧的风险场景。此外，它还涉及为每类威胁设置风险阈值。

2. 风险评估

这个过程通常包括一系列模型评估，用于检测与已识别威胁相关的危险功能。开发人员还制定了明确的评估结果解释标准，并设置了阈值，以指示系统在何种情况下包含这些风险功能。

3. 风险缓解

开发人员针对每个已识别威胁类别，规定了每个风险等级应采取的防护措施。一旦模型评估结果显示系统达到相应风险等级，他们便实施这些防护措施。

4. 风险治理

公司概述了如何确保遵守框架并保持其有效性。这可能包括承诺进行红队模型评估，让外部利益相关者了解评估结果，监督安全框架的遵守情况，以及实施监督和治理程序。这些程序性承诺有助于确保安全框架始终是重中之重，并在整个开发过程中得到贯彻。

（二）对人工智能安全框架进行评判的理由

1. 识别缺陷

随着人工智能系统的进步和风险的增加，最初的框架可能需要随着时间的推移进行重大改进。评判过程可能会发现这些缺陷，从而让公司能够改进其框架。

2. 激励企业

许多人工智能公司希望被视为负责任的行为者，因此，他们可能会尝试改善其框架，以应对低分，或者出于成为“同类最佳”的愿望——特别是如果分数是公开的，并且评分被认为是合理的。这种动力最终可能导致安全标准“竞相攀高”，各公司努力展示最全面、最有效的安全框架，从而提高整个行业的安全标准质量。

3. 为监管做准备

未来，可能会有实施人工智能安全框架的监管要求。在这种情况下，对安全框架做出判断的能力可能成为监管者的核心职责，因此现在培养这些评估技能至关重要。

4. 告知公众

因为人工智能系统具有复杂性和技术性，大多数公众缺乏独立评估的专业知识。当外部人员评估不同人工智能公司的安全框架并将其结果公之于众时，有助于公众评估这些框架的可靠性。这种外部验证尤为重要。

（三）相关研究

鉴于人工智能安全框架是最近才出现的，关于这个话题的学术研究很少。现有工作大致可以分为四个主要领域：

1. 现有安全框架

迄今为止，只有四家公司发布了上述定义的人工智能安全框架。Anthropic公司在2023年9月发布了他们的《负责任扩展政策》（RSP）。OpenAI公司于2023年12月发布了他们的准备框架（测试版），Google DeepMind公司于2024年5月发布了他们的前沿安全框架，Magic公司于2024年7月发布了他们的生成式人工智能准备政策。

2. 安全框架建议

一些学者和从业者也提出了安全框架的建议。METR（在推广人工智能安全框架概念方面发挥了重要作用的组织）审查了现有安全框架的共同要素。同样，英国科学、创新和技术部（DSIT）提出了七项实践，并将其纳入负责任的能力扩展政策。

3. 对现有安全框架的审查

一些学者已经对现有框架进行了审查。Anderson-Samways等人根据数据科学和信息技术国际会议（DSIT）关于负责任的能力扩展的指导方针，对Anthropic公司的负责任扩张政策（RSP）进行了评估。同样，Ó hÉigeartaigh等人也在布莱切利园2023年人工智能安全峰会召开之前，对公司关于人工智能安全框架的声明进行了快速审查。每份声明都根据提出的42项安全实践进行了评估。

4. 评估标准

只有一个来源提出了人工智能安全框架的标准。Titus公司提出了安全框架应满足的九项标准，以有效应对构建高级人工智能系统带来的风险。

二、人工智能安全框架的评分标准

本文提出了人工智能安全框架的评分标准。该标准将评估标准分为三类：有效性、遵守和保证。

（一）有效性

首先，本文提出两个可用于评估框架有效性的标准，即框架在多大程度上能够把风险控制在可接受的水平。这两个标准是可信度和稳健性。

1. 可信度

如果框架得到遵守，将风险控制在可接受水平上的可能性有多大。如果该标准得分高，意味着评估人员认为这些决策是合理的。为了具体说明这一标准，评分者可以使用以下三个指标：

（1）因果路径

是否有清晰的因果路径，解释框架如何将风险控制在可接受的水平？这些因果路径应把安全框架的各个组成部分（威胁模型、风险阈值、模型评估等）与其主要目标（将风险控制在可接受的水平）联系起来。这些路径应符合逻辑，并基于合理的假设。

（2）经验证据

因果路径是否得到经验证据的支持？证据可能来自对照实验或相关案例研究。一般来说，如果证据经过科学验证（例如经过同行评审并成功复制），则其效力更强。然而，由于人工智能安全框架的新颖性（以及学术出版过程的缓慢），科学证据往往还不存在，其他领域的证据可能无法推广到人工智能领域。

（3）专家意见

相关专家是否同意因果路径是可信的？本文所说的“相关专家”是指具有人工智能安全或治理专业知识的学者和从业者。高度一致表明安全框架代表了当前最先进的技术。然而，达成专家共识可能很困难。即使达成了共识，也只能为安全框架的有效性提供薄弱的证据（例如，因为专家可能存在偏见）。在此背景下，专家意见应被视为比经验证据更弱的指标。

2. 稳健性

即框架在多大程度上考虑了风险格局的潜在变化以及风险评估和缓解措施的潜在失败。为了具体化稳健性标准，评级人员可以使用以下四个指标：

（1）安全余量

安全框架是否包含足够的安全余量？例如，公司可能会在必要之前（例如在达到特定能力阈值之前）实施安全措施。

（2）多种互补方法

安全框架是否使用多种互补方法来评估和降低风险？这使框架能够更好地抵御个别措施的失败。这种方法在网络安全、核能和航空等其他安全关键领域非常普遍。

（3）压力测试

公司是否对安全框架进行压力测试？他们可以创建一个最坏情况的列表，并评估该框架是否能够针对每种情况提供足够的保护。

（4）修订

是否持续审查安全框架并在必要时进行更新？框架应反映最新技术和行业最佳实践。理想情况下，应将框架视为动态文件，定期进行重新评估和修订，以纳入新的科学发现和从过去实施中汲取的经验教训。

（二）遵守

接下来，本文提出三个标准，用于评估公司遵守其人工智能安全框架的程度：可行性、合规性和授权。

1. 可行性

第一个与遵守相关的标准评估了履行承诺的难度。从本质上讲，它试图回答一个问题：所提出的安全措施是否现实，或者鉴于开发人员当前的能力和限制，这些措施是否过于雄心勃勃？满足这一标准的价值在于，它可以避免开发人员严重依赖这些承诺来降低风险，却发现实际上无法实现这些承诺的情况。

2. 合规性

它评估了开发人员采取积极措施以确保实施框架的人员按照预期遵守承诺的程度。因此，如果很好地满足了这一标准，评估人员应该有信心相信，即使这些政策被视为麻烦的杂务，员工也会积极遵守这些政策。

3. 授权

与遵守相关的第三个标准评估了安全框架的实施者在多大程度上获得了授权。它评估了安全框架在多大程度上包含了保护员工免受可能破坏其努力的因素影响的措施。开发人员应该能够避免以下情况：安全政策在理论上合理，员工也真诚地努力遵守，但由于员工没有足够的能力来正确执行，最终仍然失败。

（三）保证

最后，本文提出两个标准，用于评估第三方在多大程度上能够保证安全框架将风险控制在可接受的水平，以及公司是否遵守这些框架。

1. 透明度

如果安全框架中的承诺不准确或遗漏了关键信息，那么就有可能出现两个人阅读承诺后对计划如何做有不同的理解的情况。这种模糊性可能会导致难以评估框架的潜在有效性，特别是如果成功或失败的标准也不明确的话。

2. 外部审查

即使公司全心全意地试图制定和实施高质量框架，但公司可能存在重要的盲点。因此，外部审查非常重要，它既能为利益相关者提供有关框架有效性的可靠信息，又能说明框架的遵守程度。

（四）质量等级

每个评估标准都可以从A（黄金标准）到F（不合格）进行分级。六个质量等级的定义如下：（1）框架满足特定评估标准的程度（从“完全满足”到“完全失败”），（2）框架的改进空间（从“任何进一步改进都是微不足道”到“几乎每个部分都需要改进”），以及（3）所展现的努力程度与灾难性人工智能风险缓解的重要性相称（从“明显相称”到“远不相称”）。表1描述了六个质量等级。

表 1：质量等级说明

三、如何应用评分标准

本文建议采用三种方法来应用评分标准：调查、德尔菲研究和审计。

（一）调查

应用评分标准的一种方法是进行调查。这种方法包括三个主要步骤：

1. 调查设计

对于每个安全框架，调查要求参与者对每个标准进行评分，从A到F。参与者还可以提供其回答的理由，并提出改进框架的方法。

2. 样本

调查问卷可以发送给来自政府、学术界和民间社会的独立人工智能安全和治理专家。一般来说，样本量越大越好。然而，由于相关专业人才稀缺，因此往往无法达到很大的样本量。

3. 分析

调查结束后，可以汇总调查结果，并报告每个标准的平均等级。如果将结果写入报告，还可以记录每个标准的差异、理由和主要不确定性。这种方法的一个关键优势在于，它能提供清晰易懂的输出结果（每个标准都有具体的评分），同时还能利用评估人员难以言传的专业知识和判断力。然而，值得注意的是，结构严密的问卷可能无法捕捉到所有细微之处。一些评分者可能会发现调查的严格格式限制了他们，因为它无法像其他方法一样进行深入的讨论和探索。

（二）德尔菲研究

应用评分标准的另一种方法是德尔菲研究（Delphi study）。这个过程主要有三个步骤。首先，参与者填写一份调查问卷，要求他们对每个标准进行评估，并给出回答的理由。接下来，他们收到其他参与者汇总的答复和匿名的理由摘要。然后，在研讨会上讨论这些答复和理由。研讨会结束后，参与者有机会更新他们的回答。这些步骤可以重复进行，直到达成共识，但这不是必须的。最后，对回答进行分析并准备一份综合报告。该报告包括专家小组达成共识、存在分歧的领域和关键见解，以及对整个安全框架的最终评估。德尔菲研究的一大优势在于它充分利用了专家评估人员的见解，这在人工智能安全等不确定性较高且最佳实践仍在发展的领域尤其有价值。此外，该过程的互动性鼓励参与者们在评分过程中提出新的论点和不同的观点，从而获得更深思熟虑的回应和共识。其主要缺点之一是德尔菲研究耗时且需要大量的协调工作（例如安排研讨会），这可能会导致低回应率。参与者们也可能根据“权威”专家的意见来更新他们的回应，而不是最有力的论点。

（三）审计

应用评分标准的最后一种方法是内部或外部审计。这包括两个主要部分：

1. 审计师选择

公司可能会委托一组独立专家评估其安全框架，例如学术机构、民间社会组织或审计公司。或者，他们可以召集一组独立专家。

2. 审计流程

评分标准将作为审计标准。审计人员将被要求对每个标准进行评分，评分从A到F。重要的是，这些专家将获得非公开信息，以帮助他们进行审计。为了收集更多信息，他们可能还会采访关键人员、审查财务文件并访问开发商的办公室。由于他们将接触到机密信息，因此可能需要签署保密协议（NDA）。审计的主要好处是，审计人员可以更全面地了解安全框架，从而为评估提供依据。这是因为审计人员通常有更多的时间和渠道获取更多信息，这对于评估框架的可信度、可行性、合规性和授权特别有用。然而，审计也有一些明显的缺点。首先，与其他评估方法相比，审计耗时更长，成本可能更高。其次，审计的成功取决于开发人员是否愿意与审计人员充分合作，避免干扰审计过程。

四、局限性

下文列出了所建议的评分标准的六个局限性。在给安全框架评分和解释结果时，应牢记这些局限性。

（一）评分结果可能无法转化为可操作的建议

虽然评估标准和指标为评估人工智能安全框架提供了需要改进哪些方面的信息，但并未提供如何改进的具体方法。

（二）这些标准很难客观衡量

许多评估标准依赖于抽象的概念，例如稳健性、可行性和透明度，这些概念很难精确客观地衡量。这部分是设计的一个特点，而不是缺陷。然而，由于缺乏可量化的指标，评估某些标准变得具有挑战性。因此，评估过程可能严重依赖定性评估和主观判断，这可能导致不同评分者给出的分数不一致和变化。

（三）该标准要求评估人员具备人工智能安全专业知识

一些标准，例如可信度和稳健性，要求评估人员具备相关的人工智能安全和治理专业知识。由于这种专业知识稀缺，因此能够可靠评估框架质量的人数有限。这似乎是不可避免的，但仍然值得注意。

（四）评估标准不可能详尽无遗

可能存在其他因素，这些因素是安全框架“优秀”的内在因素，而拟议的评估标准并未充分涉及。安全框架是新兴事物，本文目前对安全框架“优秀”的理解可能并不完整。因此，可能存在一些因素和考虑，这些因素和考虑在评估安全框架的质量时可能会至关重要。

（五）可能难以区分六个质量等级

建议的分级系统包括六个质量等级，而区分不同等级的细微差别可能过于依赖主观判断，导致评分过程中可能出现不一致和混乱。这个问题尤其与中间等级相关，因为与等级的两端相比，中间等级的质量差异可能不太明显。因此，评估人员可能很难给出高度精确的分数，这可能会限制分级系统在提供清晰可靠的人工智能安全框架评估方面的实用性。

（六）分级标准不会对评估标准进行不同的权衡

这些标准不太可能同等重要。例如，一个框架在可信度和稳健性上得分F，但在其他所有标准上得分A，这样的框架并不值得称赞。这就是本文不建议输出单一总评级的部分原因。因此，在每一项标准的评分和总体等级之间建立一种合理的对应关系可能是非常重要的。

五、结论

文章提出了人工智能安全框架的评分标准。该标准由七个评分标准组成。每个标准都可以从A（黄金标准）到F（不合格）进行评分。该评分标准是文章主要的贡献。文章强调，开发人工智能安全框架非常困难。任何安全框架的第一个版本都极有可能不够完善，人工智能公司需要不断改进其框架，使其更加健全完善。然而，不应由他们来决定自己的框架是否足够完善——他们不应“给自己打分”。这最终应由政府负责，并听取学术界和民间社会的意见。