用迭代放大法学习复杂目标

作者：星群译制组发布时间：2023-02-20

作者：Paul Christiano & Dario Amodei (OpenAI)

时间：2018年10月22日

https://openai.com/blog/amplifying-ai-training/

我们提出了一种叫做迭代放大（Iterated Amplification）的AI安全技术，它可以让我们指定超出人类规模的复杂行为和目标，通过演示如何将一个任务分解成更简单的子任务，而不是通过提供标注的数据或奖励函数。虽然这个想法处于非常早期的阶段，只在简单的玩具算法领域完成了实验，但我们决定在其初步状态下提出它，因为我们认为它可以证明是一种可扩展的AI安全方法。

https://arxiv.org/abs/1810.08575

如果想训练ML系统来执行一项任务，我们需要一个训练信号--一种评估它做得如何的方法，以帮助它学习。例如，监督学习中的标签或强化学习中的奖励就是训练信号。ML的形式主义通常假设训练信号已经存在，并专注于从它那里学习，但在现实中，训练信号必须来自某处。如果没有训练信号，就不能学习任务，如果有错误的训练信号，会得到非预期的，有时是危险的行为。因此，提高产生训练信号的能力，对学习新任务和AI的安全都很有价值。

目前是如何产生训练信号的？有时，我们想要的目标可以通过算法进行评估，比如在围棋比赛中计算分数，或者检查一组数字是否被成功排序（下图的左侧面板）。大多数现实世界的任务并不适合用算法训练信号，但我们往往可以通过让人类执行任务（例如，标记训练集或演示RL任务），或判断人工智能在任务上的表现来获得训练信号（下图中间部分）。然而，许多任务是如此复杂，以至于人类无法判断或执行它们--例子可能是设计一个复杂的交通系统或管理一个大型计算机网络安全的每一个细节（下图的右面板）。

迭代放大是一种在某些假设下为后一类任务生成训练信号的方法。也就是说，虽然人不能直接执行或判断整个任务，但我们假设人可以在给定任务的一部分后，明确识别它由哪些小的部分组成。例如，在联网计算机的例子中，人类可以将 "保卫服务器和路由器的集合" 分解为 "考虑对服务器的攻击"，"考虑对路由器的攻击"，以及 "考虑前两种攻击可能的互动"。此外，我们假设人类可以完成非常小的任务实例，例如 "识别一个日志文件中的特定行是否可疑"。如果这两点成立，那么我们可以从人类对小任务的训练信号中建立起大任务的训练信号，用人类来协调它们的组装。

在我们的放大实现中，我们首先对小的子任务进行采样，并通过向人类（能做这些小任务的人）征求示范，来训练AI系统做这些任务。然后，我们开始对稍大的任务进行采样，通过要求人类将其分解成小块来解决这些任务，经过前一步训练的AI系统现在可以解决这些任务。我们使用这些在人类帮助下获得的稍难的任务的解决方案作为训练信号，训练AI系统直接解决这些二级任务（没有人类帮助）。然后，我们继续进一步合成任务，一边迭代一边建立训练信号。如果这个过程奏效，最终的结果是一个完全自动化的系统，尽管开始时没有这些任务的直接训练信号，但也能解决高度复合的任务。这个过程有点类似于专家迭代（AlphaGo Zero中使用的方法），只不过专家迭代是强化现有的训练信号，而迭代放大是从头开始建立训练信号。它还与最近的一些学习算法有共同之处，这些算法在测试时使用问题分解来解决一个问题，但不同的是，它在没有事先训练信号的环境中运行。

实验

正如我们之前通过辩论（debate）进行的AI安全工作一样，直接对超出人类规模的任务进行研究，对于一个原型项目来说太难了。另外，使用一个真正的人作为训练信号会带来复杂的问题，所以我们还没有这样做（尽管计划在未来这样做）。在第一次实验中，我们转而尝试放大一个算法训练信号，以表明迭代放大在这个简单的环境中是可行的。我们还将注意力限制在监督学习上（与之前在RL中对人类训练信号的工作不同）。我们在五个玩具算法任务上尝试了这个方法。这些任务有直接的算法解决方案，我们假装不知道（例如，找到图形上两点之间最短的路径）。这些问题也可以通过拼凑小的单步推理来解决（例如，将两条路径合并成一条较长的路径），但手动拼凑一切需要花费指数级的努力。我们使用迭代放大法来学习直接算法，只使用碎片作为训练信号，从而模拟人类知道如何组合解决方案的子碎片，但无法提供直接的训练信号的情况。

在这五项任务中的每一项（排列组合、顺序分配、通配符搜索、最短路径和联合查找），我们都能够通过监督学习直接学习任务，尽管因为没有直接的训练信号而受到阻碍（这里的目标是用较少的信息来匹配监督学习，而不是超越它）。

放大法与我们之前通过辩论进行的AI安全工作有共同的特点。与辩论一样，它试图通过一个允许人类提供间接监督的迭代过程来训练那些超出人类能力的任务--然而具体方法是不同的。它还建立在关于人类反馈的工作之上，通过实现一个奖励预测系统，它的后期版本可能会包括来自实际人类的反馈。到目前为止，我们已经初步探索了所有这些方法，现在正在努力扩大它们的规模，以解决更多有趣和现实的问题。

如果你有兴趣帮助我们扩展像迭代放大这样的工具来建立安全、强大的人工智能，那么可以考虑加入OpenAI。