当前位置:首页|资讯|OpenAI|人工智能|AGI

OpenAI的对齐研究方法

作者:星群译制组发布时间:2023-02-20

作者:Jan Leike, John Schulman & Jeffrey Wu

时间:2022年8月24日


我们对齐AGI的方法是经验性的和迭代的。我们正在提高AI系统从人类反馈中学习的能力,并协助人类评估AI。我们的目标是建立一个充分对齐的AI系统,可以帮助我们解决所有其他的对齐问题。


介绍

我们的对齐研究旨在使通用人工智能(AGI)与人类的价值观保持一致,并遵循人类的意图。我们采取了一种迭代的、经验性的方法:通过尝试对齐能力很强的AI系统,我们可以了解哪些是有效的,哪些是无效的,从而完善我们的能力,使AI系统更安全、更一致。利用科学实验,我们研究对齐技术如何扩展,以及它们会在哪些方面出现问题。


我们既要解决最有能力的AI系统中的对齐问题,也要解决在通往AGI的道路上预期会遇到的对齐问题。主要目标是尽可能地推动当前的对齐思想,并准确地理解和记录它们如何成功或为什么会失败。我们相信,即使没有根本性的新对齐思想,我们也可能建立充分对齐的AI系统,以大大推进对齐研究本身。


未对齐的AGI可能会给人类带来实质性的风险,解决AGI对齐问题可能非常困难,需要全人类一起努力。因此,我们致力于在安全的情况下公开分享我们的对齐研究。希望对我们的对齐技术在实践中的实际效果保持透明,希望每个AGI开发者都能使用世界上最好的对齐技术。


在高层次上,我们的对齐研究方法侧重于为非常聪明的AI系统设计一个可扩展的训练信号,与人类的意图相一致。它有三个主要的支柱:

  1. 利用人类的反馈训练AI系统

  2. 训练AI系统以协助人类评估

  3. 训练AI系统来进行对齐研究

使AI系统与人类的价值观相一致也带来了一系列其他重大的社会技术挑战,例如决定这些系统应该向谁看齐。解决这些问题对实现我们的使命很重要,但我们在这篇文章中不讨论这些问题。


使用人类反馈训练AI系统

来自人类反馈的RL是今天对齐我们部署的语言模型的主要技术。我们训练一类叫做InstructGPT的模型,它来自于预训练的语言模型,如GPT-3。这些模型被训练为遵循人类的意图:既包括指令给出的明确意图,也包括隐含的意图,如真实性、公平性和安全性。


我们的结果表明,现在有很多以对齐为重点的微调的低垂果实。InstructGPT比100倍大的预训练模型更受人类青睐,而它的微调成本小于GPT-3预训练计算量的2%,以及大约20,000小时的人类反馈。我们希望我们的工作能够激励行业中的其他人增加对大型语言模型对齐的投资,并且提高用户对部署模型安全性的期望值。


我们的自然语言API对于对齐研究是非常有用的环境。它为我们提供了丰富的反馈回路,让我们了解到对齐技术在现实世界中的实际效果,并以客户愿意付费的一组非常多样化的任务为基础。平均来说,客户已经喜欢使用InstructGPT而不是预训练模型。


然而,今天的InstructGPT版本离完全一致还有相当大的距离:它们有时不能遵循简单的指令,不总是真实,不能可靠地拒绝有害的任务,有时会给出有偏见或有毒的回应。一些客户发现InstructGPT的反应明显不如预训练模型有创造性,这是我们在公开的基准上运行InstructGPT所没有意识到的。我们还在努力发展对基于人类反馈的RL以及如何提高人类反馈质量的更细致的科学理解。


对齐OpenAI的API要比对齐AGI容易得多,因为API上的大多数任务对人类来说并不难监督,而且部署的语言模型也不比人类聪明。我们并不期望来自人类反馈的RL足以对齐AGI,但它是我们最感兴趣的可扩展对齐思路的核心构件块,因此完善这一方法很有价值。


训练模型以协助人类评估

基于人类反馈的RL有一个基本的限制:它假设人类可以准确地评估AI系统正在做的任务。今天,人类在这方面相当擅长,但随着模型的能力越来越强,它们将能够完成人类更难评价的任务(例如,在一个大型代码库或一篇科学论文中找到所有的缺陷)。模型可能会学会告诉人类评估者他们想听到的东西,而不是告诉他们真相。为了扩展对齐,我们希望使用递归奖励建模(RRM)、辩论和迭代放大等技术。


目前我们的主要方向是基于RRM:我们训练的模型可以协助人类在那些人类难以直接评估的任务上评估模型。比如说。

  • 我们训练了模型来总结书籍。如果人类不熟悉这本书,评估书籍摘要需要很长的时间,但模型可以通过写章节摘要来协助人类评估。

  • 我们训练了模型,通过浏览网络并提供引文和链接来协助人类评价事实的准确性。在简单的问题上,这个模型的输出已经优于人类写的回答。

  • 我们训练了模型,让它对自己的输出结果写出批评意见。在一个基于查询的总结任务中,批评性评论的帮助使人类在模型输出中发现的缺陷平均增加了50%。即使要求人类写出看起来合理但不正确的总结,这一点也是成立的。

  • 我们正在创建一组编码任务,这些任务被选定为非常难以对没有协助的人类进行可靠的评估。我们希望能很快发布这个数据集。

即使AI系统提出了非常有创意的解决方案(如AlphaGo的第37步棋),我们的对齐技术也需要发挥作用,因此我们对训练模型特别感兴趣,以协助人类区分正确与误导或欺骗性的解决方案。我们相信,尽可能多地了解如何使AI辅助评估在实践中发挥作用的最好方法是建立AI助手。


训练AI系统来做对齐研究

目前还没有已知的可无限扩展的对齐问题的解决方案。随着AI的不断进步,我们预计会遇到一些新的对齐问题,这些问题我们在目前的系统中还没有观察到。其中有些问题我们现在就能预见到,有些将是全新的。


我们相信,找到可以无限扩展的解决方案可能是非常困难的。相反,我们的目标是采取一种更务实的方法:建立和对齐一个系统,使其能够比人类更快、更好地取得对齐研究进展。


随着我们在这方面取得进展,AI系统可以接管越来越多的对齐工作,并最终构思、实施、研究和开发比我们现在更好的对齐技术。它们将与人类一起工作,确保自己的继任者与人类更加一致。


我们相信,评估对齐研究比生产对齐研究要容易得多,特别是在提供评估帮助的情况下。因此,人类研究人员将把越来越多的精力放在审查AI系统所做的对齐研究上,而不是自己去做这种研究。目标是将模型训练得如此一致,以至于我们可以转嫁对齐研究所需的几乎所有认知劳动。


重要的是,我们只需要在相关领域具有人类水平的能力的 "较窄的 "AI系统,就能在对齐研究上做得和人类一样好。我们期望这些AI系统比通用系统或比人类聪明得多的系统更容易对齐。


语言模型特别适合于自动对齐研究,因为它们 "预装 "了很多关于人类价值的知识和阅读互联网的信息。默认情况下,它们并不是独立的智能体,因此不会在这个世界上追求自己的目标。为了进行对齐研究,他们不需要不受限制地访问互联网。然而,很多对齐研究任务可以被表述为自然语言或编码任务。


未来版本的WebGPT、InstructGPT和Codex可以提供作为对齐研究助手的基础,但它们还没有足够的能力。虽然不知道我们的模型何时能有足够的能力为对齐研究做出有意义的贡献,但我们认为提前开始很重要。一旦训练出可能有用的模型,我们计划将其提供给外部社区做对齐研究。


局限性

我们对这种对齐AGI的方法感到非常兴奋,但我们预计,随着对人工智能技术的发展有更多的了解,它需要被调整和改进。我们的方法也有一些重要的局限。

  • 这里阐述的路径没有强调鲁棒性和可解释性研究的重要性,而这两个领域是OpenAI目前投资不足的。如果这符合你的条件,请申请我们的研究科学家职位。

  • 使用AI辅助评估有可能扩大或放大AI助手中存在的甚至微妙的不一致、偏见或漏洞。

  • 对齐AGI可能涉及解决与对齐今天的AI系统非常不同的问题。我们希望这一转变在某种程度上是连续的,但如果有重大的不连续性或范式转变,那么从对齐InstructGPT等模型中吸取的大多数教训可能不会直接有用。

  • 对齐问题中最难的部分可能与为AI系统设计一个可扩展的、对齐的训练信号无关。即使这是真的,这样的训练信号仍是必要的。

  • 从根本上说,能够有意义地加速对齐研究的模型可能并不比对齐AGI容易。换句话说,能够帮助对齐研究的最没有能力的模型如果没有适当的对齐,可能已经太危险了。如果这是真的,我们不会从自己的系统中得到多少帮助来解决对齐问题。

我们正在为这一研究方向招聘更多的优秀人才! 如果你对此感兴趣,我们正在招聘研究工程师和研究科学家!



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1