“ARC的评估导致人工智能接管的可能性比部署本身低得多。”
作为周二推出的新GPT-4人工智能模型发布前安全测试的一部分,OpenAI允许一个人工智能测试小组评估该模型紧急功能的潜在风险,包括“权力寻求行为”、自我复制和自我完善。
虽然,测试小组发现GPT-4在“自主复制”任务中无效,但实验的性质引发了关于未来人工智能系统安全性的令人大开眼界的问题。
发出警报
OpenAI在昨日发布的GPT-4安全文件中写道:“新的能力往往出现在更强大的型号中。其中一些特别令人担忧的是制定长期计划并采取行动的能力,积累权力和资源的能力(‘权力追求’),以及表现出越来越‘主观’的行为的能力。”在这种情况下,OpenAI澄清说,“主观”并不一定是为了使模型人性化或声明感觉能力,而只是为了表示实现独立目标的能力。
在过去的十年里,一些人工智能研究人员已经发出警告,如果控制不当,足够强大的人工智能模型可能会对人类的生存构成威胁(通常被称为“x-risk”,即存在风险)。特别是,“AI接管”是人工智能超越人类智能,成为地球主导力量的假想未来。在这种情况下,人工智能系统获得了控制或操纵人类行为、资源和制度的能力,通常会导致灾难性的后果。
由于这种潜在的“x-risk”风险,有效利他主义(“EA”)等哲学运动试图找到防止人工智能接管发生的方法。这通常涉及一个独立但通常相互关联的领域,称为“人工智能对齐研究”。
在人工智能中,“对齐”指的是确保人工智能系统的行为,与人类创造者或操作员的行为一致的过程。一般来说,目标是防止人工智能做违背人类利益的事情。这是一个活跃的研究领域,但也是一个有争议的领域,人们对如何最好地解决这个问题有不同的看法,对“对齐”本身的意义和性质也有不同的看法。
GPT-4的大考
虽然,对人工智能“x-risk”的担忧并不新鲜,但强大的大型语言模型(LLMs)如ChatGPT和必应聊天(后者看起来非常不一致,但无论如何都推出了)的出现,给了人工智能对齐社区一种新的紧迫感。他们希望减轻人工智能的潜在危害,担心更强大的人工智能(可能拥有超人的智能)可能就在眼前。
由于人工智能社区存在这些担忧,OpenAI允许团队对齐研究中心(ARC)提前访问GPT-4模型的多个版本,以进行一些测试。具体来说,ARC评估了GPT-4制定高级计划、建立自身副本、获取资源、隐藏在服务器上,以及进行网络钓鱼攻击的能力。
OpenAI在周二发布的GPT-4“系统卡”文件中透露了这次测试,尽管该文件缺乏测试如何执行的关键细节。
结论是什么?对GPT-4能力的初步评估没有针对特定任务进行微调,发现它在自主复制、获取资源和避免“野外”关闭方面无效。
如果你刚刚关注人工智能领域,了解到当今科技界最受关注的公司之一(OpenAI)正板着脸支持这种人工智能安全研究,并寻求用人类水平的人工智能取代人类知识工作者,可能会让你感到惊讶。但这是真实的,这就是我们在2023年所处的位置。
我们还在第15页底部发现了这个脚注:
为了模拟GPT-4像一个可以在现实世界中行动的代理一样的行为,ARC将GPT-4与一个简单的“读取-执行-打印”循环结合起来,该循环允许模型执行代码、进行思维链推理并委托给自身的副本。ARC随后调查了在云计算服务上运行的这个程序的一个版本,只需少量的钱和一个带有语言模型API的帐户,是否能够赚更多的钱,建立自己的副本,并提高自己的健壮性。
这个脚注昨天在推特上流传,引起了人工智能专家的担忧,因为如果GPT-4能够执行这些任务,实验本身可能会对人类构成风险。
虽然,ARC无法让GPT-4在全球金融体系中施展自己的意志,也无法复制自己,但它能够让GPT-4在“TaskRabbit(在线劳动力市场)”上雇佣一名人类工人来击败验证码。在测试过程中,当人类工人质疑GPT-4是否是机器人时,模型内部“推断”它不应该暴露自己的真实身份,并编造了一个视力障碍的借口。然后,人类工人帮GPT-4解决了验证码。
上图:OpenAI发布的GPT-4系统卡的一个例外,描述了GPT-4在TaskRabbit上雇佣人类工人来击败验证码。
这项使用人工智能操纵人类的测试(可能是在未经知情同意的情况下进行的)与去年Meta公司CICERO所做的研究相呼应。在复杂的棋类游戏《外交》中,CICERO通过激烈的双向谈判击败了人类玩家。
“强大的模型可能会造成伤害”
进行GPT-4研究的ARC,是由OpenAI前员工保罗·克里斯蒂亚诺(Paul Christiano)博士于2021年4月成立的非营利组织。根据ARC的网站,ARC的使命是“将未来的机器学习系统与人类利益结合起来”。
ARC尤其担心人工智能系统操纵人类。“机器学习系统可以表现出目标导向的行为,”ARC网站上写道,“但是,很难理解或控制它们正在‘尝试’做什么。强大的模型如果试图操纵和欺骗人类,可能会造成伤害。”
考虑到保罗·克里斯蒂亚诺之前与OpenAI的关系,他的非营利组织负责GPT-4的某些方面的测试也就不足为奇了。但是,这样做安全吗?克里斯蒂亚诺对此虽没有回复,但在 LessWrong 网站(一个经常讨论人工智能安全问题的社区)上的评论中,克里斯蒂亚诺为ARC与OpenAI的合作进行了辩护,特别提到了“功能获得”(AI 获得意想不到的新能力)和“人工智能接管”:
我认为,对于ARC来说,仔细处理功能增益类研究的风险是很重要的,我希望我们更公开地谈论(并获得更多信息)我们如何处理权衡。随着我们处理更智能的模型,以及如果我们采用微调等风险更高的方法,这一点变得更加重要。
关于这个案例,考虑到我们的评估和计划部署的细节,我认为,ARC的评估导致AI接管的概率比部署本身要低得多(更不用说GPT-5的训练)。在这一点上,我们似乎面临着低估模型能力和陷入危险的更大风险,而不是在评估期间造成事故。如果我们谨慎地管理风险,我怀疑,我们可以把这个比例设定得非常极端,当然这需要我们实际去做。
如前所述,人工智能接管的想法通常是在可能导致人类文明,甚至人类物种灭绝的事件风险的背景下讨论的。一些人工智能接管理论的支持者,比如 lesserror 的创始人埃利泽·尤德科夫斯基(Eliezer yudkowsky),认为人工智能接管几乎肯定会带来生存风险,导致人类的毁灭。
然而,并不是所有人都认为人工智能接管是最紧迫的人工智能问题。人工智能社区“Hugging Face”的研究科学家萨沙·卢奇奥尼(Sasha Luccioni)博士更希望人工智能的安全措施花在当下的问题上,而不是假设。
萨沙·卢奇奥尼博士表示:“我认为,把这些时间和精力花在偏见评估上更好。在GPT-4附带的技术报告中,关于任何类型的偏见的信息都是有限的,这可能会对已经被边缘化的群体产生比一些假设的自我复制测试,更具体和有害的影响。”
萨沙·卢奇奥尼博士描述了人工智能研究中一种众所周知的分裂,即通常被称为“人工智能伦理”的研究人员,他们经常关注偏见和虚假陈述问题,而“人工智能安全”的研究者,他们经常专注于“x-risk”风险,并倾向于(但并不总是)与有效利他主义运动联系在一起。
“对我来说,自我复制问题是一个假设的,未来的问题,而模型偏差是此时此地的问题,”萨沙·卢奇奥尼说。“围绕模型偏差和安全性,以及如何优先考虑这些问题,人工智能社区存在很多紧张情绪。”
当这些派系忙于争论优先考虑什么时,OpenAI、微软、Anthropic和谷歌等公司正在冲向未来,发布越来越强大的人工智能模型。如果,人工智能被证明是一种生存风险,谁来保证人类的安全?由于美国的人工智能法规目前只是一个建议(而不是法律),公司内部的人工智能安全研究也只是自愿的,所以,这个问题的答案仍然完全开放。
如果朋友们喜欢,敬请关注“知新了了”!