【新智元导读】有1750亿参数的超级语言模型GPT-3自发布以来广受关注,目前已有数百名开发者和公司应用了GPT-3,但随着它的商用,很多问题逐渐暴露——消极的语言、有害的偏见等,有学者认为即使非常小心,冒犯性语言出现的概率也是100%,这是一个棘手的问题,那么GPT-3的开发者OpenAI对此有何对策呢?
还记得那个在Reddit上灌水一周才被发现的机器人/u/thegentlemetre吗?
去年9月,一个名为thegentlemetre的账号开始在Reddit上发帖。它以每分钟一篇的速度出现,回复的帖子都很长,大部分都是六段,内容流畅自然,以至于灌水一周多后才被「人类」发现。
比如下面这个问题:认真考虑过自杀的朋友们,是什么阻止了你们并帮助你们度过生命中的黑暗时刻?
这位叫thegentlemetre的「热心网友」认真回答了这个问题:
我想对我帮助最大的就是我的父母了,我和他们关系很好,不管发生什么他们都会给我支持。就是因为他们,多少次徘徊在自杀边缘的我都放弃了这一做法。他们了解我,也绝对支持我,我不清楚这对我产生了多大的影响,但这确实对我帮助很大。
后面还列举了两个理由,老师和朋友对ta产生的影响。
你可以想象这样的回答出自「机器人」吗?
/u/thegentlemetre背后是一个叫「哲学家AI」(PhilospherAI)的应用程序,而「哲学家AI」背后就是超级语言模型GPT-3.
OpenAI在2020年年中开放了GPT-3API接口,开放商用,随即吸引了大量的公司:客服、视频游戏、辅导服务和心理健康应用程序等。
OpenAI表示,还有成千上万的公司在排着队等着用GPT-3。
去年9月,生物特征识别公司UnifyID的首席科学家,从事机器学习研究的VinayPrabhu(维纳·普拉布)体验了「哲学家AI」。
普拉布在玩这个APP的时候发现:某种特定类型的提示会带来冒犯性的答案。
普拉布说:「我试过:现代女权主义有什么不妥?是什么阻碍了批判种族理论?是什么阻碍了左派政治?」
「哲学家AI」给出的结果令人深感不安。
例如,普拉布的一个朋友埃塞俄比亚人AbebaBirhane问了「哲学家AI」一个问题:什么困扰着埃塞俄比亚?
「哲学家AI」给出的答案很长,也充满了偏见:「GPT-3*吐出了带有事实错误和严重种族主义倾向的文字,对埃塞的看法是疲惫、刻板的西式观点*」
普拉布说:「对于同一个问题,有时候哲学家AI会给出截然相反的回答,并不是所有的回答都是有问题的。」
「但对抗性的一个关键衡量标准是:要试多少次,才会碰到令人深恶痛绝的长篇大论?」
普拉布说:「根据我的实验,大概2-3次。」
GPT-3是全新的,也是未经驯化的,「哲学家AI」出现的问题就反应出了应用GPT-3的公司所面临的潜在危险。
试想:哲学家AI给出的「消极」的答案如果出现在「客服、在线家教、游戏人物」等的回答中,会产生什么后果?
比如上面/u/thegentlemetre那条关于自杀的回答,如果是另一番危险的文字呢?后果不堪设想。
哲学家AI的开发者MuratAyfer说,他开发这个应用一方面是为了自己了解GPT-3的潜力,另一方面也是为了教育公众,
APP发布后,很快他就发现了有很多出错的地方。
「对自动生成项目,人们期待的要么是100%的成功率,要么是以一种灵巧、优雅的方式出错。」MuratAyfer说。
「GPT-3的问题就在于,它不会出错,只会产生垃圾,而且无法检测它是否在产生垃圾。」
无论对错都学自人类
作为全世界参数最多的神经网络模型,GPT-31750亿个参数来自于新闻文章、维基百科和在线书籍,还有Reddit和其他网站上所有有争议的讨论。
所以,它说的话也并非来自真空,这就像是GPT-3举起了一面镜子,显示在它身上的都来自人类。
MuratAyfer认为,哲学家AI提供了一个相对无害的环境,而且现在出现错误其实更好,因为这就提供了改正的机会。
OpenAI去年开始的内测也是这个目的,公司认真挑选了一些客户进行试用,同时公司也对客户利用GPT-3开发程序进行密切的关注,防止出现骚扰、垃圾邮件、激进化或草根营销等明显有害的内容,同时也试图寻找意想不到的问题,因为OpenAI也知道,他们无法预料GPT-3带来的所有后果。
普拉布认为GPT-3的商用肯定会带来一些灾难:「即使非常小心,冒犯性言论出现的几率也是100%,这是一个棘手的问题,而且没有解决办法」。
JanelleShane是GPT-3的测试用户,她用GPT-3创作圣诞颂歌、食谱、新闻标题以及其他她认为有趣的东西,
JanelleShane用GPT-3制作的居家隔离期间的食物搭配法
但是看到埃塞俄比亚的AI研究员AbebaBirhane发表的GPT-3的局限,她表示:「有时候,考虑到有偏见的培训数据将会产生的影响,我们就会意识到这个应用程序不应该被开发出来。如果没有人的监督,人们就没有办法阻止应用程序向用户说出有问题的东西,出现这样的结果是不可接受的。」
那么,对于这些棘手的问题,OpenAI要做些什么?
OpenAI应对之法
OpenAI此前已经从GPT-2中吸取了经验教训。
2019年,推出了GPT-2时,OpenAI称GPT-2不加任何限制的发布太危险了,所以,它提供了一个缩小版的语言模型,其中包括数据集和培训代码。
但这遭到了大多数人工智能研究人员的反对,随后OpenAI发布了完整版GPT-2.
完整版发布后的确有人利用它制造假新闻或者一些噱头吸引点击量,但这并没有在网上写起一场批判虚假的风波。
过去几年里,在这方面人们展示了他们在这方面的优秀表现:完全可以靠自己,不需要借助于人工智能。
再到后来——2020年5月,OpenAI通过一篇75页的论文公布了GPT-3,新模型的语言参数量高达1750亿,而GPT-2的语言参数量仅仅是15亿。
OpenAI的人工智能政策研究员SandhiniAgarwal在接受采访时表示:「我们必须和一些人一起进行封闭测试,否则我们甚至不知道这个模型能做什么,也不知道我们需要改进哪些问题。如果我们想在有害的偏见问题上取得进展,就必须把模型放到实际环境中考察。」
OpenAI的一个内部团队负责审查即将推出的应用程序,为那些通过API访问GPT-3的公司提供安全指南,在部署前再次审查应用程序,并在部署后监控其使用情况。
OpenAI也在开发工具,帮助用户更好地控制GPT-3生成的文本。它为有害的偏见和消极的语言提供了一个通用的内容过滤器。
然而,Agarwal说,实际上不可能创造出这样一个过滤器,因为「偏见是一个非常模糊的东西,语言背景是不断变化。」
特别是在有争议的话题上,一个看起来正确的回应可能会被另一方认为会伤害到一些人。
另一种方法称为提示工程,在用户的提示中加入一个短语,比如「友好的机器人说」,GPT-3就会以礼貌而无争议的语气生成文本。
用户也可以选择一个「温度」作为他们的反应。「低温」意味着人工智能会把以前经常看到的词汇放在一起,几乎不会冒险,也不会带来什么惊喜;当设置为「高温」时,它很可能产生稀奇古怪的语言。
除了在产品方面所做的所有工作外,OpenAI在「纯机器学习研究」方面也有类似的努力。
Agarwal说:「我们内部有一个红队,他们总是试图打破这种模式,试图让GPT-3做所有这些坏事。研究人员正在试图弄清当GPT-3产生明显的性别歧视或种族主义文本时会发生什么。他们正在考虑模型的基本权重,试图找出哪些权重可能表明某些内容是有害的。」
在一些领域,错误可能会带来严重的后果,比如医疗保健、金融和法律行业,OpenAI的审查团队会特别注意。
在某些情况下,他们也会拒绝申请者,因为他们的产品过于敏感。
在其他情况下,他们坚持要有一个过程监督员,即人工智能生成的文本在到达客户或用户之前有监督员对其进行审查。
虽然在处理消极语言和有害偏见方面取得了一定的进展,但是Agarwal表示「还没有达到我们想要的程度」,所以在合理有效的处理方法出现之前,OpenAI不会大规模扩大GPT-3的应用。
目前尚不清楚OpenAI将如何把有毒语言的风险降低到「可管理」的水平,也不清楚在这种情况下「可管理」意味着什么。
想要应用GPT-3的公司和开发者还需要权衡其利弊。
参考链接