神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:3 月 24 日,OpenAI 发布声明,就 ChatGPT 致用户信息泄露一事道歉,有关此类大型语言模型的风险和弊端再次显露在人们面前。除了隐私泄露的问题,多年来,研究人员还一直警告说,文本生成算法可能会产生有偏见的和虚假的信息。但科技巨头们还是急于将其应用于产品中。本文来自编译,希望对您有所启发。
ILLUSTRATION: JAMES MARSHALL
去年年底,在 OpenAI 的聊天机器人 ChatGPT 发布后的几周内,谷歌 AI 首席执行官杰夫·迪恩(Jeff Dean)就表示了,担心过快部署对话式搜索引擎可能会给 Alphabet 带来声誉风险。但今年谷歌还是发布了自己的聊天机器人 Bard,并在第一次演示中犯了一个“关于詹姆斯·韦伯太空望远镜”的事实错误。
在同一时期,微软将基于 ChatGPT 的技术整合到了必应搜索引擎中。微软负责人工智能的负责人莎拉·伯德(Sarah Bird)承认,虽然该技术仍然可以“幻化”出不真实的信息,但它已变得更加可靠了。在接下来的几天里,必应还声称跑步是 18 世纪发明的,并试图说服一名用户今年是 2022 年。
亚历克斯·汉纳(Alex Hanna)在这些事件中看到了一个熟悉的模式:将人工智能迅速商业化的经济激励,已经超过了对安全或道德的担忧。汉纳曾在谷歌的道德人工智能团队工作,现在是非营利组织“分布式人工智能研究中心”(Distributed AI research)的研究主管。他说,在责任或安全方面下功夫赚不到多少钱,但对技术的过度炒作却能带来很多好处。
制作大型语言模型的竞赛(用网络上的大量数据训练人工智能系统),以及将伦理作为人工智能设计过程核心部分的运动,几乎是在同一时间开始的。2018 年,谷歌推出了语言模型 BERT,不久之后,Meta、微软和英伟达也发布了基于人工智能的类似项目。同样在 2018 年,谷歌表示要重视人工智能伦理,据称将限制未来的项目。自那时起,研究人员就警告说,大型语言模型带有高度的道德风险,可能会输出有毒和仇恨的言论。此外这些模型也有捏造事实的倾向。
随着初创公司和科技巨头开始试图打造 ChatGPT 的竞争对手,一些业内人士怀疑,ChatGPT 是否已经改变了人们的观念,让人们已经没那么在意人工智能道德风险了,转而认为可以随时部署强大到足以生成逼真文本和图像的人工智能。
在过去几年中,OpenAI 发布模型的过程已经发生了变化。高管们表示,由于担心滥用问题及其对社会的影响,文本生成器 GPT-2 于 2019 年在几个月内分阶段发布(一些人批评这一策略是一种宣传噱头)。2020 年,其更强大的继任者 GPT-3 的训练过程被公开记录,但不到两个月后,OpenAI 开始通过面向开发人员的 API 将该技术商业化。到 2022 年 11 月,ChatGPT 的发布过程不包括任何技术论文或研究出版物,只有一篇博客文章、一个演示,以及很快随之而来的订阅计划。
开源人工智能初创公司 Hugging Face 的政策总监艾琳·索莱曼(Irene Solaiman)认为,外部压力有助于让 ChatGPT 等人工智能系统承担责任。她正在与学术界和工业界的人士合作,为非专家提供对文本和图像生成器进行测试的方法,以评估偏见和其他问题。索莱曼说,如果外部人员能够探测人工智能系统,企业将不再有借口避免测试输出偏差或气候影响等问题。索莱曼此前曾在 OpenAI 工作过,致力于降低系统的“毒性”。
索莱曼说,每次评估都只是一个了解人工智能模型的窗口,而并不代表它每次都一模一样地执行和输出同样的信息。但她希望能够识别和阻止人工智能造成的伤害,因为令人担忧的案例已经出现,包括游戏《AI Dungeon》的玩家使用 GPT-3 生成描述涉及儿童的性场景的文本。索莱曼说:“这是一个极端的例子,我们不能让这种情况发生。”
索莱曼在 Hugging Face 的最新研究发现,大型科技公司对 2018 年至 2022 年发布的生成式模型采取了越来越封闭的方式。Alphabet 的人工智能团队和 DeepMind 加速了这一趋势,在 GPT-2 分阶段发布后,人工智能领域的其他公司也更广泛地加入到了这一趋势中。索莱曼说,那些把自己的突破当作商业机密来保护的公司,也会让资源匮乏的被边缘化的研究人员更难接触到人工智能的前沿。
随着越来越多的资金投入到大型语言模型中,封闭式发布正在扭转整个自然语言处理领域历史上的趋势。毕竟研究人员历来都会分享有关训练数据集、参数权重和代码的细节,以提高结果的可重复性。
斯坦福大学博士亚历克斯·塔姆金(Alex Tamkin)的工作重点就是大型语言模型,他说:“我们对‘数据库系统是在什么基础上训练的,以及它们是如何评估的’相关知识了解越来越少,尤其是对于作为产品发布的最强大的系统。”
他认为,人工智能伦理学领域的人提高了公众意识,让他们意识到,当技术部署到数十亿人身上时,快速行动和打破常规是危险的。如果近年来没有这项道德工作,情况可能会更糟。
2020 年秋天,塔姆金与 OpenAI 的政策总监迈尔斯·布伦戴奇(Miles Brundage)共同主持了一场关于“大型语言模型的社会影响”的研讨会。跨学科小组强调,行业领导者需要制定道德标准,并在部署前进行偏见评估,并避免某些用例。
塔姆金认为,外部人工智能审计服务需要与基于人工智能的公司一起发展,因为内部评估往往达不到要求。他认为,包括社区成员和其他利益相关者在内的参与式评估方法,可以提高对创建人工智能模型的民主参与。
密歇根大学人工智能伦理和政策中心的研究主任莫维·希科克(Merve Hickok)表示,试图让公司搁置或戳破人工智能炒作,规范自己,并采用道德原则是不够的。她说,保护人权意味着从“讨论什么是道德的”转向“讨论什么是合法的”。
希科克和汉纳都在关注欧盟今年将敲定的《人工智能法案》(AI Act),看看它如何看待生成文本和图像的模型。希科克说,她特别感兴趣的是,欧洲立法者如何处理涉及“谷歌、微软和 OpenAI 等公司创建的模型”的损害责任。
希科克说:“有些事情需要强制执行,因为我们一次又一次地看到,如果不强制执行,这些公司就会继续打破常规,继续追求利润,而不管人们的权利和社区的利益。”
在布鲁塞尔讨论政策的同时,AI 的相关风险仍然很高。在 Bard 出现演示错误的第二天,Alphabet 的股价下跌了大约 1000 亿美元的市值。汉纳说:“这是我第一次看到因为如此大规模语言模型的错误,而造成的财富损失。”不过,她并不认为这将说服该公司放慢其急于让产品上市的步伐,“我的猜测是,演示错误不会真的成为一个警示故事。”
译者:Jane