自家员工忍不了，13名OpenAI、谷歌前任现任员工签署联名信，警告前沿AI公司

作者：CSDN发布时间：2024-06-06

越接近真相的人，往往越知道其风险。

人工智能目前的发展路径是否健康，还是暗藏危险，还是精通 AI 技术且在全球顶尖的 AI 公司内部接近生产一线的人，更有发言权。

而就在刚刚，这些人不再保持沉默，发布了联名签署的公开信。今日凌晨，13名来自 OpenAI 及谷歌 DeepMind 的前任及现任员工，发布公开信剑指包括 OpenAI 在内的前沿 AI 科技公司的鲁莽和保密文化，阐明目前人工智能行业缺乏足够监管、需要全面改革，并呼吁领先人工智能公司建立更高的透明度并为吹哨人提供更多保护。

该份公开信刊载在 righttowarn.ai 网站上，网站域名和公开信的标题皆在捍卫这些顶尖 AI 公司员工对先进人工智能发出警告的权利。

信件的正文如下：

我们是前沿人工智能公司的现任和前任员工，我们相信人工智能技术有潜力为人类带来前所未有的利益。

我们也了解这些技术带来的严重风险。这些风险包括进一步加剧现有的不平等、操纵和误导信息，以及失去对自主人工智能系统的控制，可能导致人类灭绝。人工智能公司本身已经承认了这些风险，世界各国政府和其他人工智能专家也承认了这些风险。

我们希望，在科学界、政策制定者和公众的充分指导下，这些风险能够得到充分缓解。然而，人工智能公司有强烈的经济动机来逃避有效的监督，我们认为定制的公司治理结构不足以改变这一现状。

人工智能公司掌握着大量非公开信息，包括其系统的能力和局限性、保护措施的充分性以及不同类型伤害的风险水平。然而，它们目前只有很弱的义务向政府分享部分信息，而对民间社会则没有任何义务。我们认为，不能指望它们都自愿分享这些信息。

只要政府对这些公司没有有效的监督，现任和前任员工就是少数可以要求他们向公众负责的人。然而，广泛的保密协议阻止我们表达我们的担忧，除非向那些可能未能解决这些问题的公司表达。普通的举报人保护措施是不够的，因为这些公司侧重于非法活动，而我们担心的许多风险尚未受到监管。鉴于整个行业都发生过此类案件，我们中的一些人有理由担心各种形式的报复。我们并不是第一个遇到或谈论这些问题的人。

因此，我们呼吁前沿人工智能公司遵守以下原则：

公司不会签订或执行任何禁止因风险相关问题而对公司进行“贬低”或批评的协议，也不会通过妨碍任何既得经济利益来报复与风险相关的批评；

公司将为现任和前任员工提供可验证的匿名流程，以便他们向公司董事会、监管机构以及具有相关专业知识的适当独立组织提出与风险相关的担忧；

公司将支持公开批评的文化，并允许其现任和前任员工向公众、公司董事会、监管机构或具有相关专业知识的适当独立组织提出对其技术的风险相关担忧，只要商业秘密和其他知识产权利益得到适当保护；

公司不会对在其他流程失败后公开分享风险相关机密信息的现任和前任员工进行报复。我们承认，任何报告风险相关问题的努力都应避免不必要地泄露机密信息。因此，只要存在向公司董事会、监管机构和具有相关专业知识的独立组织匿名提出疑虑的恰当流程，我们就会接受首先应通过此类流程来提出疑虑。但是，只要不存在这样的流程，现任和前任员工就应保留向公众报告其疑虑的自由。

在公开信的署名栏，可以看到签署公开信的多位 OpenAI 前任雇员曾从事人工智能安全工作。

一起签署的，还有1名谷歌 DeepMind 现员工和1名谷歌 DeepMind 前员工，其中谷歌 DeepMind 的这名现员工，也是 Anthropic 的前员工。

此外，为公开信背书的业内大佬还有两位“人工智能教父”Geoffrey Hinton 和 Yoshua Bengio，以及 AI 安全领域的顶尖专家 Stuart Russell。

OpenAI 前员工和现员工揭竿而起

这次的团体组织者，正是 OpenAI 治理部门前研究员 Daniel Kokotajlo。

这是一个由前任和现任员工组成的团体，该团体表示，OpenAI 存在一种鲁莽的文化。该组织由9名 OpenAI 现任和前任员工组成，多从事人工智能安全工作，最近几天他们举行了集会，共同担心该公司在防止其人工智能系统变得危险方面，做得并不到位。

OpenAI 最初是一个非营利性研究实验室，并于2022年发布 ChatGPT 后进入公众视野，该组织在尝试构建通用人工智能（AGI）时将利润和增长放在首位。Daniel Kokotajlo 表示：“OpenAI 对于构建 AGI 感到非常兴奋，他们正在不顾一切地竞相成为第一个实现这一目标的人。”

此次联名公开信，OpenAI 的相关参与者有7名 OpenAI 前员工、4名现任匿名员工。信中呼吁前沿 AI 公司的“不会对在其他流程失败后公开分享风险相关机密信息的现任和前任员工进行报复”的条目，明显与最近频频爆出管理内幕的 OpenAI 有关。

超级对齐团队的负责人 Ilya Sutskever 和 Jan Leike 于5月中旬相继离开 OpenAI，他们正是公司安全风险的吹哨人，其团队负责确保 AI 始终与其制造者的目标一致，不会做出不可预测的行为进而对人类造成伤害。

此外，另一位吹哨人、前 OpenAI 安全研究员 Leopold Aschenbrenner，在与联名信同日发布的 Dwarkesh Podcast 采访中，也透露了更多关于遭遇解雇的细节：

Aschenbrenner 表示，他因向董事会分享了一份备忘录，表达了对 OpenAI 安全实践的担忧，于今年4月被解雇。Leopold Aschenbrenner 还表示，他被问及团队是否“对公司忠诚”OpenAI 声称他因泄露一份包含敏感信息的文件而被解雇，但他否认了这一指控。

“我写了一份关于 OpenAI 安全的内部备忘录，我认为这份备忘录严重不足，无法防止外国势力窃取模型权重或关键算法机密，”Aschenbrenner 说，并指出他“与几位同事和几位领导分享了这份备忘录，他们大多表示这份备忘录很有帮助。”

几周后，OpenAI 遭遇了一次重大安全事故，这促使他“将这份备忘录分享给了几位董事会成员”。但他很快就受到了斥责。“我很清楚，领导层对我与董事会分享这份备忘录非常不满，”他说。“显然，董事会就安全问题向领导层提出了质问。”

他因此收到了“人力资源部门的正式警告”。虽然他没有立即被解雇，但几个月后他被解雇时，公司告诉他，这一事件是导致他被解雇的一个因素。“当我被解雇时，公司明确表示安全备忘录是我被解雇的主要原因。”

Aschenbrenner 被解雇前发生的事，据他所说，并没有什么大不了的。Aschenbrenner 写了一份关于“准备、安全和安保措施”的文件，并与一些外部研究人员分享了这份文件。这“在当时的 OpenAI 完全正常”，其中的敏感信息已被删除。

而 OpenAI 则告诉 Aschenbrenner ，该文件包含敏感信息，因为其包含“一行关于 2027-2028 年 AGI 规划的内容”。但 Aschenbrenner 表示，这个规划时间表是公开信息：OpenAI 曾在自己的准备文件中提到希望在四年内解决对齐问题，该文件在 Aschenbrenner 分享自己的文件几个月前就已发布。

在 Aschenbrenner 看来，OpenAI 似乎在找理由解雇他。在被解雇之前，一名律师问过他“我对人工智能发展的看法、对 AGI 的看法、AGI 的适当安全级别、政府是否应该参与 AGI、我和超级对齐团队是否忠于公司，以及我在 OpenAI 董事会活动期间做了什么”。值得注意的是，他是极少数在董事会解 Sam Altman 后没有签署呼吁他回归的信函的 OpenAI 员工之一。其中许多员工后来离开了公司。

在联名公开信中，OpenAI 现任和前任员工发称，他们中的许多人担心因提出担忧而遭到“报复”。对于其有关保护吹哨人的呼吁，OpenAI 尚未回应置评请求。

在联名信中的引用部分，摘录了OpenAI此前的言论：“AGI 还可能带来严重的误用风险、重大事故和社会混乱……我们将像这些风险是存在一样来运营。”

明显，人心并不为此言论买单。

谷歌DeepMind与Anthropic也在风险之中？

除 OpenAI 相关人员外，此次联名签署的还包括1名谷歌 DeepMind 现员工 Neel Nanda 和1名谷歌 DeepMind 前员工 Ramana Kumar。其中谷歌 DeepMind 的这名现员工 Neel Nanda，之前就职于 Anthropic。

Neel Nanda 毕业于剑桥大学，从其工作经历来看，同样具备AI安全背景。

“我认为我工作的主要目标是降低人工智能带来的生存风险，我认为自己是有效利他主义和理性社区的一分子。在此之前，我从事独立的机械可解释性研究，并在 Anthropic 担任语言模型可解释性研究员，在 Chris Olah 手下工作。”Neel Nanda 在其个人主页写道。

Neel Nanda 的工作与前上司一脉相承。Christopher Olah 是 Anthropic 的联合创始人之一。正是当初因安全意见与前公司相左而离开 OpenAI，并加入 Anthropic 的元老成员之一。

Christopher Olah 在其 GitHub 的一篇博客中写道：“我致力于将人工神经网络逆向工程为人类可理解的算法。Anthropic 是一家专注于大型模型安全性的人工智能实验室。此前，我曾在OpenAI领导可解释性研究，在 Google Brain 工作。”

严谨起见，他还在后面附文：“我的博客不应被视为反映我所属的任何组织的观点。”

而仅在 Anthropic 工作了7个月后，Neel Nanda 就从2022年5月到2023年2月，开始了为期10个月的学术休假。期间，他从事独立的机械解释性研究，并试图了解 Grokking 是怎么回事。随后，他就进入谷歌担任研究工程师，负责 Google DeepMind 机械可解释性团队，我们的工作是利用经过训练的神经网络，尝试对其学习到的算法和结构进行逆向工程。此前，他曾在DeepMind实习了6个月。

2023年8月，在《机器学习模型是记忆还是概括？》一文中，Google的研究团队揭示了一个名为 Grokking 的引人注目的现象,它为我们提供了关于模型如何突然从记忆转变为泛化的深入见解。

“Grokking”描述了一个特定的学习过程：在经过长时间的训练后，模型突然从简单地记忆训练数据转变为能够处理和理解未见过的数据。这不仅仅是模型重复其在训练中所学的内容，而是它开始在更深层次上理解并应用其学到的知识。

Neel Nanda 从事的机械解释性提供了一个方法，通过研究模型的训练动态和反向工程其解决方案，来深入了解模型的工作原理。这种方法提供了一个新的视角，帮助更好地理解模型行为。

而精通于此的 Neel Nanda 在公开信中实名签署，也代表了他从机械解释性的崭新视角看到了人工智能的潜在风险，并强烈呼吁行业的重视及监管。

而因安全风险而离开谷歌的AI大佬，当属“人工智能教父”之一的 Geoffrey Hinton。2023年5月，

Geoffrey Hinton 在 AI 的研究前沿究竟看到了什么？我们无法窥其全貌，但可从他对 AI 行业的警告中得知一二。

Hinton 表示，他现在对自己一生从事的工作感到有些后悔。他的名字赫然出现在此次联名公开信的赞同名单上。

AI大佬与多家业界机构呼声愈发强烈

同样具备“人工智能教父”之称的 Yoshua Bengio，也为本次联名公开信实名背书。

Bengio 对AI的发展有着清醒而敏锐的洞察力。他不仅关注 AI 技术本身，也关注 AI 技术对社会、经济、政治、文化等方面的影响和挑战。他认为，AI技术有着巨大的潜能和价值，可以帮助人类解决许多重要和困难的问题，比如气候变化、医疗保健、教育等。但同时，他也警告说，AI 技术也有着巨大的风险和挑战，可以威胁到人类的生存和发展。

Bengio曾指出了三种类型的AI威胁：

第一种是存在性威胁（existential threat），即 AI 可能会超越人类，并且与人类产生冲突或者敌意；

第二种是社会威胁（social threat），即 AI 可能会造成社会不公平、不平等、不透明等问题；

第三种是道德威胁（ethical threat），即 AI 可能会违反人类的道德、价值和规范。Bengio认为，这些威胁都需要我们认真地思考和应对，以确保AI的发展能够符合人类的利益和幸福。

Bengio 建议道：应建立一个多学科、多利益相关者、多层次的AI治理体系，以促进 AI 的可靠性、透明度、责任性和公平性。他还强调，应尊重和保护人类的自由、尊严和多样性，以及地球的生态平衡。

位列赞同名单上的，还有 AI 安全专家、伯克利顶级学者 Stuart Russell。他在此前接受采访时曾指出，AI 或在各方面超人类，对人类生存构成威胁。

在这封公开信露出之前，Russell 已经签署过两封有关 AI 安全的公开信：

一封是由未来生命研究所（Future of Life Institute) 发起，并由图灵奖得主Yoshua Bengio、特斯拉创始人Elon Musk等千余名人士的署名支持，以“减少强大技术带来的全球灾难性和生存风险”为由，呼吁暂停开发比GPT-4 更强大的人工智能系统至少6个月。

一封由总部位于旧金山的非营利组织 AI 安全中心（Center for AI Safety，简称 CAIS）发布，仅用22个英文词声明“减轻 AI 带来的灭绝风险应该与流行病和核战争等其他社会规模的风险一起成为全球优先事项。”Stuart Russell正是这两份公开信中名列前位的签署人之一。

作为这两封公开信名列前位的签署人之一，Russell 表示：第一封公开信是要求给我们时间来制定安全标准，然后将这些标准纳入法规，以便对系统提供保护；第二封是观察到人工智能在未来可能会在各个方面超越人类的智力和能力，对人类生存构成风险。

Stuart Russell 在著作《人工智能：现代方法》中表示，“在自然界已知的事物和现象中，人和人脑是最复杂的系统，人类智能是最复杂的现象。然而，没有理由相信，人类是生物进化的最后阶段，人类智能是最高水平的智能，有机体是智能的唯一载体。以计算机为载体的人工智能，揭开了机器智能大幕的一角，为科学研究创造无穷无尽的新对象。”

不可否认的是，风险与创新一并存在。

多个相关机构及政府也都阐释过风险及忧虑。本次公开信，也借此机会，再次强调了业界愈发强烈的安全呼声。在公开信的末尾，列出了前沿公司及国际组织曾发表过的观点。

Anthropic：“如果我们建立一个比人类专家更有能力的人工智能系统，但它追求的目标与我们的最佳利益相冲突，后果可能是可怕的……人工智能的快速发展将非常具有颠覆性，改变就业、宏观经济和权力结构……（我们已经遇到了）毒性、偏见、不可靠、不诚实”。

Google DeepMind：“未来的人工智能系统可能会进行攻击性网络行动，通过对话欺骗人类，操纵人类采取有害行动，开发武器（例如生物武器、化学武器）……由于协调失败，这些人工智能模型可能会在没有人意图的情况下采取有害行动。”

美国政府：“不负责任的使用可能会加剧社会危害，如欺诈、歧视、偏见和虚假信息；取代和剥夺工人的权利；抑制竞争；并对国家安全构成风险。”

英国政府：“（人工智能系统）还可能进一步将不负责任的权力集中到少数人手中，或被恶意用于破坏社会信任、侵蚀公共安全或威胁国际安全……（人工智能可能被滥用）来制造虚假信息、进行复杂的网络攻击或帮助开发化学武器。”

布莱切利宣言（代表 29 个国家）：“我们尤其担心网络安全和生物技术等领域的此类风险……可能会造成严重甚至灾难性的危害” 。

关于人工智能危害和政策的声明 (FAccT)（超过 250 个签署人）：“从拒绝提供拯救生命的医疗保健的不准确或有偏见的算法的危险，到加剧操纵和错误信息的语言模型，……”

编码正义与未来生命研究所：“我们发现自己正面临着来自人工智能的切实而广泛的挑战，如算法偏见、虚假信息、民主侵蚀和劳动力流失。与此同时，我们正面临着日益强大的系统带来的更大规模风险” 。

人工智能风险声明 (CAIS)（超过 1000 个签署人）：“减轻人工智能导致的灭绝风险应该成为全球优先事项，同时还要应对流行病和核战争等其他社会规模的风险。”

如此关注之下，不仅前沿AI公司需要做出回应，人工智能行业更需有所行动。

参考链接：