AI 大神首次承认参与神秘模型 Q* 研发，把 OpenAI 吓坏了 | Transformer 作者专访

作者：AppSo发布时间：2024-03-27

OpenAI

编者按：「一次人类智慧的汇聚，创造出一台机器，而这台机器最终可能会主宰一切」。这篇来自 WIRED 的专访，为我们讲述了现代人工智能的起源，以及 transformer 创始团队 8 人组偶遇的背后故事：

1. 科学论文「Attention Is All You Need」如今已经到达了传奇地位，其中所提及的 Transformer 架构正在影响着所有人的生活。

2. Transformer 的故事始于 Uszkoreit，递归神经网络在解析较长文本时遇到困难，因此从 2014 年起他开始构思一种不同的方法：自注意力(self-attention)。

3. Uszkoreit 与 Google 的两位同事共同起草了文档，他们用「Transformer」命名除了单词意义与技术原理相近，还因为 Uszkoreit 本人小时候对孩之宝玩具有着美好的回忆。

4. Shazeer 的加入对团队至关重要，他拿出了自己的基本想法，并且把它做出来了。Shazeer 将整个架构提升到了一个新的水平。

5. 在论文截止提交之前，他们测试了两种 Transformer 模型超越了所有竞争对手，并彻底打破了之前的纪录。

6. 后来，该模型几乎应用于所有形式的人类表达，研究团队计划将其扩展「图像、音频和视频」领域的研究。

7. 这篇改变世界的论文标题，来源于 The Beatles（披头士乐队）的一首歌「All You Need Is Love」，Uszkoreit 提议把论文命名为「Attention Is All You Need」。

8. OpenAI 首席执行官 Sam Altman 所说「当 Transformer 论文发表时，我想 Google 的任何人都没有意识到这意味着什么。」

9. 论文在 2017 年 12 月引起了巨大关注，在长达四个小时的会议中，挤满了想了解更多信息的科学家，创始团队聊到嗓子沙哑，直到晚上 10:30，人们仍然聚集在那里。

10. 论文的 8 位作者都相继离开了 Google，但他们创立的公司和旗下产品，都是基于 Transformer 技术。

原文地址：https://www.wired.com/story/eight-google-employees-invented-modern-ai-transformers-paper/

原文作者：Steven Levy

2017 年春天，一篇名为「Attention Is All You Need」的科学论文中，列出了 8 位作者。他们都是 Google 的研究人员，尽管其中一人那时已离开了公司。

当团队中最资深的研究者 Noam Shazeer 看到论文初稿时，他惊讶地发现自己的名字排在第一位，暗示着他的贡献是最重要的。

「我没有想太多」他说。

在确定作者排名时，总是要小心翼翼——谁获得那个令人垂涎的第一作者，谁被挤到后面。特别是在这样一个案例中，每个参与者都在一个真正的集体努力中留下了独特的印记。

研究人员们急于完成他们的论文，最终决定「破坏」对贡献者排名的惯例。他们在每个名字旁边加了一个星号，并附上脚注：「平等贡献者，排名顺序是随机的」。

作者们在最后期限前将论文提交给了一个人工智能会议，并引发了一场革命。

现在，「Attention」论文即将迎来第七个周年纪念日，它已经达到了传奇地位。

作者们从一个蓬勃发展且不断改进的技术——神经网络的 AI——中汲取灵感，并将其变成了另一种东西：一个如此强大的数字系统，其输出感觉像是外星智能的产物。

这种架构被称为 Transformer，它是那些令人惊叹的 AI 产品（包括 ChatGPT 和图形生成器，如 Dall-E 和 Midjourney）背后的秘密武器。

Shazeer 现在开玩笑说，如果知道那篇论文会变得如此出名，他「可能会更担心作者顺序」。现在，这 8 个签名者都小有名气。

「有人找我自拍，因为我出现在一篇论文上！」排名第 5 的 Llion Jones 说。

「没有 transformers，我想我们现在就不会在这里了」Geoffrey Hinton 说。他不是作者之一，但可能是世界上最著名的 AI 科学家。他指的是我们所处的时代，指的是 OpenAI 和其他公司正在建立可以与人类输出相媲美甚至超越的系统。

自从论文发表以来，这 8 位作者都离开了 Google，像其他数百万人一样，他们现在以某种方式与他们在 2017 年创造的系统合作。在与 Transformer 8 人组交谈里，我们试图拼凑出创新的本质：

一次人类智慧的汇聚，创造出一台机器，而这台机器最终可能会主宰一切。

Transformer 的故事始于第 4 个名字：Jakob Uszkoreit。

Jakob Uszkoreit.

Uszkoreit 是知名计算语言学家 Hans Uszkoreit 的儿子。20 世纪 60 年代末，Hans 还是一名高中生时，因抗议苏联入侵捷克斯洛伐克而在东德被监禁 15 个月。获释后，他逃到西德，在柏林学习计算机和语言学。后来他到了美国，在加州门洛帕克的一个研究机构 SRI 的人工智能实验室工作时，Jakob 出生了。

最终，他和家人一起回到了德国，Jakob 也在那里一直上完了大学。一开始，他并没有打算专注于语言，但在开始研究生学习时，他在 Google 的山景城办公室实习，进入了公司的翻译组。

后来他选择加入家族企业，为此还放弃了博士计划，并于 2012 年决定加入 Google 的一个团队，该团队正在研究一个系统，可以在不将用户转向其他网站的情况下，在搜索页面本身对用户的问题做出响应。

那时，苹果刚刚推出 Siri，一个承诺提供一次性答案的虚拟助手，Google 的高管闻到了巨大的竞争威胁：Siri 可能会吞噬他们的搜索流量。他们开始更加关注 Uszkoreit 的新团队。

「这是一场假恐慌」Uszkoreit 说。Siri 从未真正威胁过 Google。但他欢迎有机会深入到那些可以与我们进行某种对话的系统。

当时，递归神经网络——曾经是学术界的冷门——突然开始超越其他 AI 工程方法。这些网络由许多层组成，信息通过这些层传递，再传递，以确定最佳的响应效果。神经网在图像识别等领域取得了巨大的胜利，AI 复兴突然开始。

Google 也在同一时期疯狂地重新安排其劳动力以采用这些技术。它们希望拥有能够生成类似人类的响应系统——在电子邮件中自动完成句子，或创建相对简单的客服聊天机器人。

但是，这个领域正遇到局限性：递归神经网络在解析较长文本时遇到困难。

例如，「Joe 是一名棒球运动员，吃了一顿好早餐后，他去了公园并得到了两次击球」，为了理解「两次击球」，语言模型必须记住关于棒球的知识。

公认的解决方案是一项名为「长短期记忆」（LSTM）的发明，这项创新允许语言模型处理更大、更复杂的文本序列。

但是，计算机仍然严格按顺序处理这些序列——逐字逐句——并且错过了后来在段落中可能出现的内容线索。「我们应用的方法基本上是创可贴」Uszkoreit 说，「我们无法让正确的东西真正大规模工作」。

大约在 2014 年，他开始构思一种不同的方法：自注意力(self-attention)。这种网络可以通过参考段落中的任何部分来翻译一个词。这些部分可以澄清一个词的意图，并帮助系统产生良好的翻译。

Uszkoreit 说「它实际上考虑了所有内容，并为您提供了高效地查看许多输入同时取出的方式」。尽管人工智能科学家小心翼翼，尽量不将神经网络的比喻与生物大脑的实际工作方式混淆，但 Uszkoreit 似乎相信，自注意力与人类处理语言的方式在某种程度上相似。

Uszkoreit 认为，自注意力模型可能比递归神经网络更快、更有效。它处理信息的方式也正好适合大量生产出来的强大并行处理芯片，以支持机器学习热潮。它没有采用线性方法（按顺序查看每个词），而是采用更并行的方法（一起查看一堆词）。如果做得正确，Uszkoreit 怀疑，人们可以专门使用自注意力来获得更好的输出结果。

并非所有人都认为这个想法会颠覆世界，包括 Uszkoreit 的父亲。

Uszkoreit 在 Google 工作时，还获得了两项 Google Faculty 研究奖。

「人们扬起眉毛，因为这抛弃了所有现有的神经网络架构」Jakob Uszkoreit 说，「我和我爸爸在餐桌上的对话中，我们并不一定看法一致」，爸爸甚至认为舍弃递归神经网络是「异端」的想法。

Uszkoreit 说服了一些同事和他一起研究自注意力。他们的工作很快证明了这项新技术的前景，并在 2016 年发表了一篇论文。

Uszkoreit 想要推动他们的研究更深入——团队实验只使用了微小的文本片段——但他的合作者都不感兴趣。不过这依然无法阻止他的脚步:

懂得那篇论文的人，对收获成果并将其部署在 Google 的各种地方感到兴奋，包括搜索，最终还包括广告。在很多方面，这都是一个惊人的成功，但我并不想就此止步。

Uszkoreit 认为，自注意力可以承担更大的任务。这时，他在 Google 园区北缘查尔斯顿路 1945 号的白板上，勾勒出他的愿景。

2016 年的一天，Uszkoreit 在 Google 咖啡馆与一位名叫 Illia Polosukhin 的科学家共进午餐。出生在乌克兰的 Polosukhin 已经在 Google 工作了近三年。他被分配到提供直接回答搜索领域问题的团队，但是工作并不顺利。

Illia Polosukhin.

要在 Google.com 上回答问题，你需要非常便宜且高性能的东西，因为你有只有毫秒级的响应时间。

当 Polosukhin 抱怨时，Uszkoreit 毫不费力地提出了解决方案：「为什么不使用自注意力？」。

Polosukhin 偶尔会与 Ashish Vaswani（Google 的同事）合作，他出生在印度，于中东长大，后来去了南加州大学，在该校的精英机器翻译组获得博士学位。之后，他搬到山景城，加入 Google 中一个名为 Brain 的新兴组织。

Ashish Vaswani.

他将 Brain 描述为「一个激进的小组」，相信「神经网络将推动人类理解」。但他仍在寻找一个大项目来工作。Vaswani 的团队在 1965 号楼工作，隔壁刚好是 1945 号楼的语言团队，他听说了自注意力的想法后，觉得这可能就是期待中的大项目，因此也参与到了这项研究当中。

这三位研究者一起起草了一份名为「Transformers: Iterative Self-Attention and Processing for Various Tasks」的设计文档。Uszkoreit 说，他们从「day zero」选择了「Transformer」这个名字。因为，这项技术的机制是转换它所接收的信息，允许系统提取尽可能多的理解——或者至少给人留下印象。

另外，Uszkoreit 小时候对孩之宝玩具（变形金刚的英文是 Transformers，由美国孩之宝公司与日本特佳丽公司合作制作）有着美好的回忆。

文档最后是一幅卡通图像，六个变形金刚在山区地形中相互发射激光。

2017 年初，Polosukhin 离开 Google，并创办了自己的公司，新的合作者纷纷加入。

一位名叫 Niki Parmar 的印度工程师在美工作时移居美国。她于 2015 年从南加州大学获得硕士学位，并且收到了所有大型科技公司抛来的橄榄枝，她最终选择了 Google。刚开始工作时，她就加入了 Uszkoreit 的团队，致力于改进 Google 搜索的模型变种。

Niki Parmar.

另一位新成员是来自威尔士的 Llion Jones。在伯明翰大学就读期间，他上了一门人工智能课程，并对神经网络产生了好奇心，这些网络在当时被视为历史遗留问题。

Llion Jones.

2009 年 7 月，Jones 获得了硕士学位，不过他在毕业后失业了一段时间，靠救济生活了几个月。后来，他在当地一家公司找到了工作，然后向 Google 递交了一份「绝望的赌注」申请。不出意外，他得到了这份工作并最终加入了 Google Research，他的经理就是 Polosukhin。

有一天，Jones 从一位名叫 Mat Kelcey 的同事那里听说了自注意力的概念，后来他也加入了 Transformer 团队。

有意思的是，在 Jones 加入了 Transformer 后，还向引荐人 Kelcey 介绍了该项目，但 Kelcey 并不买账，她并不认为这项技术会起作用，

「这基本上是我一生中最大的错误预测」，Kelcey 说。

Transformer 的工作吸引了其他也在尝试改进大型语言模型的 Google Brain 研究员。这当中包括波兰出生的理论计算机科学家 Łukasz Kaiser 和他的实习生 Aidan Gomez。

Łukasz Kaiser.

Gomez 在加拿大安大略省的一个小农场村长大，每年春天他的家人都会在枫树上取糖浆。作为多伦多大学的一名三年级学生，他「爱上了」人工智能，并加入了机器学习小组——Geoffrey Hinton 的实验室。

Aidan Gomez.

在此期间 Gomez 开始联系在 Google 写过有趣论文的人，并提出扩展他们工作的想法。Kaiser 就上钩了，还邀请他到 Google 实习。直到几个月后，Gomez 才得知这些实习机会是给博士生准备的，而不是像他这样的本科生。

Kaiser 和 Gomez 很快就会明白，自注意力看起来像是一个有前途的、更激进的解决方案，而且他们正在解决这个问题，Gomez 说：

我们曾就是否想要合并这两个项目进行过一次深思熟虑的讨论，答案是肯定的。

此时，Transformer 团队开始构建一个自注意力模型，用于将文本从一种语言翻译成另一种语言。他们使用一个名为 BLEU 的基准来衡量其性能，该基准将机器的输出与人类翻译员的工作进行比较。

从一开始，他们的新模型就表现良好，Uszkoreit 说「我们已经从没有任何概念，证明到了至少与当时最好的 LSTM 替代方法相媲美的水平，但与长短期记忆相比，它并没有表现得更好」。

他们已经达到了一个平台期——直到 2017 年的一天，Noam Shazeer 偶然听说了他们的项目。

Noam Shazeer.

Shazeer 是一位经验丰富的 Google 员工——他在 2000 年入职，并以公司早期广告系统方面的工作而成为内部传奇人物。Shazeer 在深度学习领域工作了五年，最近对大型语言模型产生了兴趣。但这些模型远未达到他所相信的可能产生流畅对话的水平。

正如 Shazeer 回忆的那样，他当时正在 1965 号楼的走廊里走着，经过 Kaiser 的工作空间。他发现自己正在听一场热烈的谈话：「我记得 Ashish 在谈论使用自注意力的想法，Niki 对此非常兴奋。我想，哇，这听起来是个好主意。这看起来是一群有趣、聪明的人在做一些有前途的事情。」

Shazeer 发现现有的递归神经网络「令人烦躁」，他想：「我们去替换它们吧！」

Shazeer 的加入对团队至关重要。「这些理论，如自注意力，总是需要非常仔细的实施，通常由少数经验丰富的魔法师来展示」Uszkoreit 说，对此 Shazeer 立即开始施展他的魔法。他决定自己编写 Transformer 团队代码的版本。

对于这段经历， Shazeer 分享到「我拿出了基本想法，并且自己把它做出来了」。他在此期间使用的一些技术和技巧，团队后来会用「魔法」、「炼金术」和「铃铛和哨子」这样的词来描述，

总之，Shazeer 将系统提升到了一个新的水平。

「那引发了冲刺」Gomez 说。他们充满动力，也想要赶上即将到来的截止日期——5 月 19 日，这是年度最大 AI 活动，12 月神经信息处理系统会议提交论文的截止日期。随着硅谷的冬天变成春天，实验的步伐加快了。

他们测试了两种 Transformer 模型：一种经过 12 小时训练产生的模型，以及一个经过三天半训练的更强大的版本，名为 Big。他们将它们用于英德翻译。

基本模型超越了所有竞争对手——Big 获得的 BLEU 分数，彻底打破了之前的纪录，同时计算效率也更高。

Parmar说「我们用的时间比外面任何人都要少，而且这才刚刚开始，因为数字还在不断提高」。当 Uszkoreit 听到这个消息时，他从他的卡车里拿出一瓶陈年香槟。

在截止日期前的最后两周，他们陷入了疯狂。尽管团队中有些人名义上仍在 1945 号楼有办公桌，但他们大部分时间都在 1965 号楼工作，因为那里有一个更好的浓缩咖啡机。「大家都没睡觉」Gomez 说，作为实习生，他一直处于不断地调试狂潮中，并为论文制作了一些图表。

在这样的项目中，剥离是很常见的过程，拿掉一些看似累赘的东西，看看剩下的是否足以完成工作。

「这里面有各种技巧和模块组合——哪个有用，哪个没用。我们把一些部分扯出来，再用其他的来代替」Gomez 说。

在Shazeer的助力下，Transformer 产生了「一些极简的东西」，对此，Jones 认为 Noam 是个巫师。

Vaswani 回忆起一天晚上，在团队写论文时，他在办公室沙发上睡着了。他盯着将沙发与房间其他部分隔开的窗帘，被上面的图案吸引，这让他想起了突触和神经元。Gomez 在那里，Vaswani 告诉他，他们正在研究的东西将超越机器翻译：

最终，就像人脑一样，你需要将所有这些模式——语音、音频、视觉——统一在一个架构下，我有一种强烈的预感，我们正在研究更通用的事情。

然而，在 Google 的高层看来，这项工作只是另一个有趣的 AI 项目。

但 Uszkoreit 说在当时「我们明白这可能是一件相当大的事情，这让我们真正着迷于论文最后一段中的一句话，我们在那里评论未来的工作。」

后来，Transformer 模型几乎应用于所有形式的人类表达。研究团队对基于注意力的模型的未来感到兴奋，并计划将 Transformer 扩展到涉及除文本以外的输入和输出模式的问题，而且还要继续开展在「图像、音频和视频」领域的研究。

在截止日期前的几个晚上，Uszkoreit 意识到他们需要一个标题。Jones 觉得他们的团队已经对注意力进行了激进的拒绝，特别是长短期记忆网络（LSTM），The Beatles（披头士乐队）有一首歌叫「All You Need Is Love」，那为什么不把论文命名为「Attention Is All You Need」？

他们一直在收集实验结果，直到截止前的最后两分钟的时候，他们发送了论文。

几乎和所有科技公司一样，Google 迅速为这项工作申请了临时专利。这样做的目的不是阻止他人使用这些想法，而是为了建立专利组合以进行防御。（该公司的理念是：如果技术进步，Google 将从中受益。）

当 Transformers 团队从会议同行评审员那里得到反馈时，他们的反应是复杂的：「一个正面，一个极其正面，还有一个说这个还可以」。

这篇论文被列为其中一个晚上的海报会议。

到了 12 月，这篇论文终于引起了人们的关注。12 月 6 日，在长达四个小时的会议中，会议室一直挤满着想了解更多信息的科学家。创始团队成员一直聊到嗓子沙哑，直到晚上 10:30，人们仍然聚集在那里，在保安告知不得不散场离开后，回忆才算结束。

对 Uszkoreit 他来说，这个过程中，最满意的时刻之一可能是计算机科学家 Sepp Hochreiter 走过来赞扬这项工作，考虑到 Hochreiter 是长短期记忆的联合发明者，这对 Transformers 来说是一个很大的赞美，因为 Transformer 刚刚取代了它在 AI 工具包中的首选地位。

Transformer 并没有立即接管世界，甚至 Google。Kaiser 回忆说，在论文发表的时候，Shazeer 建议 Google 的高管放弃整个搜索，并用 Transformer 训练一个巨大的网络——这基本上是改变 Google 组织信息的方式。

那时，即使是 Kaiser 也认为这个想法很荒谬。但现在，普遍的观点是：这只是时间问题。

一家名为 OpenAI 的初创公司反应非常快。论文发表后不久，OpenAI 的首席研究员 Ilya Sutskever 建议科学家 Alec Radford 跟进这个想法。结果，诞生了第一批 GPT 产品。

正如 OpenAI 首席执行官 Sam Altman 去年所说：

当 Transformer 论文发表时，我想 Google 的任何人都没有意识到这意味着什么。

而 Google 内部的情况更为复杂，Uszkoreit 说「对我们而言， Transformer 很明显能做到神奇的事情，现在你可能会问，为什么 2018 年 Google 没有 ChatGPT？实际上，我们可能在 2019 年，甚至 2020 年就有了 GPT-3 或 3.5。关键问题不是他们看到了什么？问题是，我们看到了什么，为什么不去做任何事情？这个问题的答案很棘手。」

许多技术评论家指出，Google 正在从以创新为中心的游乐场，转变为以底线为重点的官僚机构。正如 Gomez 告诉《金融时报》的那样，「他们没有现代化。他们没有采用这项技术」。

但对于一个技术领先行业几十年并从中获得巨大利润的巨头公司来说，这样做需要很大的勇气。

Google 确实在 2018 年开始将 Transformer 集成到产品中，从翻译工具开始。同年，它还引入了一种名为 BERT 的新基于 Transformer 的语言模型，从第二年开始应用于搜索。

但这些底层变化与 OpenAI 的量子跃进和微软大胆地将基于 Transformer 的系统集成到其产品线相比，似乎有些畏缩。去年，当被问及为什么 Google 没有率先推出像 ChatGPT 这样的大型语言模型时，CEO Sundar Pichai 争辩说：

在这种情况下 Google 发现让别人领导是有利的。对我来说，这并不是完全清楚它可能会成功。事实是，人们看到了它的工作方式后，我们可以做得更多。

一个不可否认的事实是，论文的 8 位作者都相继离开了 Google：

Polosukhin 的公司 Near 建立了一个市值约 40 亿美元的区块链。

Parmar 和 Vaswani 在 2021 年成为商业伙伴，创办了Adept（估值 10 亿美元），现在正在创办他们的第二家公司，名为 Essential AI（800 万美元资金）。

Llion Jones 的总部位于东京，他们研发的 Sakana AI 估值为 2 亿美元。

Shazeer 在 2021 年 10 月离职，与他人共同创办了 Character AI（估值 50 亿美元）。

实习生 Aidan Gomez 在 2019 年与他人共同创办了位于多伦多的 Cohere（估值 22 亿美元）。

Jakob Uszkoreit 的生物技术公司 Inceptive ，估值为 3 亿美元。