两年前,OpenAI 的研究人员尤里·布尔达(Yuri Burda)和哈里·爱德华兹(Harri Edwards)曾试图找出如何让一个大型语言模型进行基本运算。
(来源:OpenAI 官网)
他们想知道,模型需要看到多少个将两个数字相加的例子,才能正确地将他们给出的任何两个数字加起来。
起初,事情进展得不太顺利。模型只是单纯地记住了它见过的加法运算,但不能解决没见过的问题。
一次偶然,布尔达和爱德华兹让一些实验运行了几天的时间,这远远超过了他们原本预计的几个小时。
这些模型看了一遍又一遍的加法运算例子,如果研究人员在旁边监督,他们早就该叫停了。
但当两人终于回来时,他们惊讶地发现实验奏效了。他们训练了一个懂得如何把两个数字加起来的大型语言模型,只不过花费的时间比任何人预想的都要多。
由于好奇到底发生了什么,布尔达和爱德华兹与同事们合作研究了这一现象。
他们发现,在某些情况下,模型似乎一直无法学会一项任务,然后突然间就学会了,就好像灯泡突然亮了一样。
这不是传统的深度学习的工作方式,所以他们称这种行为为“摸索(grokking)”。
加拿大蒙特利尔大学和苹果机器学习研究所的人工智能研究员哈蒂·周(Hattie Zhou)表示:“这真的很有趣。我们能确信模型已经停止学习了吗?或许只是我们训练的时间不够长。”她没有参与这项研究。
这种奇怪的行为引起了科研界更广泛的关注。英国剑桥大学的劳罗·兰戈斯科(Lauro Langosco)说:“很多人都有不同的看法。我不认为人们对到底发生了什么达成了共识。”
rokking 只是让人工智能研究人员感到困惑的几种奇怪现象之一。那些迄今为止最大的模型,尤其是大型语言模型,其运作方式似乎不同于数学所展示的、其该有的运作方式。
深度学习是当今人工智能繁荣背后的底层技术,这次发现揭示了一个关于深度学习的事实:尽管它取得了巨大成功,但没有人确切知道它是如何工作的,也不知道为什么它能有用。
“显然,我们并非完全无知。”美国加州大学圣地亚哥分校的计算机科学家米哈伊尔·贝尔金(Mikhail Belkin)说,“但我们的理论分析与这些模型能做的相去甚远。比如,它们为什么能学习语言?我认为这非常神秘。”
大模型现在如此复杂,以至于研究人员正在把它们当作奇怪的自然现象来研究,进行实验并试图解释结果。
其中许多观察结果与经典统计学背道而驰,而经典统计学通常为预测模型的行为提供了最好的解释。
你可能会说,那又怎样?在过去的几周里,谷歌 DeepMind 在其大多数消费者应用程序中推出了其生成式人工智能模型 Gemini。OpenAI 以其最新的文本到视频模型 Sora 让人们惊叹不已。
世界各地的企业都在争先恐后地利用人工智能来满足他们的需求。这项技术不仅有效,而且正在走进我们的生活,这理由还不够吗?
但是,弄清楚为什么深度学习如此有效,不仅仅是一个有趣的科学难题,也可能是解锁下一代技术的关键,以及应对其巨大风险的关键。
“这是一个激动人心的时刻。”美国哈佛大学的计算机科学家波兹·巴拉克(Boaz Barak)说,他被借调到 OpenAI 的超级对齐团队一年,“该领域的许多人经常将其与 20 世纪初的物理学进行比较。
有很多实验结果我们并不能完全理解,当你做实验时,结果往往会让你感到惊讶。”
旧代码,新技巧
最令人惊讶的是,模型可以完成你没有向它展示过的任务。这被称为“泛化(generalization)”,是机器学习中最基本的想法之一,也是最大的难题。
模型可以通过一组特定的例子进行训练,学会做一项任务,比如识别人脸、翻译句子、避开行人。然而,它们也可以做到泛化,学会用以前从未见过的例子来完成这项任务。
不知道为什么,模型不仅能记住它们所看到的模式,还能想出规则,让它们将这些模式应用到新的任务中。有时候,就像 grokking 一样,泛化也发生在我们意想不到的时候。
大型语言模型,如 OpenAI 的 GPT-4 和 Google DeepMind 的 Gemini, 都具备惊人的泛化能力。
巴拉克说:“神奇之处不在于该模型可以用英语学习数学问题,然后泛化到新的数学问题。
而是该模型可以用英语学习数学问题,再看一些法国文献,然后泛化到学会用法语解决数学问题。这不是统计学所能告诉你的东西。”
几年前,当哈蒂·周开始研究人工智能时,她不理解为什么老师们更关注实现的过程,而不是实现的原理。
她说:“这就像是告诉了你这是训练这些模型的方法,然后就得到了结果。但不清楚为什么这个过程会产生能够做出这些惊人事情的模型。”
她想知道更多,但没人能给她一个好答案:“我的假设是,科学家知道他们在做什么。比如,他们已经有了理论,然后再建立模型。但事实并非如此。”
在过去的 10 多年里,深度学习的快速发展更多地来自于试错,而不是理解。研究人员复制了他人发现的有效方法,并添加了自己的创新。
现在有许多不同的“佐料(ingredients)”可以添加到模型中,我们还有一本越来越厚的深度学习“食谱”,里面装满了这些模型的使用方式。
贝尔金说:“人们就是试试这个,试试那个,把所有的技巧都试一遍。有些很重要,有些则没什么意义。”
他说:“它起作用了,我们会觉得这太神奇了。我们的大脑被这些东西的强大所震撼。”
然而,尽管它们取得了成功,但这些“食谱”记载的更像是炼金术,而不是严谨的化学。他说:“就像我们在午夜混合了一些东西,然后想出了某种正确的咒语。”
过拟合
问题是,在大型语言模型时代,人工智能似乎与教科书上的统计学原理相悖。当今最强大的模型非常庞大,有多达一万亿个参数。这些参数会在模型训练中不断调整。
但统计学表明,随着模型越来越大,它们一开始会提高性能,但之后变得更糟。原因是所谓的“过拟合(overfitting)”现象。
当模型在一个数据集上进行训练时,它会尝试将数据拟合到一个模式中。举个简单的例子,这就像在图表上绘制一组数据点,最适合数据的模式就是在图表上穿过这些点的线。
训练模型的过程,就是让它找到一条既适合训练数据(图表上已经有的点),也适合新数据(新点)的线。
直线是一种最简单的模式(线性回归),但它可能不太准确,会漏掉一些点。如果有一条曲线能够连接每个点,那它将在训练数据上获得满分,但它无法泛化到新点。当这种情况发生时,该模型就出现了数据过拟合。
根据经典统计学理论,模型越大、就越容易出现过拟合。这是因为有了更多的参数,模型更容易找到能连接每个点的线。
这意味着,如果要追求泛化,模型必须在欠拟合和过拟合之间找到一个最佳平衡点。
然而,这并不是我们在大模型中看到的。这方面最著名的例子是一种被称为“双下降(double descent)”的现象。
模型的性能通常用它所犯的错误数量来表示:随着性能的提高,错误率也会下降。
几十年来,人们一直认为,随着模型越来越大,错误率会先下降后上升。就像一条 U 形曲线,它的最低点就是泛化的最佳点。
但在 2018 年,贝尔金和他的同事发现,当某些模型变得更大时,它们的错误率会下降,然后上升,然后再次下降。由此得名双下降,或 W 形曲线。
换言之,大模型会以某种方式超越曾经我们以为的最佳点,并解决过拟合问题。随着模型变得更大,情况(性能)会变得更好。
一年后,巴拉克与人合著了一篇论文,表明双下降现象比许多人想象的更普遍。这种情况不仅发生在模型变得更大时,也发生在拥有大量训练数据的模型或训练时间更长的模型中。
这种行为被称为良性过拟合,目前我们还没有完全理解它。它引发了一些基本问题,即应该如何训练模型以最大限度地激发它们的潜能。
研究人员已经对他们认为正在发生的事情有了一些眉目。贝尔金认为,有一种奥卡姆剃刀效应在起作用:最简单的描述数据的模式,也就是所有数据点之间最平滑的曲线,往往是泛化效果最好的。
较大的模型所需的训练时间比人们原以为的要长,原因可能是它们比小模型更有可能找到一条性能一般的曲线:更多的参数意味着有更多的曲线要尝试。
贝尔金说:“我们的理论似乎解释了它为什么有效的基本原理。然后人们制作了能说 100 种语言的模型,这证明原来我们什么都不懂。”他笑着补充道:“事实证明,我们甚至都没触及皮毛。”
对贝尔金来说,大型语言模型是一个全新的谜题。这些模型基于 transformer,这是一种神经网络,擅长处理数据序列,如句子中的单词。
贝尔金说,transformer 内部有很多复杂性。但他认为,从本质上讲,它们所做的事情或多或少与马尔可夫链类似。
后者是一种更容易理解的统计结构,会根据之前的情况预测序列中的下一个东西。
但这还不足以解释大型语言模型所能做的一切。贝尔金说:“直到最近,我们还认为它不应该奏效。
这意味着,我们对它的理解在根本上缺失了一些东西,我们对这个世界的理解存在空白。”
贝尔金进一步猜想,语言中或许存在一种隐藏的数学模式,大型语言模型找到了利用这种模式的方法:“这纯粹是我的猜测,但谁知道呢?”
他说:“如果我们真的发现这些东西给语言建立了模型,这可能是历史上最伟大的发现之一。你可以用马尔可夫链预测下一个单词来学习语言,这让我感到震惊。”
从小处着手
研究人员正试图一点一点地弄清楚它。由于大模型过于复杂,无法直接研究,贝尔金、巴拉克、周和其他人转而对更容易理解的较小(和较旧)的统计模型进行实验。
在不同条件下,根据各种数据训练这些代理,并观察发生的事情。由此可以深入了解正在发生的事情。
这有助于启发新的理论,但我们并不清楚这些理论是否也适用于更大的模型。毕竟,许多奇怪的行为都存在于大模型的复杂性中。
一套深度学习理论即将出现吗?哥伦比亚大学的计算机科学家大卫·许(David Hsu,音译)是贝尔金的双下降论文的合著者之一,他预计我们不会很快找到所有答案。
“我们现在有了更好的直觉。”他说,“但真的能解释为什么神经网络会有这种意想不到的行为吗?我们还远远没有做到这一点。”
2016 年,麻省理工学院的张驰原和谷歌大脑(Google Brain)的同事发表了一篇有影响力的论文,题为《理解深度学习需要重新思考泛化》(Understanding Deep Learning Requires Rethinking Generalization)。
五年后的 2021 年,他们重新发表了这篇论文,称其为《理解深度学习(仍然)需要重新思考泛化》(Understanding Deep Learning (Still) Requires Rethinking Generalization)。
那么时至今日呢?“是,也不是。”张驰原说,“最近几年取得了很大进展,但新出现的问题可能比已解决的问题多得多。”
与此同时,研究人员仍在努力研究搞懂基础的观测结果。2023 年 12 月,兰戈斯科和他的同事在顶级人工智能会议 NeurIPS 上发表了一篇论文。
他们在论文中声称,grokking 和双下降实际上是同一现象的不同方面,兰戈斯科说:“你盯着它们看,会发现它们看起来有点像。”他认为,对(深度学习背后)正在发生的事情的解释应该兼顾两者。
在同一次会议上,英国剑桥大学研究统计学的艾莉西亚·库思(Alicia Curth)和她的同事认为,双下降实际上是一种“幻觉(illusion)”。
库思说:“我不太同意现代机器学习是一种魔法,可以挑战我们迄今为止建立的所有定律。”她的团队认为,双下降现象的出现是因为测量模型复杂性的方式。
贝尔金和他的同事使用模型大小(参数的数量)来衡量复杂性。但库思和她的同事发现,参数的数量可能不能很好地替代复杂度,因为添加参数有时会使模型变得更复杂,有时则会使其不那么复杂。
这取决于参数值是什么,它们在训练中如何使用,以及它们如何与其他参数互动,这些大部分都隐藏在模型中。
库思说:“我们得出的结论是,并非所有的模型参数都可以一视同仁的。”
简而言之,如果使用不同的复杂性度量,大型模型可能会很好地符合经典统计学理论。
库思说,这并不是说当模型变大时,我们不会见到更多不了解的事情,但我们已经掌握了解释它所需的所有数学知识。
我们这个时代的一大谜团
诚然,这样的争论会愈演愈烈。那么,为什么人工智能模型是否以经典统计学为基础很重要?
一个答案是,更好的理论理解将有助于构建更好的人工智能或提高其效率。
目前,我们的进展很快,但不可预测。OpenAI 的 GPT-4 所能做的许多事情甚至让制造它的人都感到惊讶。
研究人员仍在争论它能实现什么,不能实现什么。贝尔金说:“如果没有某种基本理论,我们很难知道我们期望从这些东西中看到什么。”
巴拉克对此表示赞同。他说:“即使我们现在有了模型,即使是从事后来看,我们也很难准确说出某些能力出现的确切原因。”
这不仅关乎技术发展的管理,也关乎技术风险的预测。许多研究深度学习背后理论的研究人员,其动机都是出于对未来模型安全性的担忧。
兰戈斯科说:“在我们对 GPT-5 进行训练和测试之前,我们不知道它会有什么能力。
现在这可能是一个中等规模的问题,但随着模型变得更加强大,未来这将成为一个真正的大问题。”
巴拉克在 OpenAI 的超级对齐团队工作,该团队由该公司的首席科学家伊利亚·苏茨凯弗(Ilya Sutskever)成立,旨在找出如何阻止一种假想中的超级智能变得失控。
“我对掌控力很感兴趣。”他说,“如果你能做一些了不起的事情,但你不能真正控制它,那就没那么了不起了。如果方向盘不稳,一辆时速能达到 300 英里的车又有什么价值呢?”
但在这一切的背后,还有一个巨大的科学挑战。巴拉克说:“智能(intelligence),无疑是我们这个时代的一大谜团。”
“我们的科学还很稚嫩。”他说,“这个月或许有某个问题让我感到很兴奋,但下个月可能就变了。我们仍在发现很多事情,所以我们非常需要做实验,并看到惊喜。”
作者简介:威尔·道格拉斯·海文(Will Douglas Heaven)是《麻省理工科技评论》人工智能栏目的高级编辑,他在这里报道新的研究、新兴趋势及其背后的人。此前,他是英国广播公司(BBC)科技与地缘政治网站 Future Now 的创始编辑,也是 New Scientist 杂志的首席技术编辑。他拥有英国伦敦帝国理工学院计算机科学博士学位,深谙与机器人合作的体验。
支持:Ren
运营/排版:何晨龙