图灵奖得主杨立昆：我们需要人类水平的AI，尽管现在的系统做不到

作者：搜狐科技发布时间：2024-10-22

出品 | 搜狐科技

作者 | 李阳

近日，“AI教父”杨立昆（Yann LeCun）在Hudsonforum公开演讲。演讲内容主要围绕AI的需求与现状，现有AI的局限性，开源AI平台的必要性以及通往人类水平的AI道路等多个方面展开。

被誉为是“深度学习三巨头”之一的杨立昆，以在机器学习，尤其是深度学习领域的研究而闻名，其贡献包括卷积神经网络（CNN）的发明和推广。他的早期工作为后来图像识别和计算机视觉领域的突破奠定了基础。

杨立昆在曾多次公开驳斥“AI威胁论”，他认为当今的大型语言模型缺乏一些关键的能力，如持久记忆、推理、规划和理解物理世界。在他看来，在他看来，AI只是证明你可以操纵语言，但并不聪明，而人的智力是非常复杂的，所以真正的通用式人工智能（AGI）不会到来。

不过，这并不意味着他完全怀疑人工智能，他只是认为需要新的方法。

以下为演讲内容精编：

—01—

我们确实需要人类水平的AI

尽管目前AI系统没有能力做到

我将讨论人类水平的AI，或者我们如何实现它，以及我们又将如何无法实现它。

首先，我们确实需要人类水平的AI，因为在未来，我们大多数人都会戴着智能眼镜或其他类型的设备，我们会与它们交谈，这些系统将拥有助手，也许不仅仅是一个，可能是一整套助手。

这将导致我们每个人基本上都会有一支由智能虚拟人员组成的团队为我们工作。

所以这就像每个人都会成为老板，只是不是真实人类的老板。我们需要构建这个系统，基本上是为了增强人类的智力，使人们更有创造力、更高效等等。

但为此，我们需要能够理解世界、能够记住事物、具有直觉、具有常识、能够像人类一样推理和计划的机器。

尽管你可能从一些最热情的人那里听到过，但目前的AI系统没有任何能力做到这些。所以这就是我们需要的东西，能够学习的系统。

基本上是对世界进行建模，拥有关于世界如何运作的心智模型。每只动物都有这样一个模型。你的猫肯定有一个比任何已建成或构思的AI系统都更复杂的模型。拥有持久记忆的系统，而当前的LLM没有。

能够规划复杂动作序列的系统，这在今天的LLM中是不可能的。

所以我将为此提出一种架构，我称之为目标驱动型AI。

大约两年前，我写了一篇关于这方面的展望论文，并发布了它。FAIR的许多人基本上都在努力实现该计划。FAIR曾经结合了长期的蓝天研究和更应用性的项目。但Meta在一年前创建了一个名为GenAI的产品部门，专注于AI产品。他们从事应用研发。因此，FAIR现在已被重新导向更长期的下一代AI系统。我们基本上不做LLM。

—02—

现有AI的局限性

我们仍然缺少一些重要的东西才能达到人类水平的智能。

我在这里不一定指的是人类水平的智能，但即使是你的猫或你的狗也能做到一些令人惊叹的壮举，而这些壮举仍然完全超出了当前AI系统的范围。

任何一个10岁的孩子是如何学会收拾餐桌和装满洗碗机的呢？

10岁的孩子可以一次学会这个，对吧？不需要练习或任何东西。一个17岁的孩子大约需要20个小时的练习就能学会开车。我们仍然没有5级自动驾驶汽车。我们当然也没有能够收拾餐桌和装满洗碗机的家用机器人。

所以我们真的缺少一些重要的东西，否则我们就能用AI系统做到这些事情。

所以我们不断地遇到这个叫做莫拉维克悖论的东西，那就是对我们来说看起来微不足道的事情，我们甚至不认为它很聪明，似乎对机器来说非常非常难以做到。

但是像高层次的、复杂的、抽象的思考，比如操纵语言，对机器来说似乎很容易。或者像下象棋、围棋之类的事情。

也许原因就是，一个LLM通常在20万亿个标记上进行训练。一个标记基本上，平均来说就像一个词的四分之三。所以这是13个单词的1.5倍。每个标记通常约为三个字节。所以这是13个字节的6倍。我们任何人读完这篇文章都需要大约几万年，对吧？这基本上是互联网上所有公开可用的文本的总和。

但是，让我们考虑一下人类儿童。

一个四岁的孩子，已经清醒了一共16000小时，顺便说一句，这相当于30分钟的YouTube上传量。我们有200万条视神经纤维，也就是到达我们大脑的视神经纤维。每条纤维大约每秒传输大约一个字节。也许是每秒半个字节。一些估计认为是每秒三个比特。这并不重要，这是一个数量级的问题。

所以，四年内，一个孩子看到的视觉数据或数据量与在整个公开可用的互联网文本上训练的最大型语言模型一样多。这告诉我们，仅仅通过文本训练，我们永远不可能达到接近人类水平的智能。在某种程度上，这是不可能发生的。

心理学家、科学家们试图弄清楚婴儿在多大年龄学习关于世界的基本概念，比如他们是如何学习直觉物理学、物理直觉，所有这些东西的。这发生在他们开始学习语言和互动之类的事情很久之前。

因此，诸如面部追踪之类的行为发生得非常早，生物运动也是如此，活物和非活物之间存在差异，这也发生得很早。客体永久性也发生得很早。

事实上，当一个物体被另一个物体遮挡时，它仍然存在。然后婴儿学习自然的类别。你不需要给他们命名。他们会知道椅子、桌子和猫是不同的。

稳定性和支撑，但像重力、惯性、动量守恒这样的东西，实际上大约在九个月大的时候才会出现。这需要很长时间。因此，如果你向六个月大的婴儿展示左边这种情况，一辆小汽车在一个平台上，你把它从平台上推下去，它似乎漂浮在空中，六个月大的婴儿几乎不会注意，而十个月大的婴儿会像那个小女孩一样。

她明白了，这不应该发生，物体应该掉下来，当发生令人惊讶的事情时，这意味着你的模型是错误的，所以你会注意。因为它可能会杀死你。所以这里需要发生的学习类型与我们之前讨论的学习类型非常相似。

接收一个输入，以某种方式对其进行损坏，然后训练一个大型神经网络来预测缺失的部分。如果你训练一个系统来预测视频中将会发生什么，就像我们训练神经网络来预测文本中将会发生什么一样，也许这些系统能够学习常识。

这方面的坏消息是，我们已经尝试了十年，但这完全失败了。

我们从未能够获得任何接近真正学习任何种类的、关于世界的通用知识的系统，仅仅是试图预测视频中的像素。

你可以训练一个系统来预测看起来不错的视频，现在有很多例子——视频生成系统。但在内部，它们并不是物理世界的良好模型。它们不能用于此。

好的，所以这个想法是我们将使用生成模型来预测视频中将会发生什么，并且系统将神奇地理解世界的结构，完全失败。

我们尝试了十多年许多方法。它失败的原因是因为存在许多可能的未来，并且在像文本这样的离散空间中，你无法预测哪个词将跟随一系列词，但是你可以生成字典中所有可能词的概率分布。但是当它是视频、视频帧时，我们没有一个好的方法来表示视频帧上的概率分布。

事实上，我的意思是这项任务完全不可能。

例如，如果我拍摄这个房间的视频，对吧，我拿起一个相机，拍摄那一部分，然后停止视频，然后我要求系统预测视频中的下一个内容。它可能会预测房间的其余部分，在某些时候会有墙壁，会有坐在那里的人，密度可能与左侧的相似，但它不可能在像素级别预测你们所有人的样子，墙壁的纹理是什么样的，以及房间的精确尺寸和所有这些东西。你无法准确预测所有这些细节。

所以解决方法就是我所说的联合嵌入预测架构。其想法是放弃预测像素。

—03—

学习图像的最佳方法是使用联合嵌入架构

与其预测像素，不如学习一个表示，一个关于世界中发生的事情的抽象表示，然后在该表示空间中进行预测。

这就是架构，联合嵌入预测架构。这两个嵌入，采用 X，损坏的版本，通过编码器运行。采用 Y，通过编码器运行。然后训练系统根据 X 的表示来预测 Y 的表示。

现在的问题是如何做到这一点。

因为如果你只是使用梯度下降反向传播训练这样的系统来最小化预测误差，它将会崩溃，它会说，它会学习一个恒定的表示，现在预测变得非常容易，但它没有信息量。

但这是我希望你记住的区别，试图重建的生成架构、预测器、自动编码器、生成架构、掩码自动编码器等等之间的区别，以及你在表示空间中进行预测的联合嵌入架构。

我认为未来在于这些联合嵌入架构。

我们有大量的经验证据表明，学习图像的良好表示的最佳方法是使用这些联合嵌入架构。

所有尝试使用重建来学习图像表示的方法都很糟糕。它们效果不好。并且有大量的项目致力于此，并声称它们有效,但它们真的没有。最佳性能是通过右侧的架构获得的。

找到某种事物或现象的良好表示以便你可以进行预测，这实际上是科学的本质，对吧？

例如，如果你想预测行星的轨迹，行星是一个非常非常复杂的物体，它非常巨大。它有天气、温度、密度以及你可以测量到的关于行星的所有种类的其他东西。可能是一个极其复杂的物体。但是要预测行星的轨迹，你只需要知道六个数，三个位置和三个速度。就是这样，你不需要知道其他任何东西。

所以这是一个非常重要的例子，它真正证明了预测能力的本质实际上是为我们观察到的事物找到良好的表示。

那么我们如何训练这些东西呢？

所以一种方法是拥有一些能够衡量表示的信息内容（如果可以的话）的成本函数，并尝试最大化信息内容或最小化负信息，这就是这里写的内容。因此，你正在训练一个系统，同时尽可能多地从输入中提取信息，但同时最小化该表示空间中的预测误差。因此，该系统将在尽可能多地提取信息与不提取不可预测的信息之间找到某种平衡。你将得到一个很好的表示空间，你可以在其中进行预测。

那么，你如何衡量信息呢？

这正是事情变得有点奇怪的地方。

有一种方法可以用数学方法来理解这一点，即训练基于能量的模型和能量函数，但我没有，我没有时间深入讨论这个问题，但基本上我在这里告诉你一些不同的事情。

放弃了生成模型，转而采用JEPA架构；放弃了概率模型，转而采用基于能量的模型；放弃了对比方法（我没有讨论这个，因为我稍后会讲到），以及强化学习（我已经说了十年了）。所以这些都是当今机器学习最流行的四大支柱，所以我现在不太受欢迎。

好的，所以一种方法是对编码器输出的信息量或信息内容进行某种估计。目前，有很多方法可以做到这一点，大概有六种。这里实际上缺少一种方法，叫做MMCR，来自我在纽约大学和Flatiron的同事开发的方法。那么……所以这里的一个想法是防止系统崩溃并产生常数，对吧？所以取编码器输出的变量，并确保这些变量具有非零标准差。你可以在一批样本上将此放入成本函数中，确保权重使得变量不会崩溃并变成常数。

现在问题是系统可以作弊，使所有变量相等或高度依赖或相关。因此，你必须添加另一项，说明我希望最小化这些变量的协方差矩阵的非对角线项，以确保它们不相关。

当然，这还不够，因为变量仍然可能依赖，你知道，依赖但又不相关。因此，我们使用了另一个技巧，即将Sx的维度扩展到更高维的空间Vx，然后在这个空间中应用方差-协方差正则化。这似乎已经足够了。但我耍了个花招，或者说骗了你们一些人，因为我在这里……最大化的是信息内容的上界。

我祈祷实际的信息内容会随着我对上界最大化的提升而提升。

我需要的是一个下界，这样它就会向上推高下界，信息量也会增加。不幸的是，我们没有信息的下界。或者至少我们不知道如何计算它，即使我们有的话。

还有一套方法，称为蒸馏式方法。

这种方法以神秘的方式运作。如果你真的想清楚地解释它为什么有效，你应该问一下苏里亚·甘古利（Surya Ganguly），他就在这里。他本人在这方面有一篇论文，我得到了启发。

但它确实非常有效，它只更新该架构的一半，而不反向传播另一半的梯度，然后以一种奇特的方式共享权重。这是一个非常有趣的方法。有很多关于这方面的论文。如果你想训练一个完全自监督的系统来学习图像的良好表示，它非常有效。这和任何方法一样好。

图像的损坏是通过掩蔽进行的。我们有一些较新的工作，我们对视频也做了这个。因此，我们可以训练一个系统来提取视频的良好表示，我们可以将其用于视频中的动作识别等下游任务。它包括获取一段视频，掩盖其中很大一部分，然后通过这个系统运行，然后我们可以用它来创建一段视频。所以这是第一步。然后第二步是创建一段视频。然后第三步是创建一段视频。所以这是第一步。然后第四步是创建一段视频。然后第五步是创建一段视频。

—04—

开源AI平台的必要性

未来，如果我们在这个项目中取得成功，最终获得能够推理、规划、理解物理世界的系统，那么在我们让这里的一切都能工作之前，还需要数年时间，如果不是几十年的话。扎克伯格一直问我需要多长时间。所以如果我们成功地做到这一点，好的，我们将拥有能够真正调解我们与数字世界所有互动的系统。它们将回答我们所有的问题，它们将经常与我们在一起。

它们基本上构成了所有人类知识的宝库。这感觉像是一种基础设施，就像互联网一样，对吧？它不像一个产品，更像是一种基础设施。

这些AI平台必须是开源的。我不需要说服这里的任何IBM的人，因为IBM和Meta是名为AI联盟的组织的一部分，该组织推广开源AI平台。

但我真的要感谢达里奥（Dario）为此做出的努力以及IBM的每一个人。所以我们需要这些平台是开源的，因为我们需要这些AI系统是多元化的。我们需要它们理解世界上所有语言、所有文化、所有价值观。你不可能从美国西海岸或东海岸的一家公司生产的单一助手那里得到这些。

你知道，这将不得不依赖来自全世界的贡献。当然，训练基础模型非常昂贵，所以只有少数公司可以做到这一点。因此，如果像Meta这样的公司能够以开源的方式提供这些基础模型，那么全世界都可以根据自己的目的对其进行微调。这正是Meta和IBM所采用的理念。所以，开源AI不仅仅是一个好主意，对于文化多样性，甚至可能是民主的保存，都是必要的。

因此，训练和微调将由初创公司和其他公司的生态系统众包或完成。真正推动AI初创公司生态系统发展的是这些开源AI模型的可用性。达到人类水平的AI需要多长时间？我不知道。可能需要数年到数十年。差异巨大。并且沿途还有许多问题需要解决。这几乎肯定比我们想象的要难。

这不会在一夜之间发生。这将像渐进式进化一样。所以这不像有一天我们会发现AI的秘密，然后我们会启动一台机器，然后我们就会立即拥有超级智能，我们所有人都会被超级智能系统杀死。不，不会这样发生的。机器将超越人类智能，但它们将在我们的控制之下，因为它们将是目标驱动的。我们赋予它们目标，它们实现这些目标。这就像我们许多人都是行业或学术界的领导者，或者其他什么。我们与比我们更聪明的人一起工作。