深度｜Andrej Karpathy 最新思考：小模型有巨大潜力，大模型用来处理多任务，AI 模型未来聚焦于处理重要信息的能力

作者：人人都是产品经理发布时间：2024-09-10

在人工智能领域，Andrej Karpathy 的最新思考为我们提供了关于AI模型未来发展的深刻见解。他认为，虽然当前的大型模型非常强大，但未来的小型模型也具有巨大的潜力。通过模型蒸馏技术，我们可以将大型模型的能力压缩到更小的模型中，实现更高效的认知处理。

这是前特斯拉 AI 总监& OpenAI 创始成员 Andrej Karpathy 近日与硅谷知名投资人 Sara Guo 和 Elad Gil 的最新对话。

Karpathy 强调，Transformer 不仅是另一个神经网络，而是一个极具通用性的“差分计算机”。它通过前向和后向传播进行自我调整，能够高效处理复杂任务。Transformer 的扩展性是 AI 领域的重大突破，使得大规模模型成为可能。

虽然当前的大模型非常强大，但 Karpathy 认为未来的小模型也会有巨大的潜力。通过蒸馏技术，能够将大模型的能力压缩到更小的模型中，实现更高效的认知处理，甚至 1～10 亿参数的小模型就能完成复杂任务。

随着互联网数据接近枯竭，未来 AI 发展将依赖于合成数据的生成。Karpathy 提到，在训练大模型时，保持数据集的多样性和丰富性至关重要，合成数据在生成高质量训练数据时将扮演关键角色。

此外，他认为大模型不仅适用于单一任务，而是能够并行处理多个任务。这种“集群化”或“分层化”模型结构类似于一个生态系统或公司，不同的模型负责不同的领域，相互协作以解决复杂的问题。

模型未来将聚焦于“认知核心”，即处理重要信息的能力，而非记忆海量不相关的数据。通过专注于解决问题和决策的核心部分，未来的AI模型会更加高效和专注。

以下为这次对话的全部内容，enjoy～

Sara Guo:

你曾负责 Tesla 的自动驾驶，现在我们实际上已经有了完全自动驾驶的乘用车在路上行驶。你如何解读我们在能力发展上的现状？我们多快能看到能力的提升或自动驾驶车辆的普及？

Andrej Karpathy:

是的，我在自动驾驶领域大概工作了五年。我觉得这是一个非常有趣的领域。现在这个领域的发展情况是，我常常会把自动驾驶和其他领域进行类比，也许是因为我比较熟悉它。

但我觉得在自动驾驶领域，我们已经达到了一定的瓶颈。现在有一些系统，你作为付费客户可以在某些地方使用，比如在旧金山 Waymo 非常常见。你可能已经乘坐过 Waymo 了。

我乘坐了很多次，它真的很棒。我可以开到很多地方，而且你为它付费，它是一个商品。让我觉得有趣的是，我第一次体验 Waymo 是在大约十年前，也就是 2014年。

当时我的一个朋友在那工作，他带我体验了一下。当时车带我绕着街区行驶，表现得非常完美。但从那次演示到如今能付费使用的产品，花了整整十年时间，才达到如今的城市规模，并且还在扩展中。

Sara Guo:

你认为这十年中的进展主要是由技术推动的吗？

Andrej Karpathy:

技术并不是在一次 30 分钟的演示中就能展现出来的。你没有遇到他们在过去十年中需要处理的所有问题。所以演示和产品之间有很大的差距。其中很多是由于监管等因素。不过我确实觉得我们在自动驾驶领域已经达到了一个瓶颈，至少在某种程度上。而真正有趣的是，这一技术还没有全球化。

你可以进行一次演示，但世界还没有真正发生改变，这将需要很长时间。从一次演示到全球化之间有很大的鸿沟。

这与 AGI 也有相似之处，最终我们也会看到类似的发展轨迹。在自动驾驶领域，有些人认为 Waymo 领先于 Tesla ，但我个人认为 Tesla 更具优势，尽管从表面上看并不像这样。

我对 Tesla 的自动驾驶项目仍然充满信心。Tesla 面临的是软件问题，而 Waymo 面临的是硬件问题。我觉得软件问题相对更容易解决。

Tesla 拥有大量已部署在全球的汽车，当它们能够真正部署并有效工作时，那将是非常了不起的。我昨天刚刚测试了最新的版本，确实有了很大的改进。最近我一直在使用它，效果真的不错。

昨天它在某些情况下表现得非常出色，所以我对团队的工作印象深刻。我仍然认为 Tesla 主要面临软件问题，而 Waymo 主要面临硬件问题。

虽然看起来 Waymo 现在似乎领先，但我相信在十年后，当我们看实际规模化部署和收入来源时， Tesla 会更具优势。

Elad Gil:

你认为我们离解决软件问题还有多远，能达到与你提到的等效水平？显然， Waymo 的车装有许多昂贵的激光雷达和其他传感器，这些传感器帮助其软件系统运作。

而 Tesla 的做法是只使用摄像头，从而摆脱了大量的成本和复杂性，可以应用于更多种类的汽车。你认为这种转变会在什么时候发生？可能是在未来几年内？

Andrej Karpathy:

我希望会是这样的。但实际上有趣的是，我不确定大家是否意识到， Tesla 实际上也使用了很多昂贵的传感器，只不过是在训练阶段使用。

许多车使用激光雷达等传感器来进行不具有规模化的操作，它们有额外的传感器并进行地图构建等工作。

但这些传感器的作用主要是在训练阶段，然后将其精简为测试阶段的包，在车上只需依靠视觉。这是一种对昂贵传感器的“套利”，这是一种非常聪明的策略，可能还没有被充分认可。

这个策略会奏效，因为像素中包含了必要的信息，而神经网络能够处理这些信息。在训练阶段，传感器的确非常有用，但在测试阶段就没有那么必要了。

Elad Gil:

看来我们已经从很多边界情况的设计转向了端到端的深度学习。这也是最近发生的一个转变。你愿意多谈谈这个变化吗？

Andrej Karpathy:

我想说， Tesla 的情况是，神经网络正在逐渐取代整个系统堆栈。当我加入时，系统中有大量的 C++ 代码，但现在在车上运行的测试包中 C++ 代码少得多了。

尽管在后端仍然有很多内容，但神经网络基本上在“吃掉”整个系统。最初它只是在图像层面进行检测，然后是多个图像，给予预测，接着是多张图像随时间积累的预测，C++ 代码逐渐减少，最终只输出转向命令。

所以 Tesla 正在一步步替代整个堆栈。我的理解是，当前 Waymo 并没有采用这种方法，尽管他们尝试了，但并未坚持下去。

这是我现在的理解，但我不确定，因为他们并不公开讨论。但我坚信这种方法是可行的。

如果要从头思考这个问题，最终 10 年后的 Tesla 自动驾驶系统可能就是一个神经网络：视频流输入神经网络，输出驾驶指令。这需要逐步构建，分阶段实现，包括所有中间的预测和我们已经做的其他事情。

我并不认为中间的这些预测误导了开发进程，相反，它们是有很多实际意义的。因为纯粹的端到端驾驶系统（模仿人类）提供的监督信号非常有限，而训练一个庞大的神经网络需要大量的监督信号。

因此，这些中间的表示帮助开发各种特征和检测器，使得最终实现端到端解决方案变得更加容易。我怀疑，即使我不再是团队中的一员，但有大量的预训练在进行，以便之后可以对端到端模型进行微调。

因此，逐步实现这个过程是必要的，而这也是 Tesla 所采用的正确方法。看起来它确实正在起作用，我对未来非常期待。

Sara Guo:

如果你一开始就没有数据，那这种方法确实很有意义。你离开 Tesla 之前还参与了 Tesla 的人形机器人项目，我有很多问题想问你，首先是，哪些技术可以在这里转移？

Andrej Karpathy:

基本上所有的技术都可以转移，我觉得人们没有意识到这一点。

Sara Guo:

这是一个很大的断言，我觉得这是一个非常特殊的问题。

Andrej Karpathy:

当你实际查看这些技术时，你会发现它们的确能够转移。其实， Tesla 并不是一家汽车公司，我觉得这是一种误导。它实际上是一家规模化的机器人公司。

我会说规模本身也是一个独立的变量。他们并不仅仅是在制造单个产品，他们是在制造制造产品的机器，这是一件完全不同的事情。

Tesla 是一家规模化的机器人公司，而从汽车到人形机器人之间的技术转移并没有那么多工作量。

实际上，Optimus 的早期版本几乎以为自己是一辆车，因为它们使用的是完全相同的计算机和摄像头。当时我们还在机器人上运行汽车的神经网络，但机器人在办公室里走来走去，试图识别可行驶的空间。

不过现在这些空间变成了可以行走的空间，它实际上有一些广泛的泛化能力。当然需要一些微调，但它的确在“驾驶”，只不过实际上是在移动环境中行走。

Sara Guo:

把它理解为一个机器人，它能够进行很多技术转移，但你需要额外解决的问题是驱动和动作控制，这样理解合理吗？

Andrej Karpathy:

是的。还有一个部分是，很多东西都是可以转移的，比如 Optimus 的启动速度让我印象深刻。Elon 一宣布我们要做这个，相关的人员和工具很快就到位了，CAD 模型、供应链等所有东西迅速呈现。

我觉得， Tesla 内部在机器人制造方面有非常强的专业知识。所有的工具其实是一样的，只不过从汽车的配置重新调整了一下，就像《变形金刚》电影中的情节。

所有组件基本相同，不管是硬件层面的规模问题，还是软件和控制系统层面的“大脑”，都需要考虑相同的事情。神经网络和标签团队的协调方式、采取的技术手段等也有很多相同之处。

有大量的技术可以转移。那么你认为人形机器人或类似的机器人最早会在哪些领域应用？很多人会设想它们在家里为你做家务，但那会是比较晚期的应用。

B2C 的起点并不适合，因为我们不希望一个机器人在家里意外伤害到人，比如撞倒奶奶之类的场景。这样太有法律风险了。

Sara Guo:

这个例子很恰当。

Andrej Karpathy:

是啊，它们可能会摔倒或发生一些意外，这些东西还不完美，需要进一步改进。所以我觉得最好的客户是你自己，我想 Tesla 可能会这样做。大家应该也能看出来，我对 Tesla 很有信心。

第一步应该是自我孵化，比如在工厂里进行大量的物料搬运等操作，这样你不需要和第三方签订合同，避免了很多法律问题。接下来，会进军 B2B 。

Tesla 可能会与大型仓库合作，进行物料搬运等操作。合同会拟定好，围栏也会建好，所有这些事都做好后，才会进一步推广到 B2C 应用领域。

我确实相信我们会看到面向消费者的机器人，比如类似 Unitree 这样的产品。我个人非常期待的一个应用场景是清理街道上的落叶。

我希望能看到 Optimus 机器人走在街上，捡起每一片落叶，这样我们就不需要用吹叶机了。这是一个很棒的任务，希望这是其中一个早期应用。甚至像是耙叶这样的任务也很适合。

Sara Guo:

耙叶的确也是很不错的工作。

Elad Gil:

而且还很安静。

Sara Guo:

对。实际上，现在已经有一些机器人能够执行这些任务，只不过它们不是人形的。我们谈到的重点是人形机器人。

最简单的理解方式是，世界是为人类设计的，所以你应该设计一套能够在人类设计的环境中执行越来越多任务的硬件。

但另一种观点认为，人类并不是最适合所有任务的形态。你可以让机器人更强壮、更大、更小等等。那么你如何看待这个问题？

Andrej Karpathy:

我觉得人们可能低估了任何单一平台的固定成本的复杂性。对于任何平台来说，都有很大的固定成本，因此集中化并让一个平台完成所有任务是很有意义的。

我还认为人形平台的吸引力在于人们可以轻松地进行遥控操作，这对于数据收集非常有帮助，因为人们能够非常容易地操作它。我觉得这一点经常被忽视。当然，正如你提到的，世界是为人类设计的，这一点也很重要。

未来我们可能会看到人形平台的某些变体，但每个平台的固定成本都是巨大的。而且，另一个重要的维度是，不同任务之间的迁移学习的巨大好处。

在 AI 中，你希望有一个神经网络能够进行多任务处理，从而获取所有的智能和能力。这也是为什么语言模型如此有趣，因为它们在单一的文本领域内进行多任务处理，各种问题之间共享知识，并被耦合在一个神经网络中。

你需要这样的平台，所有的数据都可以为其他任务提供好处。如果你为某个特定任务构建了专用平台，你将无法从其他任务之间的知识迁移中受益。

Sara Guo:

是的，有一种观点是，像 G1 这种机器人价格大概是 3 万美元，但似乎在某个成本下很难构建一个功能非常强大的人形机器人。如果你只想要一个带轮子的机械臂去执行任务，可能在初期有更便宜的通用平台方案。你觉得这个观点合理吗？

Andrej Karpathy:

用硬件角度来看，采用廉价的通用平台是合理的，比如给机器人装上轮子而不是腿等。我感觉这种做法可能让我们陷入了一个局部最优解。

但构建完美的平台是一个长期的好赌注。此外，我觉得人形平台会让人感到熟悉，人们可能更容易理解它的操作方式。

这也是我觉得人形平台在心理上有优势的原因，除非人们害怕它，反而更喜欢抽象的非人类形态的机器人。但我不确定那样会不会像某种怪物在做事情一样让人感到可怕。

Elad Gil:

是的，有趣的是，像 Unitree 的狗形态机器人似乎更友好、更熟悉。

Andrej Karpathy:

是的，但人们看过《黑镜》后，可能会觉得狗形机器人突然变得很吓人。所以很难判断，我只是觉得心理上人们更容易理解人形机器人在做什么。

Elad Gil:

你认为在人形机器人或其他形式的机器人领域，要实现这一未来还缺少哪些技术上的里程碑？

Andrej Karpathy:

我不确定我是否有很清晰的看法。我觉得在人形机器人的下半身控制方面，可能不需要像上半身那样通过模仿学习来获取数据，因为下半身更多是摆动控制。

而对于上半身，你需要大量的遥控操作、数据收集、端到端学习等。所以在这个层面上，机器人系统会变得非常混合。我也不确定这些系统会如何交互。

Elad Gil:

我和一些人聊过，他们通常会关注驱动和操作以及数字操作的挑战。

Andrej Karpathy:

我预计一开始会有很多遥控操作，用于将任务从地面启动起来，通过模仿让机器人可以完成 95% 的任务，然后开始逐步减少人类的介入，转向更多的监督机器人工作，而不是直接进行操作。

所有这些都会逐步发生。我不认为有某个特定的技术瓶颈阻碍我们前进。更多的是基础工作。大多数工具现在已经具备了，比如 Transformer 是一个非常出色的工具，你可以用它来处理各种任务。

我们只需要获取数据，将其放入正确的形式，进行训练、实验、部署并迭代。没有某个单一的技术问题在阻碍我们。

Sara Guo:

你觉得当前的“大模型”研究状态如何？

Andrej Karpathy:

关于“大模型”研究的现状，我们处于一个非常好的阶段。我不确定是否已经有人完全认识到，Transformer 比其他神经网络要强大得多。它不仅仅是另一个神经网络，而是一个非常通用的、非常强大的神经网络。

例如，当人们谈论神经网络中的扩展规律时，这种规律在很大程度上是 Transformer 的特性。之前，使用 LSTM 堆叠等模型时，你并不能获得良好的扩展规律，这些模型训练效果不好，也无法很好地工作。

而 Transformer 是第一个真正能够随数据扩展的模型，你能获得清晰的扩展规律，一切都很合理。

所以我把它看作是一台“差分计算机”，你可以给它输入和输出，然后通过反向传播训练它，它会自行排列形成能够执行任务的系统。

我们在算法领域发现了一个非常神奇的东西。其背后有几个关键的创新，比如残差连接、层归一化、注意力模块，以及没有使用一些会导致梯度消失的激活函数（如双曲正切等）。

这些创新共同组成了 Transformer，而谷歌的那篇论文展示了它如何真正开始工作。它的出现解锁了很多可能性。

Sara Guo:

你觉得这种解锁的极限还远未到吗？毕竟现在也有人讨论数据壁垒和下一代规模的成本问题。你怎么看待这些问题？

Andrej Karpathy:

现在神经网络的架构不再是根本性的瓶颈了，Transformer 之前的确是瓶颈，但现在已经不是了。如今的瓶颈在于损失函数和数据集，尤其是数据集。

所以现在大多数活动都集中在如何改进数据集和损失函数上。这也是为什么很多公司在应用这些技术时并不关注 Transformer 的架构。

Transformer 在过去五年几乎没有什么变化。最重要的变化可能是我们加入了“rope positional”这种位置编码，但除此之外，架构基本没变。因此，大部分的创新都集中在数据集和损失函数上。

Sara Guo:

但有人认为，当时我们获取的是互联网上的数据，而现在这些数据已经枯竭了。你怎么看这个问题？

Andrej Karpathy:

是的，互联网上的数据确实快用完了，现在很多研究都集中在生成合成数据或更昂贵的数据收集上。

实际上，互联网上的数据虽然能帮你走得很远，但并不是 Transformer 最理想的数据。互联网上的数据大多是网页，而我们真正想要的是你大脑中解决问题的内在思维轨迹。

Sara Guo:

对，确实是这样，大脑中的思维轨迹。

Andrej Karpathy:

如果我们有十亿个这种思维轨迹的数据， AGI 可能就离我们不远了。但现实是我们没有这些数据。所以现在的很多研究都集中在将数据集重新组织成这种内在思维轨迹的格式上。同时，还有大量的合成数据生成工作在帮助我们向这个方向迈进。更有趣的是，现有的模型也在帮助我们构建下一代模型。

Elad Gil:

是的，就像一段逐步上升的台阶。你觉得合成数据能帮助我们走多远？毕竟，每个模型都会帮助你更好地训练下一个模型，尤其是在数据标注方面，部分可能会依赖合成数据。你觉得合成数据有多重要？

Andrej Karpathy:

合成数据是我们唯一的前进途径，我们必须让它发挥作用。不过在使用合成数据时需要非常小心，因为这些模型会默默地“坍缩”。比如，当你去问 ChatGPT 讲个笑话时，它可能只会讲几个重复的笑话。

这是因为模型的分布坍缩了，而这一点是很难察觉的。当你看单个输出时，你可能没注意到这个问题，但从整体分布来看，模型丧失了多样性和丰富性。

因此，在生成合成数据时，你需要确保保持数据集的熵，也就是多样性和丰富性。我们有很多技术可以实现这一点。比如，有人发布了一个“persona dataset”，它包含了十亿个人物的背景信息，模拟了各种人类的个性和背景。

这个数据集包括“我是老师”或“我是艺术家，我住在某地，我做什么”等背景描述。合成数据生成不仅仅是“完成这个任务并以这种方式进行”，你还可以加入个性化的描述信息，这样可以强迫模型探索更多的空间，保持数据集的熵。

所以，在这方面需要非常小心，确保数据集的多样性被保留，这也是当前最大的挑战之一。

Sara Guo:

你觉得我们从这些研究中学到了关于人类认知的什么？

Andrej Karpathy:

我不确定我们是否真的学到了很多。

Sara Guo:

也许我们正在探索推理轨迹的形态，这其实对理解大脑的工作方式也很有帮助。

Andrej Karpathy:

我觉得使用类比时需要小心，因为它们其实是非常不同的事物。不过我确实认为有些类比是可以借鉴的。

比如说，在某些方面，Transformer 实际上比人类大脑更出色。Transformer 是一个效率更高的系统。之所以它目前还没有达到人脑的水平，主要是因为数据问题，这是的第一个近似原因。

比如在记忆序列方面，Transformer 远胜于人类。如果你给它一个序列，并进行一次前向和后向传播，那么当你给它提供这个序列的前几个元素时，它会自动完成剩下的部分。而人类如果只看一次序列，几乎不可能记住它。

所以 Transformer 的梯度优化过程（前向和后向更新）在某些方面比大脑的学习机制更加高效。这些模型的确更好，只是它们还没有完全展现出它们的潜力。但在很多认知方面，它们会逐渐显现出优势。

Sara Guo:

在正确的输入下，它们会变得更好。

Andrej Karpathy:

这确实是计算机在各种应用中的趋势。

Elad Gil:

对，我觉得人类的记忆能力也有局限。

Andrej Karpathy:

没错。人类大脑的工作记忆非常有限，而 Transformer 拥有更大的工作记忆容量，而且这种优势会持续下去。Transformer 是更高效的学习者，而人类大脑则受到各种约束的限制，比如环境条件等。所以这些 AI 系统有可能在未来超越人类大脑，只是目前还未实现。

Elad Gil:

你怎么看待未来人类与 AI 系统的结合？你觉得这是一个可能的方向吗？比如通过AI模型增强人类的能力。

Andrej Karpathy:

当然，这是一个非常有可能的方向。实际上，使用 AI 工具的外部版本已经是一种抽象的增强方式。然后还有“融合”的场景，很多人都在讨论这一点。

Elad Gil:

是的，很多人讨论这种“融合”，但目前我们主要是通过指尖与工具进行交互。

Andrej Karpathy:

是的，这是一种瓶颈。人们已经讨论了几十年技术工具如何扩展人类能力，比如说计算机被称为人类大脑的自行车。我们已经看到技术作为工具的外延，但一些AI研究者认为，未来我们可能会通过某种形式的“神经链接”来解决潜在的人机冲突，或者通过这种融合进一步增强人类能力。

我不确定这种“融合”最终会是什么样子，但我能想象减少人与工具之间的输入输出瓶颈是一个重要方向。我把它看作是一个“外部大脑皮层”（exo-cortex），就像在我们的大脑皮层上添加了一层新功能，只不过这层新功能在云端，但它确实是大脑的下一个层次。

Elad Gil:

是的，早在 2000 年代初的《加速》（*Accelerando*）一书中就有类似的设想，一切都通过与大脑相连的计算设备实现，如果你失去了这些设备，就仿佛失去了记忆的一部分。

Andrej Karpathy:

我觉得这非常有可能。而且今天的智能手机已经几乎具备了这种功能。如果你失去了这些科技设备，你会感觉失去了一部分自我。

Sara Guo:

就像失去了部分智力一样。

Elad Gil:

是的，这是非常有趣的现象。一个简单的例子就是导航，现在很多人发现自己已经无法在城市中自行导航了，因为总是依赖于逐步的导航提示。如果这种技术更进一步，比如即时翻译系统，人们可能就会失去与不讲英语的人交流的能力。

Andrej Karpathy:

我不认为这种技术的实现太遥远了。一旦这种即时翻译系统成为主流，如果你不再依赖它，可能就无法与讲不同语言的人交流。

Sara Guo:

我对这种情景很有信心，可以把大脑的这部分功能释放出来，投入到更深的研究中。

Andrej Karpathy:

你可能看到过那个小孩拿着一本杂志，试图在杂志上滑动，就像滑动屏幕一样。这让我感到惊讶的是，这个孩子无法分辨自然界的东西和技术叠加的东西，因为这些技术太透明了。

我觉得未来可能会有类似的情况，人们会开始认为这些工具是自然而然的一部分。等到你把这些工具拿走时，才意识到原来这些是技术，而不是本能。

Sara Guo:

是的，如果我们谈论外部大脑皮层（exo-cortex），这似乎是一个非常重要的概念，如何将其民主化，人人都能使用。你怎么看待目前AI研究领域的市场结构？比如现在只有少数大型实验室有能力推进下一代训练，这会如何影响未来的技术普及？

Andrej Karpathy:

你刚才提到的可能是关于生态系统的现状。现在我们有几家主导性的封闭平台，以及一些相对落后的开源平台，比如 Meta 的 Llama。

这种情况其实有点类似于开源生态系统的格局。当我们开始把这些东西看作“外部大脑皮层”（exo-cortex）时，这就像加密货币中的一句话：“没有你的密钥，就没有你的币”。

那么，是否可以说，如果不是你拥有的权重，那也不是你的大脑？这很有趣，因为公司实际上在控制你的一部分“外部大脑皮层”。

Elad Gil:

是的，听起来确实有点侵入性。

Sara Guo:

如果这是我的外部大脑皮层，我想我会更加在意拥有权的问题。

Andrej Karpathy:

对，你会意识到你是在租用你的大脑，这听起来很奇怪，像是在租用大脑。

Sara Guo:

如果有一个思想实验，你愿意放弃所有权并租用一个更好的大脑吗？我想我会愿意。

Andrej Karpathy:

是的，这是我们需要权衡的东西。也许我们会默认使用那些封闭版本，因为它们的效果非常好，但在某些情况下，我们可以依赖一些备用方案。

我觉得这就是现在的发展方向。比如，当一些封闭源提供商的API出现问题时，人们会实现备用方案，转向自己完全控制的开源生态系统。这让他们感觉更加自主。

Sara Guo:

所以，开源系统的持续进步非常重要。

Andrej Karpathy:

我 100% 同意。这可能现在并不是一个大家都认可的观点，但它是非常重要的。

Elad Gil:

我一直在想，最小的高效模型可以做到什么程度？无论是在参数大小上还是其他方面，你对此怎么看？你对小型模型的蒸馏有很多思考。

Andrej Karpathy:

模型可以非常小。现在的模型浪费了大量容量，记住了一些无关紧要的东西，比如它们记住了散列值和过时的信息。

Sara Guo:

是因为数据集没有经过筛选，最好的部分没有被突出。

Andrej Karpathy:

这种情况会改变。我们只需要找到认知核心，这个核心可以非常小。它只需要处理最重要的事情，其他信息如果需要可以通过工具获取。

Sara Guo:

那这个认知核心需要 30 亿参数还是 200 亿参数？

Andrej Karpathy:

甚至 10 亿参数可能就足够了，模型可以非常小。我之所以这么说，主要是因为蒸馏过程非常有效。你可以用一个非常大的模型，通过大量计算，去教一个小模型，而这个小模型可以保留大模型的能力。

Elad Gil:

你能把这种蒸馏过程量化为某种数学表达式吗？有没有一种信息理论的方式去表示这个过程？感觉我们应该可以通过某种方式来计算出需要的模型大小。

Andrej Karpathy:

我们现在处理的是互联网数据，互联网数据的有用信息可能只占很小一部分，大部分都是噪音。关键是提取出有用的“认知”部分。

Elad Gil:

可能另一种方式是将认知能力与模型大小相关联，或者说如何用某种方式捕捉认知能力相对于模型大小的表现，也许没有一个很好的方式去表示这种关系。但10亿参数可能已经可以提供一个非常好的认知核心。

Andrej Karpathy:

我觉得可能是这样的，甚至 10 亿参数可能都多了。

Sara Guo:

想到这一点还是很令人兴奋的，尤其是考虑到这种小模型可以部署在边缘设备上，而不是依赖云计算。

Elad Gil:

是的，这确实对模型的使用方式带来了很大的改变，这很激动人心。

Sara Guo:

少于 10 亿参数，意味着我可以在本地设备上拥有我的“外部大脑皮层”。

Andrej Karpathy:

是的，我觉得未来可能不是单一的模型，而是多模型并行合作的系统。并行处理在未来会变得越来越重要，而不只是依赖顺序处理。

像公司一样，信息处理也是分层级的，某些信息需要不同层次的处理，这也是公司内部的一种并行化工作方式。

未来的模型会像公司一样分布在不同的层级和领域，比如某个模型是程序员，另一个是程序管理者。多个模型可以并行工作，协同完成计算任务。

Elad Gil:

这听起来更像是一个生物生态系统，不同的角色和生态位相互合作。

Sara Guo:

根据问题的难度和不同的专业领域，你可以自动地将任务升级到“集群”的其他部分。

Andrej Karpathy:

是的，可能某些模型是高性能的云端模型，而其他模型可能是更廉价的资源模型。

Sara Guo:

而且每个人的成本函数可能是不同的。

Andrej Karpathy:

这确实很有趣。

Sara Guo:

你离开 OpenAI ，开始从事教育领域的工作。你一直以来都是教育者，为什么决定做这个？

Andrej Karpathy:

我一直以来都热爱教育，喜欢学习和教学。这一直是我非常热情的领域。而另一个推动我的原因是，我觉得现在 AI 的很多应用都是在取代人类工作，但我更感兴趣的是那些能赋能人类的 AI。

我不希望看到一个人类被边缘化的未来，而是希望看到一个人类变得更加优秀的未来。如果每个人都有一个完美的导师来学习各个科目，人类可以走得很远。

我们看到有钱人雇佣私人教师，确实能取得很好的结果。通过 AI，我们可以实现类似的效果，甚至是超越。

Elad Gil:

是的，1980 年代有一个经典的研究显示，一对一辅导可以使学生的成绩提高一个标准差。你觉得 AI 如何能够实现这样的效果？哪些产品会首先帮助实现这一点？

Andrej Karpathy:

我受到一些灵感的启发。当前，我正在尝试构建一门 AI 课程，我想让它成为每个人学习AI时首先想到的课程。

我曾经在斯坦福教授 AI 课程，但问题是，如何让课程规模化，能够覆盖全球80亿人，并适应不同语言、不同水平的学生？单靠一个教师是无法做到这一点的，所以我在考虑如何用 AI 来扩展这种教师的能力。

我的想法是，教师负责课程的创建和设计，而AI则成为前端，与学生进行互动，帮助他们学习。教师不再直接接触学生，而是在幕后设计材料，AI则负责讲解。

Sara Guo:

我是否可以把这看作是“AI 助教”？

Andrej Karpathy:

可以这么理解。AI 是学生的前端接口，引导他们完成课程。这是目前可以实现的，虽然还没有完全存在，但我相信这是可行的。

随着 AI 能力的提升，未来可能会对课程结构进行重构。我专注于找到那些今天AI能力可以胜任的任务，这种思路让我能够设计出更加实际的产品。

Sara Guo:

你提到的一点让我感到非常鼓舞，特别是来自你对研究现状的深刻理解。我们不知道在人类具备更好工具的情况下，学习能力的极限在哪里。

就像我们在最近的奥运会上看到的，运动员的成绩比十年前大大提高，因为他们从小就开始训练，使用了更科学的训练方法和设备。

你相信人类的学习能力在未来可以通过更完善的工具和课程得到大幅提升，这一点真的非常振奋人心。

Andrej Karpathy:

是的，我觉得我们连可能性的表面都还没触及。这里有两个维度：一个是全球化的维度，我希望每个人都能获得优质教育。

另一个是个体层面的，探索单个个体能走多远。我觉得这两点都非常有趣和激动人心。

Elad Gil:

通常人们在讨论一对一学习时，谈论的是个性化学习，即根据学生的水平挑战他们。你觉得AI可以做到这一点吗？还是目前AI的重点在于覆盖范围和多语言支持？

Andrej Karpathy:

目前 AI 在翻译和多语言支持方面已经非常出色，这些是现成的成果。至于个性化适应学生背景的能力，这仍然是一个需要解决的问题，但并不太遥远。

如果学生有物理学背景，AI 可以根据这个信息进行调适，这在教育中是非常有用的。我想这将是我们要努力实现的方向，虽然目前还不完全具备这种能力。

Elad Gil:

是的，个性化学习的难点在于，不同学生在不同领域的学习速度不同，如何根据学生的情况调整教学内容是一大挑战。不过，我相信随着时间推移，AI模型会越来越擅长这一点。

Andrej Karpathy:

是的，AI 的很多能力现在可以通过简单的提示实现，但从演示到实际产品之间还有一定距离。我会说，演示已经很接近了，但产品化还需要一些时间。

Elad Gil:

在科研界，人们常常讨论不同实验室的背景，很多诺贝尔奖得主曾在其他诺奖得主的实验室工作。你觉得在以 AI 为中心的教育世界里，如何保持这种知识传承和文化传播？

Andrej Karpathy:

我不希望生活在一个“背景”太重要的世界里。我希望AI能够打破这种结构，因为它有点像是对稀缺资源的把控，比如拥有某种背景的人的数量有限。我希望AI能够改变这一点。

我觉得在考虑未来的教育系统时，它可能不仅仅是一个单一模型，而是多个模型并行合作的系统。类似于公司的结构，不同的模型会有不同的角色和职责，它们在并行处理复杂任务时会互相协调，就像一个“集群”系统一样。

我想我们会看到越来越多的模型专注于不同的任务领域，比如程序员、程序管理者等，它们会像一个公司一样相互协作。

Elad Gil:

这有点像一个生物生态系统，不同的角色和生态位互相协作。

Sara Guo:

是的，取决于问题的难度和专业领域，任务可以自动升级到“集群”的其他部分。

Andrej Karpathy:

是的，可能某些模型是高性能的云端模型，其他模型可能是资源更廉价的模型，它们各自承担不同的任务。

Sara Guo:

你离开 OpenAI 开始从事教育，你一直以来都热衷于教育，为什么选择这个方向？

Andrej Karpathy:

我一直以来都喜欢学习和教学，这一直是我非常热情的领域。另一方面，我觉得现在很多 AI 应用都是在替代人类的工作，但我更感兴趣的是那些能够赋能人类的 AI。

我希望未来的人类能够通过 AI 变得更加强大，而不是被边缘化。我想知道，如果每个人都有一个完美的导师，他们能够走多远。如果我们能够通过 AI 提供这种教育，这将非常令人兴奋。

Elad Gil:

你提到教育作为娱乐的理念非常有趣，尤其是你谈到未来人类可以通过更好的工具大幅提升学习能力。你觉得 AI 能在多大程度上帮助人们实现这些目标？

Andrej Karpathy:

AI 能极大地改善学习体验，尤其是在全球范围内提供优质教育。今天的很多学习动机来自于经济需要，比如找工作或提升自己的经济地位。

在未来的后 AGI 社会中，教育可能会变得更多是出于娱乐和自我提升的目的。我希望人们不仅仅是在追求实用性，而是从教育中获得满足感，像是去健身房锻炼大脑一样。

Sara Guo:

你提到教育是一种类似于健身房锻炼的体验。教育本身确实需要付出努力，但这种努力也是一种满足感的来源。

Andrej Karpathy:

是的，教育的确需要付出努力，但这种努力也是一种特别的“乐趣”。人们从中获得成就感，感觉自己变得更好。我希望在未来的世界中，人们不仅在身体上去健身房，也会在心理和智力上“锻炼”，让教育成为一种崇尚的追求。

Sara Guo:

那么你正在开发的这门课程的目标受众是谁？

Andrej Karpathy:

我设想的受众主要是大学本科水平的学生，特别是那些在技术领域学习的人。尽管如此，随着社会的快速变化，教育将不再局限于传统的学制内。

未来人们会更多地回到“学校”或学习新的技能。所以这门课程虽然针对本科生，但实际上任何有技术背景的人，不论年龄，都可以从中受益。

课程的发布时间原计划是今年年底，但现在可能要推迟到明年初，因为我有很多其他项目需要处理。

Elad Gil:

最后一个问题，假如你今天有小孩子，你会建议他们学习什么，以便在未来拥有更有价值的技能？

Andrej Karpathy:

在我看来，正确的答案是数学、物理、计算机科学这些学科。我之所以这么说，是因为这些学科能帮助培养思维能力。

我个人的背景可能有些偏颇，但这些学科是最好的思维训练核心。比如我自己学习数学和物理课程，它们塑造了我的思维方式，非常有助于解决问题。

如果我们还处于 AGI 之前的世界，这些技能非常有用；即使是在 AGI 之后的世界，你仍然希望人类能够在各种能力下保持自主和强大。所以这就是人们应该学习的正确内容，既实用又有价值。

特别是在关键的成长时期，人们有很多时间和注意力，这时候应该更多地花在那些需要简单操作和思考的任务上，而不是记忆为主的任务。

Elad Gil:

我学过数学，感觉自己脑子里开辟了一个全新的领域，有点太多了。

Sara Guo:

是的，而且在之后的生活中很难再去开辟新的思维路径。

Elad Gil:

当然，我并不反对其他学科。广泛的知识涉猎非常美妙，但我确实认为80%的时间应该用来学习这些核心学科。

Sara Guo:

我们不是很擅长记忆，与我们的工具相比更是如此。

本文由人人都是产品经理作者【江天 Tim】，微信公众号：【有新Newin】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自 Andrej Karpathy 与 Sara Guo 和 Elad Gil 的对话截图

深度｜Andrej Karpathy 最新思考：小模型有巨大潜力，大模型用来处理多任务，AI 模型未来聚焦于处理重要信息的能力

推荐体验

相关资讯