英伟达CEO、OpenAI首席科学家访谈纪要：AI的今天与未来

作者：水晶球财经网发布时间：2023-03-25

Fireside Chat with Ilya Sutskever and Jensen Huang: AI Today and Vision of the Future

【嘉宾】

Ilya Sutskever, Co-founder and Chief Scientist, OpenAI

Jensen Huang, Founder and CEO, NVIDIA

概览

【背景】本次谈话发生在GPT-4推出的第二天。过去一段时间内，OpenAI推出的ChatGPT以及其他的GPT产品在全世界范围内造成了非常深远的影响，也将AI 这个已经是热点的话题再次推向了风口浪尖。在此背景下，本次交流聚焦在AI在今天的应用以及未来的发展。

【Q&A】

Q：我想我想回到最开始问你深度学习的问题。你对深度学习的直觉是什么?为什么你知道它会起作用?你心中就一定认为深度学习会取得如此成就吗?

A：深度学习的惊人力量改变了世界。我觉得我个人的出发点在于对AI巨大影响力的直觉。我也很好奇什么是意识什么是人类经验，我觉得AI的进步会帮助我理解这些。

从2000年到2003年时候，学习似乎只是人类能做的事情，而计算机根本做不到。在2003年和2002年，计算机什么也学不到。甚至不清楚这在理论上是否可行。所以我在想如果能在智能学习或者机器学习方面作出一些成果将很有可能成为AI领域最大的进步。然后我开始四处寻找，一开始不够乐观。

幸运的是，Jeff Hinton是当时所在大学的教授，我找到了他，他研究的是神经网络正好是我认为有意义的，因为神经网络特性就在于能够学习，可以自动编程的并行计算机。那时候并行计算机规模还很小，但当人们弄清楚学习神经网络是如何工作的，你可以为小型并行计算机编程。它和大脑也很相似，所以就有了理由继续走下去。但还不清楚如何让它起作用，不过根据现有的事情，可以知道他前景是光明的。

Q：当你第一次开始在你第一次开始研究深度学习神经网络的时候，这个网络的规模有多大?当时的计算规模是多少?

A：当时没有人认识到规模的重要性。所以人们训练的神经网络只有50个，或者100个，几百个神经元。一百万个参数被认为是非常大的。我们会在没有优化的CPU代码上运行我们的模型。我们研究人员不知道BLAS，我们使用Matlab。Jeff Hinton对训练神经网络在小数字上很感兴趣，一方面是分类任务，另一方面是如何生成那些数字。所以生成模型的源头从那里开始。但问题是，那些东西还很零散，什么才能真正推动技术进步？当时看起来并不是正确的问题，但现在被认为是正确的。

Q：AlexNet是在2012年创立，当时你和亚历克斯在AlexNet工作过一段时间。你什么时候确定想要建立一个面向计算机视觉的神经网络，Imagenet才是那个合适的数据集，应该做些事儿来参加计算机视觉的竞赛?

A：我可以谈谈这里的背景。大概在那之前两年，我就清楚地意识到监督式学习才是我们前进的方向。我可以准确地解释为什么。这不仅仅是直觉，也是无可辩驳的。如果你的神经网络又深又大，那么它就可以被配置来解决这个困难的任务。这就是关键词“深而大”。

那时候人们关注的不是大型神经网络而是神经网络的一些深度。但大多数机器学习领域根本没有研究神经网络。他们研究各种贝叶斯模型和内核方法，这些理论上都是很好的方法，但并不表示是一个好的解决方案。而大型的神经网络在面对问题求解时能给出一个好的答案，这需要大的数据集以及大量的计算。

我们也在优化方面做了一些工作，优化是一个瓶颈。研究生James Martens取得了突破，他提出了一种优化方法用二阶函数来实现。但重点是它证明了我们可以训练这些神经元。如果你能训练神经网络，你就把他变大一些，然后去找一些数据，你就会成功那么接下来的问题是，找什么样的数据？答案是ImageNet。当时ImageNet是一个难度很高的数据集，但若想训练一个大型卷积神经网络，在数据集上它必须成功。

Q：你怎么能发现GPU在解决这方面的问题上是可用的？是从哪天开始的？

A：一开始Jeff将GPU带到了实验室里，但我们不清楚到底要用它们来做什么。但接下来发现，随着ImageNet数据集的出现，卷积神经网络是非常适合GPU 的模型，可以把它变得非常快，因此就能做规模远超以前的训练。Alex Krizhevsky喜欢使用GPU进行编程，Alex他开发了非常快的卷积核函数，然后去训练神经网络最终取得了结果。这是非常显著的突破，打破了当时许多记录。这并不是之前方法的延续，而是一种全新思路。

Q：快进到你来了硅谷，和朋友创办了OpenAI。关于OpenAI工作的最初想法是什么？最早的源动力是什么？怎样达到了现在的成就？

A：是的。所以很明显，当我们开始的时候，并不是100%清楚该如何继续。这个领域和现在的情况也有很大不同。在2015年-2016年，早在2016年初，我们开始的时候，整件事看起来很疯狂，当时的研究人员少得多可能比现在人数少了100到1000倍。当时我们有大约100个人，他们中的大多数为谷歌/DeepMind工作，人员非常稀缺。

我们有两个大的最初想法。第一个是通过压缩进行无监督学习。今天，我们理所当然地认为监督学习是一件简单的事情。在2016年，无监督学习在机器学习领域是一个未解决的问题，我一直认为好的数据压缩将产生无监督学习。虽然压缩并不是人们常常提起的一个词，但是人们最近突然理解了这些GPT实际上压缩了训练数据。从数学意义上讲，训练这些自回归模型可以压缩数据的。如果压缩的好，你就必须能够提取其中存在的所有隐藏信息。这是关键。

我们真正感兴趣的第一件事是OpenAI中对情绪神经元的一些工作。在机器学习领域，可能没有很多人关注，但实际上它影响很大，这项工作的结果是神经网络，但它并不是Transformer，而是Transformer之前的模型，那就是小型循环神经网络LSTM，我们使用LSTM预测Amazon评论的下一个字符，我们发现如果预测下一个字符足够好，就会有一个神经元在LSTM内对应它的情绪。这展现了无监督学习的一些效果，并验证了良好的下一个字符预测的这种想法，压缩具有发现数据中的秘密的特性。这就是我们现在在GPT模型中看到的。

Q：那我们从哪里可以获得无监督学习的数据？

A：我想说在无监督学习中，困难的部分不在于你从哪里得到数据，虽然现在这仍然是个问题；但更多的是关于为什么要这么做?困难的是要意识到训练这些神经网络来预测下一个token是一个有价值的目标。在GPT-1之前有关情绪神经元的工作对我们有很大的影响。然后Transformer出来了，我们立即想到就是它了，并在此基础上训练了GPT-1

Q：你对于模型和数据大小的扩展规律的直觉，相对于GPT-1、2、3，哪个先出现？你有看到GPT的发展路径吗，还是现有扩展规律的直觉？

A：直觉。我有一个非常强烈的信念，更大是更好。在OpenAI，我们的目标之一就是弄清楚规模扩展的正确途径。问题是如何准确使用它。还有一点很重要，那就是强化学习。在OpenAI中完成的第一个真正的大项目是我们努力解决一个实时策略游戏--Dota 2。所以我们训练一个强化学习agent来对抗自己，目标是达到一定水平，这样它就可以和世界上最好的玩家竞争。这也是一项重大任务，是一种非常不同的工作方向。现在有一种趋同的趋势，GPT产出了技术基座，从Dota的强化学习转变为人类反馈的强化学习，这种组合给了我们ChatGPT。

Q：现在有一种误解，认为ChaGPT本身只是一个巨大的大型语言模型，但事实上围绕它有一个相当复杂的系统，你能为观众简单解释一下吗？

A：我们可以这样想，当我们训练一个大的神经系统来准确地预测下一个单词时，我们所做的是在学习一个世界模型。表面上看，我们只是在学习统计相关性。但事实证明，只要学习统计相关性就可以很好地压缩这些知识。

神经网络所学习的，是产生文本的过程的一些表述。这些文本实际上是这个世界的一个映射，所以神经网络正在学习从世界越来越多的方面看待这个世界，看待人类和社会。神经网络学习一个压缩的、抽象的、可用的表述。这就是从准确预测下一个词的任务中学到的东西。此外，你对下一个词的预测越准确，还原度越高，在这个过程中你得到世界的分辨率就越高，这就是预训练阶段的作用，但这并不能让神经网络表现出我们希望它能够表现出的行为。

一个语言模型，它真正要做的是回答以下问题，如网上有一些随机的文本，以一些前缀开始，一些提示，它将如何完成?如果只是随机寻找一些片段填充，这和我想拥有一个助手是不同的，我想要的助手要诚实，要有帮助，要遵守一定的指导规则，这就是微调，这就是对来自于人类教师强化学习和其他形式的人工智能协助可以发挥作用的对方，不仅仅是向人类学习，也是人类和AI合作的强化学习。在这里我们不是在教授它，我们是在与它交流，希望它成为什么样。而这个过程，也就是第二阶段也是非常重要的。第二阶段做得越好，这个神经网络就越有用，越可靠。所以第二阶段是非常重要的，第一阶段，尽可能多地从世界的映射中学习，也就是文字。

Q：你可以对它进行微调，你可以指示它执行一些特定任务，能不能指示它不做一些事情？这样会给它设置一些安全护栏，去避免某一类型的行为

A：是的。所以训练的第二阶段是我们向神经网络传达我们想要的任何东西，我们训练得越好，我们传达的边界的保真度就越高。所以通过不断的研究和创新来提高保真度，从而使它在遵循预期指令的方式上变得越来越可靠和精确。

Q：ChatGPT在几个月前就出来了，是历史上增长最快的应用程序；现在是GPT-4发布的第一天，它在许多领域的表现令人震惊，包括SAT，GRE等，都能获得很高的分数。什么是ChatGPT和GPT-4之间的主要区别？以及GPT-4在这项领域中的改进有哪些？

A：GPT-4相比ChatGPT的基础上，在很多方面都有了实质性的改进。GPT是第一个主要的区别，这也许是最重要的区别。在GPT-4的基础上构建预测下一个单词具有更高的准确度。这很重要，因为它预测的越好，那么它理解得越多。随着对课文的理解不断加深，GPT-4预测下一个单词的能力也变得更好

Q：人们说，深度学习不会逻辑推理，那么GPT-4是如何能够学会推理的？如果它学会了推理，我将要问的就是做了哪些测试？它在预测下一个单词的时候，是否在学习推理？局限性是什么?

A：推理并不是一个很好定义的概念，但我们可以试着定义它。也就是说，当你走得更远的时候，你如果能以某种方式稍微思考一下，并且因为你的推理得到一个更好的答案。我们的神经网络也许有某种限制，基本的神经网络能走多远，也许还有待观察。我认为我们还没有充分挖掘它的潜力。在某种程度上，推理还没有达到那个水平。

Q：在我看来，当我们使用ChatGPT的时候，它展现了某种程度上的推理水平，所以我认为ChatGPT天然具备这种内在能力

A：某种程度上，用一种方式去理解现状，这些神经网络有很多这样的能力。他们只是不太可靠。

可靠性是让这些模型有用目前最大的障碍。有时候，这些神经网络还会产生幻想，或者可能会犯意想不到的错误，而人类不会犯这些错误。正是这种不可靠性让它们用处大大降低。但我认为，通过更多的研究，或者一些远大的研究计划，我们一定能实现更高的可靠性这样模型才会真的有用，并且能让我们设定精确的护栏，也就是模型学会问清楚它不确定的地方或者压根不知道的知识。

当模型学会后，它不知道的问题不会回答，回答的答案也会非常可信。这是当前模型的一种瓶颈。这不仅仅是模型是否具备特定的能力。

Q：我之前看过一个视频，展现了GPT-4利用维基百科做检索的能力。那么GPT-4是否真的包含检索能力？它是否能够从事实中检索信息以加强对你的响应？

A：当前GPT-4发布时，并没有内置的检索功能，它真的只是一个很好的预测下一个词的工具，另外它也可以处理图像。但是它完全具备这个能力，它也将通过检索变得更好

Q：多模态GPT-4能够从图像和文本中学习并对文本和图像作为输入的请求做出响应的能力。从基础来看，多模态为什么如此重要，重大突破是什么，以及由此产生的特征差异是什么？

A：有两个原因让它如此有趣。

第一个原因是多模态对神经网络而言是有用的，尤其是视觉，因为世界是非常视觉化的。我认为如果没有视觉，神经网络的用处虽然相当大，但它并没有达到应有的规模。所以GPT-4可以“看”得更好；

第二个原因，那就是我们除了可以通过文字学习世界，也可以通过从图像中学习来更多地了解世界。人类可以从视觉中学到很多东西，对神经网络而言同样如此，除了神经网络可以从相当多的词中学习。因此，（如果有“视觉”功能）从文本中的几十亿文字认识世界或许会变得更容易，甚至可以从数万亿的词语中学习。当我们加入视觉信息的时候，并从视觉中学习知识，你就会学到额外的知识。我不想说这是二进制文件，我认为更多的是交换频率问题。如果有更多的信息输入，比如图像，学习的过程将会快许多。

Q：你说到从图像中学习，是否有一种感觉表明利用音频对于模型学习也会有帮助吗？我们会好好利用它吗？

A：我认为这是肯定的。音频是一个额外的信息来源，可能没有图片或视频多，但是音频仍然是有必要的，无论是在识别方面还是生产方面。

Q：在你们公布的测试结果数据中，哪个测试在GPT-3中表现更好？那个测试在GPT-4中表现更好？你认为多模态在这些测试中起了多少作用？

A：在一个有很多图表的问题中，比如美国的AMC12数学竞赛，GPT-3.5在测试中表现的相当差，只有文字模态的GPT-4有大概2%到20%的准确率。当你添加视觉模态时，它会提升至40%的成功率。所以这个版本真的做了很多工作。我认为能够在视觉层面进行推理和在视觉上进行沟通是非常棒的，情况从我们对世界中仅仅几个事物的了解发展到你可以了解整个世界。然后你可以把这个世界视觉化，做到视觉化沟通，以后或许当你询问问题的时候，神经网络可以给你提供图表进行回答

Q：之前你提到过关于AI生成另外一个AI的事情。有研究指出世界上可以被用来进行模型训练的数据是有限的，你是否认为这些可以进行训练的素材会慢慢耗尽？另外AI 是否会用自己生成的数据来训练自己？您如何看待数据生成领域？

A：我认为我不会低估现有的数据。我认为可能有比人们意识到的更多的数据。对于第二个问题这种可能性还有待观察。

Q：你认为语言模型领域会去向何处？哪个领域是最能使你兴奋的？

A：预测是很难的，尤其对于太具体的事情。

我认为可以肯定的是，进步将继续，我们将继续看到AI系统在它的能力边界继续震惊人类。

AI的可靠性是由是否可以被信任决定的，未来肯定可以达到完全信赖的地步。如果它不明白，也会通过提问来问清楚，它会告诉你它不知道，但同时会向你询问更多的知识。我认为这是AI可用性影响最大的领域，未来会有最大的进步。

我们现在就面临一个挑战，比如让神经网络总结长的文档，获取摘要，挑战就是能确定重要的细节没被忽略吗？当他的总结可以达到所有人都认同的时候，我们就可以说它的内容是可靠的。对于内容护栏也一样，它是否清楚的遵循用户的意图也会成为衡量的标准。

Q：最后一个问题。所以从ChatGPT到GPT-4，你是什么时候第一次开始使用它的？它表现出来什么样的技能连你都为之惊讶？

A：简而言之，就是它的可靠性令人惊讶。之前的神经网络，如果你问他们一个问题，有时他们可能会用一种愚蠢的方式误解。而GPT-4不会让这种事情发生。

它解决数学问题的能力变得很棒，你可以认为它真的进行了推导，一些长篇且复杂的推导，还转换单位等，这真的很酷。

另一个例子是，很多人注意到，它有能力用同一个字母开头的单词写诗，每个单词都能清晰遵循指令。这并不完美，但已经很好了。

在视觉方面，我真的很喜欢它解释笑话的方式。它可以解释网络梗。你可以用一些复杂的图像或图表来追问问题。