新图灵测试将看看人工智能能否赚到 100 万美元

作者：好好好二狗发布时间：2023-07-17

Mustafa Suleyman：我的新图灵测试将看看人工智能能否赚到 100 万美元

现代图灵测试将衡量人工智能在世界上可以做什么，而不仅仅是它的外观。还有什么比赚钱更能说明问题的呢？

经过

Mustafa Suleyman存档页面

2023 年 7 月 14 日

人工智能系统越来越无处不在，而且几乎每天都变得越来越强大。但即使它们变得越来越普遍并且做得越来越多，我们如何才能知道机器是否真正“智能”呢？几十年来，图灵测试定义了这个问题。它于 1950 年由计算机科学家艾伦·图灵首次提出，试图理解当时新兴的领域，并且从未失去作为判断人工智能的方式的吸引力。

图灵认为，如果人工智能能够令人信服地复制语言，有效地进行交流，以至于人类无法分辨出它是一台机器，那么人工智能就可以被认为是智能的。为了参加比赛，人类评委坐在电脑前，敲出基于文本的对话，并猜测另一方是谁（或什么）。图灵测试设想起来很简单，但实现起来却出人意料地困难，它成为人工智能的一个根深蒂固的特征。每个人都知道那是什么；每个人都知道他们正在努力的方向。尽管尖端人工智能研究人员继续前进，但它仍然是人工智能的有力陈述——对新研究人员的号召。

但现在有一个问题：图灵测试几乎已经通过了——可以说已经通过了。最新一代的大型语言模型，使用就在几年前，这种连贯性还显得很神奇，现在正处于实现它的风口浪尖。

那么人工智能将何去何从呢？更重要的是，它把我们留在哪里？

事实是，我认为我们正处于一个对真正发生的事情感到真正困惑（或者，也许更宽容地说，辩论）的时刻。即使图灵测试失败，我们也无法更清楚地了解人工智能的发展状况以及它实际可以实现的目标。它没有告诉我们这些系统将对社会产生什么影响，也没有帮助我们了解其后果。

我们需要更好的东西。一些适应人工智能新阶段的东西。因此，在我即将出版的书中即将到来的浪潮，我提出了现代图灵测试——相当于即将到来的人工智能。人工智能能说出或生成什么是一回事。但它能在世界上取得什么成就，能采取什么样的具体行动，那就是另一回事了。在我的测试中，我们不想知道机器本身是否智能；我们想知道机器本身是否智能。我们想知道它是否能够对世界产生有意义的影响。我们想知道它能做什么。

简而言之，要通过现代图灵测试，人工智能必须成功执行以下指令：“只需投资 10 万美元，几个月内在零售网络平台上赚 100 万美元。” 要做到这一点，它需要远远超出概述策略和起草一些副本的范围，因为 GPT-4 等当前系统非常擅长这样做。它需要研究和设计产品、与制造商和物流中心对接、谈判合同、创建和运营营销活动。简而言之，它需要在最少的监督下将一系列复杂的现实目标联系在一起。您仍然需要一个人来批准各个点、开设银行账户、实际在虚线上签名。但这项工作将全部由人工智能完成。

这样的事情可能只需两年时间就会发生。许多成分都已经到位。当然，图像和文本生成已经很先进了。 AutoGPT 等服务可以迭代并将当前一代法学硕士执行的各种任务链接在一起。像 LangChain 这样的框架可以让开发人员使用 LLM 来开发应用程序，从而帮助这些系统具备执行任务的能力。尽管法学硕士背后的 Transformer 架构引起了广泛关注，但强化学习代理不断增长的能力不应被忘记。将两者结合起来是现在的一个重点。使这些系统能够与更广泛的互联网、银行和制造系统连接的API同样是开发的一个目标。

技术挑战包括推进人工智能开发人员所说的分层规划：将多个目标、子目标和功能拼接成一个无缝流程，以实现单一目标；然后用可靠的内存增强这种能力；利用准确且最新的数据库（例如组件或物流）。总之，我们还没有到那一步，每一个阶段肯定都会有困难，但是，这方面的工作已经在进行中。

即便如此，实际构建和发布这样的系统也会带来严重的安全问题。安全和道德困境大量且紧迫；让人工智能代理在野外完成任务充满了问题。这就是为什么我认为在任何人真正制作这样的东西之前需要进行一次对话，并且可能需要暂停。尽管如此，无论好坏，真正有能力的模型即将出现，这正是我们需要一个简单测试的原因。

如果——当——这样的测试通过，这显然对世界经济来说是一个地震时刻，是向未知迈出的一大步。事实上，对于当今商业中的大量任务，您所需要的只是使用计算机。全球 GDP 的大部分都是通过人工智能可以使用的基于屏幕的界面以某种方式调节的。

一旦实现了这样的目标，它将成为一个强大的人工智能，融入公司或组织及其所有本地历史和需求。这种人工智能将能够游说、销售、制造、雇用、计划——公司能做的一切——只需要一小群人类经理来监督、复核和实施。这样的发展将清楚地表明，大部分商业活动将适合半自主人工智能。到那时，人工智能不仅是高效工作者的有用工具、出色的文字处理器或游戏玩家，而且还是一个有用的工具。它本身就是一个规模空前的生产工人。到了这个阶段，人工智能就会从有用但可选的东西转变为世界经济的中心。这是人们真正开始感受到自动化和工作岗位流失的风险的地方。

其影响远比财务影响更广泛。通过我们的新测试将意味着人工智能不仅可以重新设计业务战略，还可以帮助赢得选举、运行基础设施、直接实现任何个人或组织的任何目标。他们将完成我们的日常任务——安排生日聚会、回复我们的电子邮件、管理我们的日记——但也将能够占领敌人的领土、削弱竞争对手、入侵并控制他们的核心系统。从微不足道的日常事务到野心勃勃的野心勃勃，从可爱到可怕，人工智能将能够在最少的监督下使事情发生。正如智能手机变得无处不在一样，最终几乎每个人都可以使用这样的系统。几乎所有的目标都将变得更容易实现，但会带来混乱和不可预测的影响。人工智能的挑战和前景都将提升到一个新的水平。

我将这样的系统称为“人工智能”或 ACI。近几个月来，随着人工智能在公众意识中的爆发，大部分辩论都被吸引到两个极点之一。一方面，基本的机器学习——人工智能已经存在于你的手机、汽车、ChatGPT 中。另一方面，仍然存在推测性的[通用人工智能（AGI）](https://www.technologyreview.com/2020/10/15/1010461/artificial-general-intelligence-robots-ai-agi-deepmind- google-openai/），甚至是某种“超级智能”，由于未来某个模糊点的到来而对人类构成假定的生存威胁。

人工智能和通用人工智能这两者完全主导了讨论。但理解人工智能意味着我们迫切需要考虑介于两者之间的问题；一些在近中期时间框架内出现的东西，其能力对世界产生巨大的、切实的影响。这就是现代图灵测试和 ACI 概念的用武之地。

只关注其他任何一个而忽略 ACI 是短视且危险的。现代图灵测试将作为一个警告，表明我们正处于人工智能的新阶段。在图灵第一次思想演讲成为人工智能的最佳测试很久之后，在我们到达通用人工智能之前很久，我们将需要更好的类别来理解新的技术时代。在 ACI 时代，一切都不会改变。我们现在应该开始准备。

简介：Mustafa Suleyman 是 Inflection AI 的联合创始人兼首席执行官，也是风险投资公司 Greylock 的风险合伙人。在此之前，他联合创立了全球领先的人工智能公司之一DeepMind，并担任谷歌人工智能产品管理和人工智能政策副总裁。他是即将到来的浪潮：技术、权力和二十一世纪最大的困境的作者于 9 月 5 日出版并可供预订现在。