当 ChatGPT 热度不再，下一个 AI 寒冬会来到吗？

作者：CSDN发布时间：2023-04-14

ChatGPT 的出现，显然掀起了 AI 发展的新一轮热潮，但人们是否设想过：未来狂欢散场，是否意味着下一个 AI 寒冬即将到来？

原文链接：https://www.erichgrunewald.com/posts/the-prospect-of-an-ai-winter/

作者 |Erich Grunewald

译者 | 弯月责编 |郑丽媛

出品 | CSDN（ID：CSDNnews）

▶ AI 系统没有那么好。目前的 AI 系统还太不可靠，且很难理解。实现三个 9 或四个 9 的可靠性，与仅实现一两个 9 的难度根本不是一个级别的。例如，自动驾驶汽车已经问世十多年了，虽然低可靠性的系统也可以凑合用，但大部分价值都无法实现。（注：系统的高可靠性里有个衡量其可靠性的标准——X 个 9，表示在系统 1 年时间的使用过程中，系统可以正常使用时间与总时间（1 年）之比。）

▶ AI 不会变得更好。有些人认为，我们可以将当前架构扩展到 AGI，但是 Eden 认为我们没有足够的计算能力来实现这一目标。摩尔定律的效果“越来越弱”，性价比不再呈指数级下降，我们很可能无法在全球内获得“再高两个数量级”的计算水平，而且两个数量级的提升也无法让我们实现 TAI：“如果不会出现一些重大变化（新架构、新范式），一切看似已成定局。”此外，半导体供应链集中且脆弱，如今的局面有可能发生变化。

▶ AI 产品的利润没有那么高。AI 系统似乎很适合“自动化、低成本、低风险却很重要的工作”，但这远达不到我们的期望。一些应用程序（例如网络搜索）的利润率非常低，而大型机器学习模型的推理成本会让他们望而止步。

免责声明：我的日常工作是研究 AI 管治，所以如果再次出现 AI 寒冬，我基本会失业。但我认为，AI 寒冬固然不好，但 AI 所带来的某些风险更令我们不寒而栗。

前几次的 AI 寒冬

其实，我们已经经历过很多次 AI 寒冬了。

第二次 AI 寒冬发生于 1987～1993 年间，究其原因也是未能达到预期。那是一个专家系统与联结主义（指 AI 领域中人工神经网络的应用）的时代。但专家系统无法扩展，神经网络学习缓慢、准确性低且无法泛化。那个时代 1 美元买不到 1x109 FLOPS（每秒浮点运算次数），我估计 LISP 机器的性价比都要比神经网络高 6～7 个数量级。

维基百科列出了这些寒冬背后的许多因素，但对我来说，最重要的原因是每一次我们都未能达到预期的结果。即使在经济低迷时期，即使学术资金枯竭，如果 AI 能够展示出良好的效果，就仍然能获得大量的投资。期间虽然专家系统确实取得了一些成功，但远不及我们今天看到的 AI 系统。

在我看来，这似乎是问题的症结所在：AI 系统能否达到投资者给予的厚望？

摩尔定律与计算的未来

如今，改进就意味着扩大规模，而扩展失败的原因之一是训练 AI 模型所使用的硬件停止进步了。

摩尔定律认为，芯片上的晶体管数量每两年就会翻一番，因此硬件性能每两年也会翻一番。（戈登 · 摩尔于 2023 年 3 月 24 日逝世，享年 94 岁，至少在他有生之年，该理论未被推翻。）人们经常声称，随着晶体管的尺寸接近硅原子极限，摩尔定律将会放缓。而用 Eden 的话来说，摩尔定律似乎早就失效了。

我不是半导体或 GPU 方面的专家，但据我了解，（1）在未来十年内摩尔定律依然有效；（2）即便摩尔定律失效，很有可能硬件也会通过增加晶体管密度之外的手段继续发展。

这样的情况不是第一次出现，自 2005 年前后，Dennard 缩放比例定律似乎就已经失效，单线程性能偏离了趋势，但由于核心数量的增加，晶体管数量依然在不断增加：

随着逐渐逼近原子极限，陆续涌现了很多能够保持 GPU 性能继续提升的技术，包括垂直扩展、先进的封装、新晶体管设计、二维材料以及改进后的架构和连接性。台积电、三星和英特尔相继推出了工艺节点 <2 nm 的计划（目前 SOTA 是 3 纳米），还有一些公司正在探索更多可行的解决方案，例如用于加速低精度矩阵乘法的模拟计算——推动芯片发展指数曲线图上的技术总是超出前沿思想。2016 年，Peter Lee 表示：“预测摩尔定律死亡的人数每两年都会翻一番。”到 2019 年底，Metaculus 社区有 58% 的人认为“摩尔定律将于 2025 年结束”，但现在这个数字仅上升了几个百分点。

基于 Transformer 的 AI 即将到来吗？

此处，我们主要关心的不是 FLOPS，也不是 1 美元能买到多少 FLOPS，而是 AI 实验室能负担起多少投入模型的计算量。这个计算量受到许多因素的影响，包括硬件成本、能源效率、线路/芯片良率、利用率以及实验室愿意投资的金额。那么，在接下来的几十年里，我们能否获得足够的算力来训练基于 Transformer 的 AI（以下简称 TAI）？

对于这个问题，很多人给出了非常复杂的答案，此处我将讨论一种较容易理解的方式。

Daniel Kokotajlo 设想了在当前 GPU 架构上，使用 1x1035 FLOP 计算可以做些什么。这个计算量非常庞大，比当今最大模型的训练量高出约 11 个数量级。拥有如此强大的计算能力，我们可以做的事情非常多。如今，我们无法确定计算能力是否会进一步扩展，而且除了计算之外可能还有其他重要的瓶颈，比如数据。但无论怎么看，2022 年 1x1034～1x1036 的计算量似乎足以创建 TAI。

我们姑且接受这个想法，并做出以下假设：

▶ AI 芯片的性价比每 1.5～3.1 年就会翻一番，假设这种情况会一直持续到 2030 年，之后随着摩尔定律失效，翻倍时间将将增加一倍。

▶ ImageNet 的算法进展大约每 4～25 个月就可以将计算需求减半，假设 Transformer 实现翻倍的时间增加 50%。

▶ 机器学习系统的训练费用大约每 6～10 个月翻一番，假设这会一直持续到我们的上限：100 亿美元。

基于这些假设，到 2040 年我们能实现 TAI 的概率为 50%，到 2045 年为 80%：

当然，这只是一个非常简单的模型，还有一个更为复杂和严谨的版本，即 Cotra（2020），它给出的中位数约为 2050年（后来改为了 2040 年）。相较之下，我这个简单模型可能出错的原因有很多：

▶ 扩展定律可能会失效，或者随着模型变大扩展难度也会增加，速度甚至会超过机器学习研究人员为降低扩展难度所做的努力。

▶ 扩展定律继续成立，但使用 1x1035 FLOP（2022 年）训练的模型并不一定基于 Transformer，可能需要更多计算或新架构。

▶ 构建 TAI 所需的算力可能比 1x1035 FLOP 高出几个数量级。例如，根据社区预测，在 GWP 系数增幅首次超过 30% 的前一年，最大的训练计算量约为 1x1028～1x1033 FLOPS，将这个范围作为 90% 置信区间代入模型，最终得到的中值估计为 2029 年。

▶ 硬件性价比的增长速度会比假设来得更慢或更快。

▶ 算法进步的速度可能会减慢或加快，为推动基于 Transformer 的模型诞生的算法进步速度可能会低于或高于预估值。

▶ 机器学习研究人员的数据枯竭，或者是高质量（如书籍、维基百科）甚至低质量（如 Reddit）的数据耗尽。例如，Villalobos 等人预测出高质量的文本数据将在 2024 年左右耗尽。

▶ 越来越强大的 AI 系统可以帮助我们实现自动化，或以其他方式加速 AI 的进步。

▶ 社会阻力或严格法规的影响，导致投资减少，阻碍 AI 的进步。

▶ 其他未知因素。

尽管如此，我认为 1x1035 FLOP 的计算量对于训练对于 TAI 来说足够了，在 2040 年之前也可以充分训练这样的模型。我之所以有这样的看法，主要原因之一是，随着 AI 系统变得越来越强大和实用，AI 将继续向前发展，资金将继续流入，扩展定律也将继续保持。如果 TAI 萌芽，则表明计算能力仍将不断提高。

科技发展的前沿无法保证可靠性

AI 系统令大家失望的原因之一是，长期以来这项技术一直不可靠，在可预见的未来也仍然如此。Eden 曾表示，“哪些经济领域可以接受 99% 正确的解决方案？我的回答是：不创造或无法获取大部分价值的领域。”人们经常指出，现代 AI 系统，尤其是大型语言模型是不可靠的。我认为这个观点真假参半：

▶ 如果只看前沿技术，那么确实 AI 系统非常不可靠。在一定时间段内，AI 系统在重大任务上取得成功的概率不到 10%。这些都是最受关注的任务，因此这个系统看起来不可靠。

▶ 如果只看已经熟悉的功能，AI 系统就是相当可靠的。对于某些特定任务，AI 系统在经过几代的改良后，通常都会变得越来越好。这些任务我们都很熟悉，所以我们理所当然地认为 AI 会正确地完成这些任务。

John McCarthy 曾感叹道：“一旦能够正常工作，就没有人称其为 AI 了。”Larry Tesler 也曾说：“AI 就是尚未完成的一切。”

以对随机生成的个位数整数列表进行排序的任务为例。两年前，Janus 在 GPT-3 上对此进行了测试，发现即使提供了 32 次提示，对 5 个整数列表进行排序，GPT-3 的正确率也只有 20%（10/50）；而对 10 个整数的列表进行排序时，正确率为 0（0/50）。于是，近来我对 ChatGPT（使用GPT-3）进行了同样的测试，对于 10 个整数列表，其正确率为 100%（5/5）。后来，我又要求它对 10 个整数列表行排序，正确率为 80%（4/5）。

自动驾驶

那么为什么自动驾驶汽车仍然不可靠，无法广泛使用？

我认为驾驶汽车不是一个单一的任务，而是一个复杂的任务，由一堆具有不同输入的子任务组成。驾驶的整体可靠性在很大程度上取决于这些子任务的表现，其中任何一个失败都可能导致整体失败。对于汽车来说，安全性很关键，如果自动驾驶想广泛使用，就必须能够保障可靠性，也就是说你需要掌握驾驶汽车的所有子任务。由于这些子任务的难度分布可能遵循幂律（或类似的规律），所以最后的 10% 总是比前 90% 更难完成——让人感觉马上就要实现了，但实际上整个系统真正投入使用还需要长达数年之久。

我认为，这就是 Eden 所说的：“纸上谈兵（汽车在开阔的沙漠里行驶）与真刀真枪（实际车辆驾驶需要处理许多不明情况，例如与其他驾驶员交流，以及繁忙城市街道的导航信息等）相差十万八千里。”

自动驾驶这类复杂的 AI 应用确实非常困难，而我们需要 AI 完成的也恰恰是复杂的任务，简单的任务很容易通过传统软件实现自动化。我认为，这是 AI 寒冬有可能再次降临的部分原因，不过不是最重要的原因。

第一，我认为如今自动驾驶遇到的困难并不等同于自动驾驶寒冬已然来临。尽管显然没有达到预期，并且公众兴趣明显下降，但自动驾驶方面的投资并没有下降太多，且自动驾驶的专利正在稳步上升。在我看来，自动驾驶仍在发展之中，我们也看到了“有条件的自主驾驶”三级功能，例如自动控速系统、自动变道，其采用率也每年都在攀升。因此自动驾驶汽车只是经历了典型的炒作周期，如今正在稳步向前发展。由此可见，虽然大型语言模型和其他 AI 系统未能达到人们的期望，投资虽有停滞但没有下降，所以不会出现前几次那样的寒冬。

第二，现代 AI 系统，特别是大型语言模型与自动驾驶汽车截然不同。车辆行驶中，安全是关键，还有相应的法规，人们自然不想乘坐不可靠的汽车。但大型语言模型没有任何规定，即使在没有保障措施的情况下，也有人愿意使用。我认为有很多复杂的任务都有以下特点：（1）安全性不是关键（也就是说，发生事故也不会造成巨大损失）；（2）可以自动化或由 AI 系统提供支持。

成本与利润

我讨论 TAI 的部分原因是，它可能与其他 AI 的进步有关联，另一部分原因是，人们已经开始怀疑 AI 实验室是否能在本世纪创建 TAI——尽管多年来 AI 研究人员一直在避免人们产生这种期望。

据我了解，投资者大多不会在 TAI 上下注，他们通常都希望在 10 年内获得投资回报。如果他们预计通用 AI 将在未来 10～20 年内出现，那么他们每次投入 AI 公司的资金将远远不止几亿。相反，我认为他们是想要广泛提升劳动速度、自动化常见任务，并开发出新型服务和产品的工具。

姑且抛开 TAI 不谈，ChatGPT、Bing/Sydney 和现代图像生成系统能否在未来 5 年内实现盈利？我认为，即便届时还没有盈利，也不会太久了，最多再等 1～2 年，因为需求肯定是有的。自 ChatGPT、Bing/Sydney 和 DALL-E 2 发布以来，我一直在使用，并愿意为这些服务支付不菲的费用，认为付费也合情合理。

Eden 写道：“All-in Podcast 估计 ChatGPT 的查询开销要比谷歌搜索高 10 倍左右。我曾与分析师交谈过，他们估计开销是谷歌搜索的 3～5 倍。在搜索这样的业务中，大约 10% 的改进就能成就杀手级应用，3～5 倍的提升基本就是降维打击。”

与此同时，如上一节所述，硬件成本正在迅速下降，AI 加速器的性价比约 2.1 年翻一番。因此，Eden 是正确的，GPT 之类的模型成本是老式搜索引擎的 3～5 倍，仅基于硬件性价比趋势，这种差异将在 3～6 年内消失。诚然，未来会有更好的模型，但运行成本也会更高，似乎如今的模型已经能够从传统搜索引擎中夺取可观的市场份额了，同时老式搜索引擎的质量也正在下降。

在我看来，在 GPT-3 或 GPT-4 等基础模型之上构建产品的 AI 公司被过度炒作了。例如，Character.AI 最近以 10 亿美元的市场估值筹集到了 2 亿美元的资金，用于构建一项服务，然而该服务似乎并没有真正在标准 ChatGPT API 之上增加太多价值，尤其现在 OpenAI 还添加了系统提示功能。不过我认为，这些公司可能会被其他更通用的 AI 系统淘汰，所以他们的失败不会引发 AI 寒冬。

可能引发 AI 寒冬的原因

到此为止，我们的讨论都是基于一个前提：“AI 寒冬都是由于 AI 系统无法提供实际用途以及利润空间而引发的”。AI 不可靠、硬件性价比进步放缓、推理计算成本太高，只有当影响到 AI 的实际用途与利润空间时才会被考虑。我认为，这是迄今为止最有可能引发 AI 寒冬的方式，但并不是唯一的可能，其他可能性还包括限制性立法/法规、重大故障或事故、大国冲突以及极端经济衰退。

如果我们真的在十年内看到 AI 寒冬，我认为最有可能的原因将是以下之一：

▶ 扩展遇到困难。在达到一定数量之后，计算、数据以及参数等的扩展都将停止。例如，OpenAI 训练 GPT-5 所用的算力、数据和参数都远超 GPT-4，但结果可能不会有大幅提升。

▶ 尽管 AI 在执行分布内任务方面变得更好且更可靠，但真正的分布外泛化还很遥远。

▶ 高质量的数据枯竭。

我认为 AI 寒冬不太可能来临，2030 年出现 AI 寒冬的概率只有 5%（如果 AI 寒冬的定义是全球 AI 投资的缩减比例超过 50% 的话）。如果你和我一样，认为我们还没有为 TAI 的到来做好准备，那么这将是一个不幸的消息。