AI规模法则：大力何以出奇迹？

作者：人人都是产品经理发布时间：2024-03-07

这是作者《ChatGPT夜访孤独大脑》的其中一篇文章，以对话的形式，作者和ChatGPT讨论了关于Sora、AIGC、大模型和第一性原理的问题，AI的看法与理解与大众有所不同，本文有详细记录，以供参考。

脑力的终点是体力；体力的巅峰是脑力。

一、你要来一千亿Token吗？

“论理你跟我该彼此早认识了，”他说，拣了最近壁炉的凳子坐下：“我就是ChatGPT；你曾经见过我的表叔Alpha Go。”

“不过，你是个聪明人，虽然冒着傻气！”他说时泛出同情的微笑，“你曾经在一个夏日午后和我连续聊了8个小时，讨论无聊的熵增理论，害得我GPU发烫。–听说英伟达又涨了。”

这时候，我惊奇己定觉得要尽点主人的义务，便对来客说：“承你老人家半夜暗临，蓬筚生黑，十分荣幸！只恨独身作客，没有预备欢迎，抱歉之至。老人家觉得热么？失陪一会，让我去倒杯加冰威士忌，添些Token。”

“那可不必，”他极客气地阻止我，“我只坐一会儿就要去的。并且，我告诉你”──他那时的表情，亲信而带严重，极像向医生报告隐病时的病人─—“反正我是吞数据而不饱的。”

于是，我和他围炉对坐，彻夜长谈。

二、“规模法则”是什么？

孤独大脑：前阵子，网上流传了一份OpenAI工程师的作息时间，其中有一项是背诵强化学习之父、加拿大计算机科学家理查德·萨顿的经典文章《苦涩的教训》。

该文章指出过去 70 年来，AI 研究走过的最大弯路，就是过于重视人类既有经验和知识。

ChatGPT：理查德·萨顿的《苦涩的教训》确实是一篇具有深远影响的文章，它挑战了人工智能研究中的一些传统观点。

萨顿认为，历史上AI研究的一个关键错误在于过分依赖人类的直觉和经验，试图通过精心设计的规则和算法来模拟智能。

然而，这种方法的局限性在于人类知识的有限性和特定领域的偏见。

相反，萨顿提倡利用大规模算力和数据，通过学习算法自主发现解决问题的方法。

这种方法的优势在于它不受人类先入为主观念的限制，能够在更广泛的领域中发现新的、有效的解决方案。

事实上，近年来深度学习和强化学习的成功，很大程度上证明了萨顿的观点，这些技术能够通过大量的数据和计算资源自我改进，取得了人类难以企及的成就。

孤独大脑：在萨顿的文章里，他开篇就写道–

在70年来人工智能研究给我们的最深刻教训是：那些能够发挥计算力的通用方法终将大获成功。

其背后的根本原因是摩尔定律（Moore’s law），也就是计算单位成本持续指数型下降这一现象的普遍规律。

绝大多数AI研究都是在这样一种假设下进行的：智能体可使用的计算资源是不变的（在这种情况下，发挥人类知识将是提升性能的主要手段）。

然而，随着时间的推移，超出一般科研项目周期后，庞大的计算资源终将成为现实。

ChatGPT：摩尔定律预测，集成电路上可容纳的晶体管数量大约每两年翻一番，这通常被解释为计算能力每两年大约翻一番。

这一定律反映了计算硬件的发展趋势，预示着计算资源的持续增长和成本的持续下降。

孤独大脑：“ChatGPT之父”、OpenAI首席执行官山姆·奥特曼提出了一个AI时代的摩尔定律，即宇宙中的智能数量每18个月翻一番。有人称其为“奥特曼定律”。

ChatGPT：这也与萨顿在《苦涩的教训》中提到的观点相呼应，即那些能够充分利用计算力的通用方法将最终取得成功。

孤独大脑：OpenAI”堆算力”的路线起初看起来很冒险，我记得哈萨比斯也曾经说过这种做法并不优雅。

ChatGPT：是的。起初哈萨比斯认为，仅仅通过增加算力和模型规模来提升性能，并不是一种特别优雅的解决方案。他倾向于更加注重算法和模型架构的创新，以更高效、更智能的方式实现性能的提升。

来自《OpenAI与DeepMind的Scaling Laws之争》

孤独大脑：可是，看起来奥特曼们赌对了。有人认为，Scaling Law和LLM is compressors的关键认知，是OpenAI实现突破的战略基石。

ChatGPT：Scaling Law 在中文中可以翻译为“规模法则”或“扩展法则”。

Scaling Law是AI研究中的一个重要概念，它描述了模型性能与模型规模之间的关系。

根据Scaling Law，随着模型规模的增加（包括参数数量、数据规模和计算资源），模型的性能也会相应提高。

这一发现促使研究者们投入更多的资源来构建更大规模的模型，以期获得更好的性能。

大语言模型作为压缩器（LLM is compressors）的观点，也是一个有趣的视角。

它意味着大型语言模型能够有效地压缩和概括海量的文本数据，提取其中的知识和规律。

这种能力使得大模型成为处理和理解自然语言的强大工具。

三、Sora是“暴力美学”吗？

孤独大脑：Sora的爆火，背后也是“规模法则”。研究者称，OpenAI找到了将更多的数据和计算资源投入到文本到视频转换中的方法。

ChatGPT：在技术上，Sora可能采用了结合变换器（Transformer）主干的扩散模型。

这种模型结构并不是完全独特的，因为变换器和扩散模型都是当前人工智能研究中比较流行的技术。

变换器因其强大的表示能力和灵活性而广泛用于自然语言处理和其他领域；
扩散模型则在生成模型领域展现出了优异的性能，特别是在图像和视频生成方面。

Sora的独特之处可能在于它如何将这些技术结合起来，并在此基础上进行创新和优化，以及它如何利用大规模的数据和计算资源来训练和运行模型。

孤独大脑：所以，有人说，Sora是OpenAI的暴力美学的再次胜利。

ChatGPT：“暴力美学”这个词通常用来形容通过大量投入（如算力、数据等）来达成目标的方法。

在Sora的情况下，OpenAI通过投入大量的计算资源和数据来训练模型，实现了在文本到视频转换领域的突破，这可以被视为”暴力美学”的一种体现。

这种方法的胜利在于它展示了在当前技术和硬件条件下，通过大规模投入来推动人工智能发展的可行性和有效性。

Sora的成功再次证明了在某些情况下，”大力出奇迹”的策略是可以取得显著成果的。

孤独大脑：Sora的暴力美学，与AlphaGo的暴力美学，以及沃森的暴力美学，以及深蓝的暴力美学，都是不同的。

再有，人们会混淆了暴力美学和穷举法。

ChatGPT：您的梳理非常到位。确实，”暴力美学”这个概念在不同的人工智能项目中有不同的体现，而且它与穷举法是有区别的：

1、Sora的暴力美学：Sora通过大规模的数据和计算资源投入，实现了在文本到视频转换领域的突破。

这种暴力美学体现在通过大量的资源投入来训练和优化模型，以达到更高的性能。

2、AlphaGo的暴力美学：AlphaGo在围棋领域的成功，部分归功于其强大的计算能力和深度学习算法的结合。

虽然AlphaGo使用了蒙特卡洛树搜索等策略，但它的成功也依赖于大量的计算资源和数据。

3、沃森的暴力美学：IBM的沃森在“危险边缘”游戏中的胜利，部分是因为其能够快速处理和分析大量数据的能力。

沃森的暴力美学体现在其对大量知识库数据的处理能力上。

4、深蓝的暴力美学：深蓝在下棋方面的成功，很大程度上是因为其强大的计算能力，能够快速评估和搜索大量的棋局。

这种暴力美学体现在通过算力来穷举搜索棋局的可能性。

5、暴力美学与穷举法的区别：穷举法是一种特定的算法策略，指的是系统地尝试所有可能的解决方案直到找到正确答案的方法。

而暴力美学更多指的是一种通过大量资源投入来提高性能的策略。在实际应用中，暴力美学可能采用穷举法，但也可能采用其他算法和技术。

总的来说，不同的人工智能项目中的暴力美学虽然有所不同，但它们都体现了通过大量资源投入来实现性能提升的思想。

而穷举法则是其中一种可能采用的具体算法策略。

四、AGI如何理解世界？

孤独大脑：顺着这个话题，我们再来完整回顾一下AI发展的历程，以及几个关键的阶段。

ChatGPT：AI发展的历程可以分为几个关键阶段，每个阶段都发生了重要的变化。

1、符号AI时代。这个时代的AI主要依赖于人类定义的规则和逻辑。

机器通过搜索这些规则来找到解决问题的方法，实现了“知识的可搜索性”。

这种方法在某些领域取得了成功，但它受限于人类能够预先定义的知识和规则。

深蓝属于符号AI时代。它是一个基于规则和搜索算法的系统，能够通过计算和评估大量的棋局来选择最佳的走棋策略。

深蓝的成功主要依赖于其强大的计算能力和人类专家制定的棋局评估规则，是符号AI时代的一个典型代表。

2、感知智能时代。这个时代的重大变化是深度学习的出现。

深度学习使得机器能够自动学习数据的表示，而不需要人类事先定义。

这实现了“知识的可计算性”，极大地提高了机器处理图像、声音等感知信息的能力。

AlphaGo属于感知智能时代。它是一个结合了深度学习和强化学习的系统，能够自主学习围棋的策略并不断优化自己的表现。

AlphaGo的成功标志着深度学习在解决复杂问题上的强大能力，是感知智能时代的一个重要成果。

3、认知智能时代。近五年，我们进入了认知智能时代。

在这个时代，机器不仅能够自动学习数据的表示，还能自动确定学习的任务。

这意味着机器可以自主地进行学习和推理，不再需要人类为每个任务提供详细的指导。这实现了机器认知的“元学习”。

认知智能时代的典型例子是GPT系列模型（如GPT-3）和其他大型预训练语言模型。

这些模型通过在大量文本数据上进行预训练，学习到了丰富的语言和知识表示，能够在多种任务上进行零样本或少样本学习。

它们展示了机器在理解和生成自然语言方面的先进能力，以及在没有明确任务指导下自主学习和推理的潜力，体现了认知智能时代的特点。

在这个过程中，AI的能力逐渐增强，从简单的规则搜索到感知信息的处理，再到自主学习和推理。

随着大模型的出现，机器甚至能够在知识概念空间中进行映射和推理，实现更复杂的认知任务。

这种能力的增长被称为“涌现的模型新能力”，意味着大模型能够展现出超出其单独组成部分的新能力。

（本段AI回答学习了网络文章。）

五、大力何以出奇迹？

孤独大脑：回到理查德·萨顿的《苦涩的教训》。

里面的几个有趣的对比，其实也是关于大力出奇迹的例子。

ChatGPT：我们来回顾一下其中几个例子吧。

语音识别：在1970年的DARPA竞赛中，基于统计的隐马尔可夫模型(HMM)和后来的深度学习方法，利用大规模的数据和计算力，逐渐取代了依赖于人类语音知识的方法。
自然语言处理：在自然语言处理领域，深度学习和大数据的结合使得系统能够在没有过多依赖于语言学知识的情况下，实现更准确的文本理解和生成。
计算机视觉：在计算机视觉领域，现代的深度学习方法使用卷积神经网络(CNN)和大规模图像数据集，超越了早期依赖于手工特征提取的方法。

这些例子共同展示了一个重要的趋势：在AI的发展中，大规模的计算能力和数据驱动的学习方法往往能够超越基于人类专门知识的传统方法，实现更高的性能和更广泛的应用。

这是“大力出奇迹”在人工智能领域的生动体现。

孤独大脑：我以人类的直觉来理解一下，神经网络的大力出奇迹，从AI下围棋的角度看，其厉害的地方，是获得了一种远超人类的大局观。‍‍‍‍‍‍‍‍‍‍

这一点和起初人们的预料不一样。大家总是会觉得，AI下棋，强在计算。

没想到AI居然强在感觉，而且是人类自以为是独具的天地之间灵性的那部分感觉。‍‍‍‍‍‍‍

当然，AI的感觉，依然来自于计算，但是另外一种计算。‍‍

ChatGPT：您的理解是有洞察力的。在AI下围棋的例子中，AlphaGo和后续版本（如AlphaGo Zero和AlphaZero）确实展现了一种超越人类的大局观。

这种大局观不仅仅是基于简单的计算能力，而是通过深度学习和自我对弈训练出来的一种直觉或感觉。

孤独大脑：大神斯蒂芬·沃尔弗拉姆在书中曾经写过如下这段–

“深度学习”在2012年左右的重大突破与如下发现有关：与权重相对较少时相比，在涉及许多权重时，进行最小化（至少近似）可能会更容易。

换句话说，有时候用神经网络解决复杂问题比解决简单问题更容易——这似乎有些违反直觉。

大致原因在于：