Scaling Law“暴力美学”真的失效了吗？

作者：适道发布时间：2024-11-19

近期，围绕Scaling Law的讨论不绝于耳。

起因是，The information在一篇文章指出，OpenAI下一代旗舰模型Orion（或称GPT-5）相较于现有模型，能力提升“有限”（代码能力甚至不如现有模型），远不如GPT-3到GPT-4的跃升，而且Orion在数据中心的运行成本更高。为此，OpenAI不得不连夜转变策略。

如果其所言非虚，就不会只有OpenAI一家被困扰。

果不其然，Google也“出事”了。其下一代Gemini模型原本应该是一次重大升级，但有员工透露：近期在大幅增加资源投入后，模型性能未达到领导层预期，团队连夜调整策略。

与此同时，Anthropic被曝已暂停推进Opus 3.5的工作，官网还撤下了“即将推出”字样。

“三巨头”接连碰壁，让人联想到：Scaling Law可能失效了？

Scaling Law，即尺度定律，称得上AI行业的大模型第一性原理。

2020年，OpenAI在论文Scaling Laws for Neural Language Models提出该定律。其核心的观点是，影响大模型性能的三大要素：计算量、数据集大小、模型参数量。当不受其他两个因素制约时，模型性能与每个单独的因素都存在幂律关系。

只要Scaling Law成立，意味着“更大更好”“大力出奇迹的暴力美学”——大模型的能力可以通过堆更多的算力、搞更多的参数，喂更多的数据得到大幅提升。

如今，当模型规模和成本大幅增加，但实际性能却提升“有限”时，Scaling Law神话是否会被终结？

正方：Scaling Law神话终结

Ilya Sutskever：扩展训练的结果，已经趋于平稳。

作为Scaling Law的早期倡导者之一，前OpenAI首席科学家Ilya Sutskever表示，扩展训练的结果，已经趋于平稳。即，传统的无监督Pre-training已达极限。

他说，2010年代是 Scaling的时代，现在我们再次回到发现奇迹的时代。每个人都在寻找下一个奇迹。现在重要的是扩大“正确”的规模。

何谓“正确”？Ilya表示，SSI正在研究一种全新的替代方法，来扩展预训练。

虽然他没有透露新方法是什么，但根据OpenAI和Google的尝试，或许可以窥探一二。

OpenAI的研究人员开发推理模型（reasoning models）等新技术，用于弥补传统训练方法的局限性。

Google也效仿这一思路。近几周，DeepMind在Gemini团队内组建了一个由首席研究科学家Jack Rae和前Character.AI联创Noam Shazeer领导的小组，专注于开发类似能力。

此外，DeepMind团队还在手动优化模型性能，包括调整超参数（hyperparameters）等变量。这些超参数决定了模型处理信息的方式，例如，迅速在训练数据中建立概念或模式之间的联系。研究人员通过“模型调优”测试不同的超参数，以确定哪些变量将带来最佳效果。

Arvind Narayanan & Sayash Kapoor：合成数据作用不大

今年6月，普林斯顿大学计算机科学教授Arvind Narayanan与其博士生Sayash Kapoor发表了一篇文章AI scaling myths。文章指出，Scaling“崇拜论”是建立在一系列误解之上。

第一，什么是“更好的”模型？具有“涌现能力”的模型。

Scaling仅仅将困惑度（perplexity）下降进行了量化，即模型能够预测下一个单词。然而，对最终的用户而言，困惑度几乎毫无意义——真正重要的是模型规模增长时，模型呈现出的“涌现能力”，即模型随着大小增加而获得新能力的趋势。

问题在于，“涌现能力”不受任何类似定律的支配。

为什么“涌现能力”不能无限持续？这一问题直指关于LLM能力的核心争议：LLM究竟能否进行外推，还是只会学习训练数据中已有的任务？现有证据尚不完整，不同研究者各执一词。但Arvind Narayanan团队倾向于怀疑态度。在一些专门测试LLM解决新任务能力的基准测试中，其表现往往较差。

如果LLM无法超越训练数据中的内容，就会进入每一个传统的机器学习模型最终都会进入的平台期。

第二，更多的数据从哪里来？

有人认为，新的数据源（例如将YouTube转录为文本）可以增加一两个数量级的可用数据量。确实，YouTube包含约1500亿分钟的视频内容。然而，考虑到其中大部分视频缺乏可用的音频（例如音乐、静止图像或游戏画面），经过去重、质量过滤后，实际可用的训练数据远少于Llama 3所使用的15万亿tokens。

退一步说，关于“数据耗尽”的讨论并不合理。训练数据永远有，只是成本越来越高，比如版权、监管等等。

对于LLM而言，我们可能还有几个数量级的扩展空间，也可能扩展已经结束了。如今，研究的重点已从构建更大数据集，转向提高训练数据的质量。通过精心的数据清理和过滤，可以用更小的数据集构建出同样强大的模型。

第三，合成数据不是万能魔药。

还有一个观点，利用现有模型生成训练数据。

这个观点同样存在误区——开发者并未（也无法）利用合成数据显著增加训练数据的总量。

一篇论文详细列出了合成数据在训练中的用途——主要集中在弥补特定领域的不足，例如数学、编程、低资源语言的优化。同样，英伟达最近推出的Nemotron 340B模型，专注于生成合成数据，是将对齐作为其主要用途。虽然它也有一些其他用途，但取代现有预训练数据源并不在其中。

换句话说，盲目靠生成大量合成数据，无法达到高质量人类数据所具备的效果。

尽管如此，合成训练数据在某些场景中取得了巨大成功，例如2016年AlphaGo 击败围棋世界冠军，以及其后续版本 AlphaGo Zero 和 AlphaZero 的表现。这些系统通过自我对弈学习，后两者甚至能自己生成高质量棋局。

自我对弈是“系统2-->系统1蒸馏”的经典案例，即通过一个缓慢且昂贵的“系统 2”生成训练数据，用于训练快速且廉价的“系统 1”模型。

这种方法在围棋这样完全封闭的环境中表现出色，将其推广到游戏之外的领域仍然是一个有价值的研究方向。在某些重要领域（如代码生成）中，这一策略或许可以发挥作用。然而，我们不能指望在更开放的任务（如语言翻译）上实现类似的无限自我改进。可以预见，通过自我对弈实现大幅提升的领域将是特例，而非普遍规律。

反方：Scaling Law没有墙

OpenAI CEO Sam Altman：there is no wall

前方The information扰乱军心，后方Sam Altman在X平台上发言——there is no wall。

近期，他在Reddit的Ask Me Anything上也表示，OpenAI将在今年晚些时候发布“非常好的版本”。

只不过，鉴于“草莓”炒作的影响、Ilya Sutskever的威望，以及OpenAI的当前表现，Altman的话难免有“挽尊”之嫌。

微软AI主管Mustafa Suleyman：不会有任何放缓

Suleyman在近期采访中表示：模型的规模既在变大，也在变小，这种趋势会持续下去。去年开始流行一种新方法，称为蒸馏。这类方法利用大型、高成本模型来训练小型模型。这种监督效果相当不错，目前已有充分的证据支持这一点。因此，规模仍然是这场竞争中的关键因素，未来还有很大的发展空间，数据量也将持续增长。至少在接下来的两三年内，Scaling Law在提供超预期表现方面的进度不会有任何放缓。

微软CEO Satya Nadella：是定律，并且一直有效

今年10月21日，在微软AI之旅伦敦站活动上，Satya Nadella在演讲中表示：Scaling Law是经验观察所得，但它被我们称作定律，并且一直有效。

微软CTO Kevin Scott：让其他人想去吧

今年7月，微软首席技术官Kevin Scott在接受红杉资本合伙人采访时表示：尽管其他人可能这样想，但是我们在规模化上并没有遇到边际收益递减的情况。

前谷歌CEO Eric Schmidt：没有证据显示

11月14日，前谷歌CEO Eric Schmidt在播客中表示：没有证据表明Scaling Law已经开始停止。他预测在未来五年，人工智能系统的能力将是现在的100倍，能够在物理和数学领域进行推理。

Abacus.AI CEO Bindu Reddy：是技术太成熟了

Bindu Reddy表示，所谓的AI减速实际上无关紧要。主要原因在于AI技术发展的潜力已经几乎在各类基准测试中得以体现。当达到100/100的高分时，就很难再找到新的突破方向。因此，AI 市场的“放缓”更多地反映了技术成熟度，而非创新能力的不足。（你信吗？）

Scaling Law 2.0：token越多，精度也要越高

无论各位如何“挽尊”，都掩盖不了大模型“减速”的事实——感受不到当初的惊艳。

或许，还有其他办法。

近期，来自哈佛大学、斯坦福大学、麻省理工等机构的合作团队发表了一篇题为Scaling Laws of Precision的论文，引发疯狂讨论。

研究提出：精度在模型扩展规律中比之前认为的更加重要，可以显著影响语言模型的性能。在以往描述模型性能随参数量和训练数据量变化的扩展规律，基本忽略了精度这一因素。随着模型规模的不断扩大，低精度的量化或将不再有效。

首先，通过实验，研究人员制订了新的精度缩放定律。另一项重要发现则提出了预训练期间计算的最优精度。根据该研究，当同时优化参数数量、数据和精度时，这一精度通常与计算预算无关。

其次，普遍采用的16位模型训练法并非最优，因为很多位是多余的。然而，使用4位进行训练则需要不成比例地增加模型大小，以维持损失缩放。研究人员的计算表明，对于较大的模型而言，7-8位是计算最优的。

当模型大小从一开始就固定时，情况就会发生变化：更大且更好的模型应以更高的精度进行训练——例如，使用16位的Llama 3.1 8B模型。实际的计算节省还取决于硬件对更低精度的支持。此外，这里研究的模型（参数最多达17亿个）尚未在最大的实际规模上进行测试。不过，这些一般趋势仍然适用于更大的模型。

CMU教授 Tim Dettmers表示，这是长久以来最重要的一篇论文。他认为，人工智能的大部分进步都来自计算能力的提升，而（最近）这主要依赖于低精度路线的加速（32- > 16 - > 8位）。现在看来，这一趋势即将结束。再加上摩尔定律的物理限制，大模型的大规模扩展可以说要到头了。他预计，随着低精度带来的效率提升达到极限，将出现从纯规模扩张向专用模型和人本应用的转变。

AGI路漫漫。不过，大家无需灰心。

退一万步，正如OpenAI研究人员Steven Heidel 所言，就算现在LLM 停滞了，在当今模型的基础上，还有至少十年的产品等着你去开发。

是不是又干劲十足了。

参考：

1、Scaling Laws终结，量化无用，AI大佬都在审视这篇论文，机器之心

2、新Scaling Law浮出水面！OpenAI内部员工爆料下一代模型Orion性能堪忧；量化Llama3困难，这些都有了新解，51CTO技术栈

本文来自微信公众号“适道”，作者：适道AI组，编辑：狮刀，36氪经授权发布。

Scaling Law“暴力美学”真的失效了吗？

正方：Scaling Law神话终结

反方：Scaling Law没有墙

Scaling Law 2.0：token越多，精度也要越高

推荐体验

相关资讯

Scaling Law 又一次性感了吗？

LLM的范式转移：RL带来新的 Scaling Law

微软CTO：AI大模型的“Scaling Law”还能走多远？

被低估的面壁：打造出不输 OpenAI 的 Scaling Law 曲线

AI大模型的Scaling law，代表一个非常悲观的未来

近期资讯

天舟七号再见！已受控再入大气层烧毁

我国唯一！地基红外天文望远镜在青海冷湖投入观测

没想到广州车展上大家还是追着雷军跑

财报一个比一个难看：BBA都怎么啦

给鸡装上一条假尾巴：走路跟霸王龙一样

华为Mate 70系列上麒麟9100！意外换成公版ARM CPU

长期睡不够身体会发生5种可怕变化！看完再也不敢熬夜了

后脑勺带面具能吓走老虎！但只维持了3年

四处漏气可能解体！NASA准备随时紧急撤离国际空间站

Intel不放弃独立显卡！第三代真的会有

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响