Scaling Law无法无限扩展？科学家揭示低精度训练的极限

作者：DeepTech深科技发布时间：2024-11-13

这些年大模型的发展史，某种程度上也是模型规模不断扩张的历史。更大规模的模型参数带来了性能的不断提升，但与此同时，计算成本也急剧增加。

为了降低计算成本，低精度训练与推理成为了一种行之有效的策略，它能通过减少计算量和内存占用来提升训练效率和推理速度。例如 Llama-3 405B，就采用了 BF16（即 16 位浮点，而非传统的 32 位）精度进行训练。

图丨 BF16 概览 [2]（来源：MAARTEN GROOTENDORST）

且随着硬件支持的逐渐发展，专门为低精度计算设计的计算单元和优化的内存架构不断涌现，使得 FP8、FP4 等更低精度的训练方式逐渐成为可能，能在减少计算和存储成本的同时，保持模型的数值稳定性和性能。于是，目前有关缩放定律的研究似乎并未充分考虑精度这一因素的影响。

那么，代价是什么呢？

在这一背景下，来自哈佛大学、斯坦福大学与 MIT 等机构的合作团队提出：随着模型规模的不断扩大，低精度的量化或将不再有效。

相关论文以《精度感知的缩放定律》（Scaling Laws for Precision）为题，发表在预印本网站 arXiv 上 [1]。

图丨相关论文（来源：arXiv）

在低精度训练中，模型的 Scaling Laws 变得更加复杂，因为量化带来的误差可能影响模型的准确性，尤其是在处理大量数据时。传统的 Scaling Laws 多基于高精度训练，并未考虑低精度带来的误差放大效应。

为此，团队提出了一种“精度感知”（precision-aware）的缩放定律，相比以往研究，该定律不仅考虑了模型参数的数量和数据规模，还引入了精度这一新的维度，来研究其对训练和推理损失的影响。

为了探索这一问题，研究团队对 465 个语言模型进行了实验，这些模型的规模从 3000 万到 17 亿个参数不等，并使用了包含 260 亿 tokens 的数据集进行训练。实验中涵盖了不同精度的组合，从 3 位到 16 位，模拟了多种低精度环境，以研究其对模型性能和计算效率的影响。

图丨主要发现示意图（来源：arXiv）

首先，研究分析了后训练量化（Post-Train Quantization, PTQ）的影响。后训练量化是指在模型完成训练后，将其高精度的权重量化为低精度，以减少推理时的存储需求。这种方法通常被用于深度学习模型的部署阶段，以节省硬件资源。

然而，团队发现，后训练量化带来的模型性能损失会随着训练数据量的增加而增加，特别是在低精度下，这种损失可能非常显著。

具体来说，随着数据量的增加，模型的权重逐渐变得更加“紧凑”，而这种紧凑性使得在进行低精度量化时，模型更容易出现较大的性能损失。因此，增加训练数据并不总是能带来推理阶段的性能提升，尤其是在需要进行量化的情况下，这样的训练数据量可能会使模型的推理性能下降。

为了进一步理解低精度训练的影响，研究者对不同部分的低精度训练进行了单独实验，包括仅量化权重的“量化感知训练”（Quantization-Aware Training）和对权重、激活及 KV 缓存同时量化的“低精度训练”（Low-Precision Training）。

通过这些实验，研究者分别观察了各组件在不同精度设置下对模型损失的影响，并总结了低精度训练对模型整体性能的作用机制。

实验结果显示，在较低精度下，增加权重的位精度所带来的收益很大，但在较高精度下会趋于饱和。

相比之下，激活和 KV 缓存在更低精度下的量化则可能显著增加模型的损失。

通过这些实验，研究者意识到各个组件的低精度效果是相对独立的，但同时存在一个共同的现象：模型的总有效参数数会随着各组件精度的降低而显著下降，进而导致模型损失的上升。

虽然在权重精度较低时，增加模型参数可以使模型达到与高精度小模型相似的性能。但对于那些极低精度（例如 INT3 或 FP4）的训练，即使模型的总参数数量增加，其学习能力和表现也可能大幅度下降，因为这些低精度参数无法完全捕捉复杂的数据特征。

所以，随着数据量的增加，使用更高的训练精度可以更好地利用这些数据，从而提高模型的性能。

为了将训练与推理阶段的精度、参数和数据之间的相互作用统一起来，研究团队提出了一种统一的精度缩放定律。该定律综合了训练中的损失、后训练量化中的损失，以及它们在不同精度设置下的表现，其公式如下：

通过将训练损失和推理损失结合在一起，研究由此提供了一个统一的框架来预测低精度训练和量化后的性能。这种精确的建模使得研究者能够预测在不同训练和推理精度组合下的性能变化，从而为未来模型的精度选择提供了理论依据。

团队指出，尽管 16 位精度（BF16）已成为训练大规模模型的常规选择，但实际上 7 到 8 位精度可能在计算成本与性能之间达到更优的平衡点，并进一步指出在极低精度（如 4 位以下）下，模型的有效参数数将显著减少，导致需要成倍增加参数量以维持模型性能，这在实际中或许行不通。

综上，这项研究通过一系列精度实验与理论推导，揭示了低精度训练对模型性能的深远影响。通过精度感知的扩展规律，研究者不仅为低精度模型训练提供了科学依据，也为未来模型的精度优化指明了方向。

图丨相关推文（来源：X）

有学者表示，“这是长期以来最重要的一篇论文。它以强有力的证据表明，我们正在达到量化的极限”，它或许意味着，我们的思维模式“将很快从规模化转变为‘我们能用现有资源做什么’”。

参考资料：

1.https://arxiv.org/abs/2411.04330

2.https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization

3.https://x.com/Tim_Dettmers/status/1856338255408517388

运营/排版：何晨龙

新疆保华润天航空无人机培训：随着科技的飞速发展，无人机集群飞行控制技术正成为低空经济领域的一大亮点。本文将深入探讨这一技术的工作原理、特点、实现方式以及面临的挑战和未来展望，揭示它如何为低空经济的发展注入新的活力和动力。那么，什么是一机多控无人机集群飞行控制技术呢？简单来说，这项技术就是通过特定的算法和通信协议，实现多架无人机之间的协同作业和飞行控制。这种技术的出现，不仅大大提高了无人机的作业效率和安全性，还为低空经济的发展开辟了新的道路。首先，让我们来了解一下这项技术的特点。一机多控无人机集群飞行控制技

保华润天青少年无人机昨天

Scaling Law无法无限扩展？科学家揭示低精度训练的极限

推荐体验

相关资讯

科学家首次用数学证明AI致命弱点无法开发稳定算法

LLM的范式转移：RL带来新的 Scaling Law

科学家也要失业了？AI成为主脑科学家，AI主导的科学革命已来

科学家被ChatGPT骗了

Bard拿ChatGPT数据训练的？谷歌顶级科学家抗议无果，出走OpenAI

近期资讯

双板双工位换网器组成结构和工作原理

【低空经济+无人机】协同作业、智能控制：深入解析无人机集群飞行控制技术

CICC说菌丨嗜酸乳杆菌

余氯检测仪对应用环境的严格要求

在线水质五参数检测仪在管网中的应用及优势

如何使用PHP开发API接口？

华南化工成分检测专业技术服务-优尔鸿信

C3.AI最新专利：推动生成性人工智能的前沿技术

4J45（一种铁镍合金）热加工温度

智慧养老教学新趋势:实训室建设引领行业新发展

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响