今日最热论文：Scaling Law后继乏力，量化也不管用，AI大佬齐刷刷附议

作者：量子位发布时间：2024-11-13

几十万人关注，一发表即被行业大佬评为“这是很长时间以来最重要的论文”。

哈佛、斯坦福、MIT等团队的一项研究表明：训练的token越多，需要的精度就越高。

例如，Llama-3在不同数据量下（圆形8B、三角形70B、星星405B），随着数据集大小的增加，计算最优的精度也会增加。

换句话就是，对于大规模的训练任务，低精度的量化可能不再足够有效。

按照结论，对Scaling Law的遵循意味着我们需要保持更高精度，然而一直以来，人们通常会选择量化（将连续值或多精度值转换为较低精度）来节省计算资源。

一旦结论成立，GPU的设计和功能可能也需要相应调整，因为传统上，GPU的性能提升部分依赖于对低精度计算的优化。

正如艾伦AI研究所科学家所指出的：

这是很长时间以来最重要的论文。它用强有力的证据表明，我们正在达到量化的极限。论文得出的结论对整个领域以及GPU的未来有着广泛的影响。

与此同时，研究得出了两个重要结论：

如果量化是在后训练阶段进行的，那么更多的预训练数据最终可能反而有害；

在高（BF16）和下一代（FP4）精度下进行预训练可能都是次优的设计选择；

这也引来OpenAI员工大赞特赞：

将非常酷地看到如何SOTA量化方案（mxfp，Pw≠Pkv≠Pa等）推动前沿；在我看来，将一半的计算预算用于一次大规模运行以检查模型是否适用于大模型是值得的。

提出“精度感知”Scaling Laws

一上来，研究就指出，当前扩展的焦点主要放在了模型规模、数据量上，忽视了对精度的关注。

而事实上，随着模型进一步应用落地，低精度量化正在成为新的范式。

深度学习正朝着更低精度的方向发展。当前的前沿模型（如Llama-3系列）在BF16中进行训练，并且大家都在努力将预训练范式转移到FP8，甚至下一代硬件将支持FP4；

因此，研究想要搞清：

精度、参数和数据之间的权衡是什么？它们在预训练和推理方面如何比较？

具体而言，团队研究了在预训练和后训练，随着数据和参数的变化，精度对损失的影响如何变化。

同时，为了精确测量相关变化，团队专门提出了“精度感知（precision-aware）”的Scaling Laws，以预测和优化不同精度下的语言模型训练和推理。

先说结论。下图展示了两个主要的实验结果：

在较低精度下训练模型（例如INT3和INT4）会导致较高的损失；

在推理时使用较低精度会导致性能下降；

具体而言，左侧图表展示了在不同精度下训练模型的效果。

其中纵轴表示最终的验证损失（Val Loss），横轴表示不同的模型规模（Model Size），从30M到220M参数。不同的颜色代表了不同的训练精度，从INT3到INT6，以及没有后训练量化（No PTQ）。

研究发现，在较低精度下训练模型（例如INT3和INT4）会导致较高的损失，而随着精度的提高，损失会减少；同时，随着模型规模的增加，损失也会减少。

另外，右侧图表展示了在不同精度下进行推理时的模型性能。

其中横轴表示了推理时的权重精度（Final Val Loss）。

结果显示，在推理时使用较低精度（例如INT3和INT4）会导致性能下降，即损失的增加；而随着精度的提高，损失会逐渐减少，接近没有进行后训练量化的模型性能。

上述发现也解释了为什么Llama-3难以量化？

要知道，Llama-3发布后，它因“超15T Token数据上的超大规模预训练”而闻名，不过人们后来发现，Llama-3低比特量化性能下降显著。

这可能正如研究提到的，模型在预训练阶段看到的数据越多，对量化的敏感性就越高。

与此同时，研究还发现了：

后训练量化（PTQ，即训练完成后对模型进行量化）引起的性能退化随着模型训练数据量的增加而增加。

换句话说，在大量数据上训练的模型，如果在推理时进行低精度的PTQ，可能会导致性能显著下降。

接下来，团队提出利用“精度感知”Scaling Laws来预测模型在不同精度下的性能，并指出：

在较低精度下进行训练可以减少模型的“有效参数数量（effective parameter count）”，从而预测在低精度下训练和后训练量化产生的额外损失。

其中包含两个关键公式，它们构成了一个统一的理论框架，用于预测不同精度下训练和推理的性能。

训练后量化（PTQ）引起的损失退化预测公式：

考虑训练精度的模型损失预测公式：

统一预训练与后训练的精度预测

BTW，研究最终将后训练量化和预训练量化的影响统一起来，以此实现：

预测在任何精度组合下的预训练和后训练损失

近期资讯

Compose的全动态插件化框架支持了，已更新到AGP 8.6,Kotlin2.0.20,支持Compose

全动态插件化框架，支持Compose, WXDynamicPlugin自研零反射，零HooK,全动态化，插件化框架，全网唯一结合启动优化的插件化架构，适合小，中，大型项目均可的插件化架构，

Wgllss 2024-11-10

地球史上最大的飞行生物！500斤如何起飞

这是风神翼龙（Quetzalcoatlas），是这颗星球上出现的最大飞行生物。它们的翼展能达到13-14米，当它们张开翅膀时，就像一架飞机一样庞大。它们沿着水线飞行，以鱼类和甲壳类动物为食，它们通

2024-11-11

AI毒液刷屏抖音小红书！某鱼10元生成一次但它其实免费啊

仅仅2天时间，毒液迅猛攻占了抖音快手小红书！不过不是3分钟看完最新电影，火遍全网的是一款AI驱动的毒液特效：△来自抖音用户西北彭鱼艳攻占这几个社交平台后，不仅引来大批试玩用户（

2024-11-11

音视频面试题集锦第 10 期

我们在知识星球上创建的音视频技术社群关键帧的音视频开发圈已经运营了一段时间了，在这里大家可以一起交流和分享音视频技术知识和实战方案。我们会不定期整理一些音视频相关的面试题，汇集一份音视频面试题集锦（可

关键帧Keyframe 2024-11-10

拉散户买股票的炒股直播：正在完成收割！

2024-11-11

2024-11-11

vue源码之数组重写了哪些方法为何需要重写

7个被重写的方法在 Vue 的源代码中，数组类型重写了以下几个方法，以实现对数据变化的响应式处理： push：向数组末尾添加一个或多个元素，并返回新数组的长度。 pop：删除数组的最后一个元素，并返

鱼樱前端 2024-11-10

vue核心源码目录解读

后续源码分析都是依据 "version": "2.7.16" （vue2版本【最新版本】）和 "version": "3.5.12"【当前最新版本】（vue3版本）分析的对比、通过源码视角深入学习

鱼樱前端 2024-11-10

今日最热论文：Scaling Law后继乏力，量化也不管用，AI大佬齐刷刷附议

提出“精度感知”Scaling Laws

统一预训练与后训练的精度预测

推荐体验

相关资讯

微软CTO：AI大模型的“Scaling Law”还能走多远？

Scaling Law 又一次性感了吗？

LLM的范式转移：RL带来新的 Scaling Law

大厂齐刷刷跟进ChatGPT，为何只有百度做出了文心一言？

AI大模型的Scaling law，代表一个非常悲观的未来

近期资讯

Compose的全动态插件化框架支持了，已更新到AGP 8.6,Kotlin2.0.20,支持Compose

地球史上最大的飞行生物！500斤如何起飞

AI毒液刷屏抖音小红书！某鱼10元生成一次但它其实免费啊

音视频面试题集锦第 10 期

拉散户买股票的炒股直播：正在完成收割！

音视频面试题集锦第 11 期

二叉树的前序遍历

卷到24小时营业的奶茶：究竟是谁的福报

vue源码之数组重写了哪些方法为何需要重写

vue核心源码目录解读

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响