低内存占用也能实现满血训练？！北理北大港中文MMLab推出Fira训练框架

作者：量子位发布时间：2024-10-20

Fira团队投稿

量子位 | 公众号 QbitAI

内存占用小，训练表现也要好……大模型训练成功实现二者兼得。

来自北理、北大和港中文MMLab的研究团队提出了一种满足 低秩约束的 大模型全秩训练框架—— Fira，成功打破了传统低秩方法中内存占用与训练表现的“非此即彼”僵局。

展开来说——

为了突破内存瓶颈，许多 低秩训练方法应运而生，如LoRA（分解 参数矩阵）和GaLore（分解 梯度矩阵）。

△图1：从宏观层面分析三种内存高效低秩训练方法

然而，如上图所示，LoRA将训练局限于参数的低秩子空间，降低了模型的表征能力，难以实现预训练；GaLore将训练局限于梯度的低秩子空间，造成了子空间外梯度的信息损失。

相较于全秩训练，这两种方法由于施加了低秩约束，会导致训练表现有所下降。

但是，若提高秩值，则会相应地增加内存占用。

因此，在实际应用中，它们需要在确保训练表现与降低内存消耗之间找到一个恰当的平衡点。

这引发了一个核心问题：

能否在维持低秩约束以确保内存高效的同时，实现全秩参数、全秩梯度的训练以提升表现？

Fira即为最新答案，它有三大亮点：

即插即用：Fira简单易用，其核心实现仅涉及两行关键公式，现已封装进Python库，可直接融入现有的大模型训练流程中，替换原有优化器。代码示例如下：

from fira import FiraAdamW, divide_paramsparam_groups = divide_params(model, target_modules_list = [“Linear”], rank=8)optimizer = FiraAdamW(param_groups, lr=learning_rate)

双赢解决方案：在维持低秩约束的前提下，Fira实现了大模型的全秩训练，打破了内存占用与训练表现的取舍难题。与此同时，区别于系统方法（如梯度检查点），Fira不以时间换内存；
实验验证：Fira在多种规模的模型（60M至7B参数）以及预训练和微调任务中均展现出卓越性能，优于现有的LoRA和GaLore，甚至能达到或超越全秩训练的效果。

打造Fira训练框架

Fira训练框架由两部分组成：

1) 基于梯度模长的缩放策略：利用了团队在大模型低秩和全秩训练中发现的共通点——自适应优化器对原始梯度的修正效应，实现了低秩约束下的全秩训练。

2) 梯度模长限制器，通过限制梯度模长的相对增长比例，解决了大模型训练中常出现的损失尖峰问题。

背景动机

大模型训练常常面临显著的内存瓶颈，尤其是其中的 优化器状态。

举例来说，使用Adam优化器从头预训练一个LLaMA 7B模型（batchsize为1，精度为BF16）可能需要至少58GB内存。

其中14GB用于加载参数，14GB用于储存梯度，28GB用于储存优化器状态，剩下2GB用于储存激活值。

在这之中， 优化器状态所占内存甚至要大于参数本身。

因此，使用低秩方法来减少这一部分内存，实现大模型的内存高效训练十分重要。

而在现有的低秩方法中，LoRA通过分解参数矩阵，使用低秩适配器来减少内存占用；Galore通过分解梯度矩阵，在自适应优化器中储存低秩梯度来减少内存占用。

鉴于使用LoRA低秩适配器方法来实现全参数训练的困难性，团队选择 拓展Galore的梯度投影方法来实现全秩训练。

在Galore中，全秩梯度G𝑡 ∊ ℝmxn，会被投影矩阵P𝑡 ∊ ℝmxr分解成两项低秩梯度P𝑡R𝑡和（G𝑡—P𝑡R𝑡），其中

。

为减少像Adam这样的自适应优化器在内存中对应的状态占用，Galore仅在优化器核心 𝞧中保留低秩梯度R𝑡，而非全秩梯度G𝑡。

而另一项梯度（G𝑡—P𝑡R𝑡），则会因为缺少对应的优化器状态，被Galore直接丢弃，从而造成严重的信息损失。

这也解释了，为什么Galore的性能会在rank值减小时，显著衰减。

△图2：Fira与Galore及其变体的训练损失对比

为了弥补上述信息损失，最直观的方法是直接加上这一部分梯度（G𝑡—P𝑡R𝑡）：

其中，W是参数矩阵， 𝜂是学习率。

然而，如图所示，使用这种方法（Galore-add）不仅未能带来性能提升，反而可能导致训练过程更加不稳定，且结果更差。

分析原因可归结于这一部分的 梯度缺乏优化器状态，直接使用会退化为单纯的SGD算法，并且可能与前面使用的Adam优化器的梯度不匹配，导致效果不佳。

基于梯度模长的缩放策略

为了解决上述挑战，团队提出了 scaling factor概念，来描述Adam这样的自适应优化器对原始梯度的修正效应，并揭示了它在大模型的低秩训练和全秩训练之间的相似性。

其中，𝜙 就是scaling factor，代表经过优化器修正过的梯度与原始梯度的模长比例。

如下图，如果根据scaling factor的平均值对参数矩阵进行排序，可以发现低秩和全秩之间的排序非常相似。

△图3：scaling factor在大模型低秩和全秩训练间的相似性

基于这个观察，团队就尝试在矩阵层面用低秩梯度R𝑡的scaling factor，作为全秩梯度G𝑡的scaling factor的替代，从而近似地修正（G𝑡—P𝑡R𝑡），弥补其缺少的优化器状态：

这样团队就在低秩约束下成功实现了全秩训练。

进一步来说，刚才是从矩阵层面来考虑scaling factor。

顺理成章地，团队可以从更细粒度的角度—— 列的层面，来考虑scaling factor，实现更加精细地修正。

其中R𝑡,:,𝑖 是低秩梯度R𝑡的第i列，

是scaling factor的第i项。

梯度模长限制器

在训练过程中， 梯度常常会突然增大，导致损失函数出现尖峰，从而影响训练的表现。

经过分析，可能原因是Galore在切换投影矩阵时存在不稳定性，以及维持（G𝑡—P𝑡R𝑡）这种原始梯度的方向的方式，无法像Adam这样的自适应算法，有效应对大模型训练中存在的陡峭损失景观。

△图4：3种Fira变体的训练损失与梯度模长

然而，常见的梯度裁剪方法（如图中的Fira-gradient-clipping）由于采用 绝对裁剪，难以适应不同参数矩阵间梯度的较大差异，从而可能导致次优的训练结果。

为此，团队提出了一种新的 梯度模长限制器，它通过限制梯度模长的相对增长比例，来更好地适应不同梯度的变化：

其中𝛾是比例增长的上限，S𝑡=𝜙𝑡（R𝑡)(G𝑡—P𝑡R𝑡）是原始梯度（G𝑡—P𝑡R𝑡）修正后的结果。

通过提出的控制梯度相对增长比例的方法，能够将梯度的骤然增大转化为平缓的上升，从而有效稳定训练过程。

如图2和图3所示，团队的限制器成功避免了损失函数的尖峰情况，并显著提升了训练表现。

实验结果

如下表所示，在预训练任务中，Fira在保持内存高效的前提下， 验证集困惑度（↓）显著超过各类基线方法，甚至超越全秩方法。

具体来说，在预训练LLaMA 1B模型时，Fira节约了 61.1%优化器状态所占内存，并且取得了比全秩训练更加好的结果。

△使用C4数据集预训练不同大小的LLaMA模型验证集困惑度（↓）对比

在预训练 LLaMA 7B模型时，Fira在使用了比Galore小8倍的秩rank的情况下，训练表现远超Galore。

这展现了Fira在大规模大模型上的有效性，以及相较Galore更高的内存减少能力。

△使用C4数据集预训练LLaMA 7B的验证集困惑度（↓）对比

在八个常识推理数据集微调LLaMA 7B的任务中，相较其他基线方法，Fira在一半的数据集下表现最好，平均准确率最高的同时实现了内存高效。

△在八个常识推理数据集微调LLaMA 7B准确率对比

另外， 消融实验也显示了：

Fira-w.o.-scaling说明了Fira使用基于梯度模长的缩放策略的有效性；
Fira-matrix说明了从更细粒度的列级别，而不是矩阵级别，考虑scaling factor的有效性；
Fira-w.o.-limiter说明了Fira中梯度模长限制器的有效性；
Fira-gradient-clipping说明了梯度裁剪可能无法完全解决损失尖峰问题，导致结果次优。

△消融实验

与GaLore相比，Fira的表现几乎不受秩rank值减少的影响。

在低秩的情况下（rank=16, rank=4），Fira仍然能与全秩训练相当，相较Galore更加内存高效。

△不同rank下的预训练验证集困惑度（↓）

最后，团队在不同模型大小，以及低秩和全秩条件下，训练10,000步，并对得到的矩阵和列级别上Scaling factor做平均。

接着，使用了斯皮尔曼（Spearman）和肯德尔（Kendall）相关系数分析了Scaling factor在矩阵和列级别上大小顺序的相关性。

其中，Coefficient中1代表完全正相关，-1代表完全负相关，而P-value越小越好（通常小于0.05为显著）。

在所有规模的LLaMA模型中，Scaling factor在矩阵和列的级别上都表现出 很强的正相关关系，并且所有的P-value小于0.05，非常显著，为Fira中基于梯度模长的缩放策略提供了坚实的实验基础。

△矩阵和列级别上的Scaling factor低秩与全秩相似性分析

更多细节欢迎查阅原论文。

论文链接：https://arxiv.org/abs/2410.01623

代码仓库：https://github.com/xichen-fy/Fira

— 完—

投稿请发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容 ‍

附上论文/项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

点这里 👇关注我，记得标星哦～

科技前沿进展日日相见 ~

近期资讯

土星环或与土星同龄

日本研究人员发现，围绕土星的行星环可能与土星同龄，均存在了约45亿年。日本东京科学大学研究人员分析电脑模型推演结果，发现撞上土星环的微流星体会瞬间汽化，因此产生的带电粒子要么受引力拖拽向土星而去、要么逃逸到深空，几乎不会在这道环上留下任何暗黑物质或其他“看上去”有些脏的残留物。

北青网 2024-12-30

华大全球创新中心明年投用

北京华大研究院院长邓子卿说，在需求牵引下有的放矢地开展研发，能助力产学研有效联动，让科技实实在在地推动产业发展。当前，生物科技的发展，特别是基因组科学已离不开大数据的支撑。

北京日报 2024-12-30

加快推进品牌强国建设（新时代画卷）

沈阳新松机器人自动化股份有限公司拥有自主知识产权的工业机器人、移动机器人、特种机器人三大类核心产品，为全球4000余家知名企业提供智慧升级服务。

金台资讯 2024-12-30

微信小店蓝包：创新竞争电商新局

【微信小店新动作引发市场关注】微信小店“送礼物”在春节前低调灰测，相关概念股高涨。此新功能被称为微信“蓝包”，引发分析人士高呼“红包2.0来了”，但高管辟谣称无远大计划。微信蓝包面临内外竞争，内有微信小程序“礼物说”，外有淘宝版本的“送给TA”及抖音类似功能。电商发展需要新产品新玩法，创新推动竞争，市场底色是竞争，消费者在企业竞争中受益。

和讯网 2024-12-30

国产HBM2内存重大突破！DDR5良率明年底可达90％

中关村在线 2024-12-30

SpaceX计划今年进行144次发射已完成133次

截至12月29日，SpaceX在2024年度已完成133次发射，与该公司在年初设立的年度目标相差11次。SpaceX今日在X平台发文表示，猎鹰9号（Falcon9）在加利福尼亚州和佛罗里达州连续完成发射任务，将22颗星链（Starlink）卫星送入星座，并将Astranis的“从一到多”任务送入轨道，这是今年的第132次和第133次发射。

金融界 2024-12-30

年货节特惠：入手红米K70至尊版，仅需2085元！

红米K70至尊版搭载天玑9300+处理器，安兔兔跑分超过231万，在日常使用中，无论是开启多个应用还是浏览高质量视频，这款手机都能保持流畅运行，毫无卡顿。在游玩《原神》游戏时，画质特效全部拉满，并开启60帧模式，在25℃室温环境下，进行半小时的须弥城跑图，平均帧率稳定在60帧，没有出现卡顿掉帧的现象。

大话百科天地 2024-12-30

天猫电商平台优势分析：用户体验、商品丰富性及售后服务优点总结

在网上购物的时代，各种平台如雨后春笋般冒出，然而天猫却凭借其独特的优势和用户体验，稳稳占据了一席之地。那么，天猫到底怎么样呢？

新报观察 2024-12-30

谷歌高赌注力押 Gemini AI ，计划月活达到 5 亿

IT之家12月30日消息，据外媒androidauthority报道，谷歌正为2025年（明年）进一步加强其AI战略做准备，力押其Gemini大语言模型。

IT之家 2024-12-30

AI浪潮来袭，大学生会成为知识的“搬运工”吗

这也让不少人担忧：缺乏边界的AI工具使用，是否会消解大学教育的意义，扼杀学生的研究潜力和创造力？对此，多所高校已经有所回应，有的提出了原则性要求，有的推出细化的禁止性规定。

中国青年网 2024-12-30

低内存占用也能实现满血训练？！北理北大港中文MMLab推出Fira训练框架

推荐体验

相关资讯

ChatGPT技术解析之：训练框架InstructGPT

天玑9300内存硬件压缩技术大幅降低手机AI大模型内存占用

Redis内存空间占用及避免数据丢失的方法

英伟达发布ChatGPT专用GPU，性能提升10倍，还推出云服务，普通企业也能训练LLM

秋叶AI设计变现训练营零基础也能设计变现

近期资讯

土星环或与土星同龄

华大全球创新中心明年投用

加快推进品牌强国建设（新时代画卷）

微信小店蓝包：创新竞争电商新局

国产HBM2内存重大突破！DDR5良率明年底可达90％

SpaceX计划今年进行144次发射已完成133次

年货节特惠：入手红米K70至尊版，仅需2085元！

天猫电商平台优势分析：用户体验、商品丰富性及售后服务优点总结

谷歌高赌注力押 Gemini AI ，计划月活达到 5 亿

AI浪潮来袭，大学生会成为知识的“搬运工”吗

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响