微调大模型，AMD MI300X就够了！跟着这篇博客微调Llama 3.1 405B，媲美H100

作者：机器之心Pro发布时间：2024-10-08

机器之心报道

机器之心编辑部

随着 AI 模型的参数量越来越大，对算力的需求也水涨船高。

比如最近，Llama-3.1 登上了最强开源大模型的宝座，但超大杯 405B 版本的内存就高达 900 多 GB，这对算力构成了更加苛刻的挑战。

如何降低算力的使用成本和使用门槛，已经成为许多公司寻求突破的关键。Felafax 就是其中的一家创业公司，致力于简化 AI 训练集群的搭建流程。

Nikhil Sonti 和 Nikhin Sonti 创立了 Felafax，他们的口号是在构建开源 AI 平台，为下一代 AI 硬件服务，将机器学习的训练成本降低 30%。

与英伟达相比，AMD 的 GPU，尤其是 MI300X 系列，提供了更高的性价比，按每美元计算，其性能表现更为出色。

最近，Felafax 的联合创始人 Nikhil Sonti 发布了一篇博客，详细分享了如何通过 8 张 AMD MI300X GPU 和 JAX 微调 LLaMA 3.1 405B 模型的方法，所有代码现已开源。

Github 链接：https://github.com/felafax/felafax

机器之心对博客内容进行了不改变原意的编译、整理，以下是博客内容：

JAX 尤其适合非英伟达硬件

JAX 是一个强大的机器学习库，结合了类似 NumPy 的 API、自动微分功能以及 Google 的 XLA 编译器。它在模型并行化方面提供了优秀的 API，因此非常适合像 LLaMA 3.1 405B 这样的超大模型训练。

在使用 AMD 硬件时，JAX 有几个明显的优势：

多硬件并行支持：JAX 采用 XLA（加速线性代数）编译器，将计算编译为硬件无关的中间表示（HLO），这意味着同样的 JAX 代码无需修改便可高效运行在不同硬件后端，包括 AMD GPU。
独立于底层硬件：XLA 编译器的优化策略是通用的，不针对某个特定的硬件平台。这使得任何支持 XLA 的硬件设备（如 CPU、GPU、TPU）都能受益于这些优化，获得更好的性能表现。
极高的适应性：从 NVIDIA 转移到 AMD（或其他硬件）时，JAX 只需做极少的代码改动。而相较之下，PyTorch 与英伟达的 CUDA 生态系统紧密耦合，迁移过程相对复杂。

因此，JAX 成为了我们在非英伟达硬件上的最佳选择。

拉取 Docker 镜像：

docker pull rocm/jax:latest

启动 Docker 容器：

# Pull the Docker Image:

docker pull rocm/jax:latest

# Start the Docker Container:

docker run -it -w /workspace --device=/dev/kfd --device=/dev/dri --group-add video \

--cap-add=SYS_PTRACE --security-opt seccomp=unconfined --shm-size 16G rocm/jax:latest

# Verify the Installation:

python3 -c 'import jax; print(jax.devices())'

验证安装

python3 -c 'import jax; print (jax.devices ())'

训练使用了一个配备了 8 张 AMD MI300x GPU 的 AMD 节点。每张 MI300x 拥有 192GB 的 HBM3 内存，性能表现与最新的英伟达 H100 GPU 相比非常出色。

与英伟达 H100 的比较，来源：TensorWave

训练 LLaMA 405B：性能与可扩展性

使用 JAX，可以成功地在 AMD GPU 上训练 LLaMA 405B 模型。我们使用 LoRA 微调，将所有模型权重和 LoRA 参数都设为 bfloat16，LoRA rank 设为 8，LoRA alpha 设为 16：

模型大小：LLaMA 模型的权重占用了约 800GB 的显存。
LoRA 权重 + 优化器状态：大约占用了 400GB 的显存。
显存总使用量：占总显存的 77%，约 1200GB。
限制：由于 405B 模型的规模过大，batch 大小和序列长度的空间有限，使用的 batch size 为 16，序列长度为 64。
JIT 编译：由于空间限制，无法运行 JIT 编译版本；它可能需要比急切模式稍多的空间。
训练速度：使用 JAX 急切模式，约为 35 tokens / 秒。
内存效率：稳定在约 70% 左右。
扩展性：在 8 张 GPU 上，使用 JAX 的扩展性接近线性。

由于硬件和显存的限制，我们无法运行 JIT 编译版本的 405B 模型，整个训练过程是在 JAX 的急切模式下执行的，因此还有很大的进步空间。

下图中显示了在一次微调训练步骤中，8 张 GPU 的显存利用率和 rocm-smi 输出：

GPU 利用率：

显存利用率：

rocm-smi 输出：

训练设置

将 LLaMA 3.1 从 PyTorch 移植到 JAX

此前，Nikhil Sonti 分享过如何将 LLaMA 3.1 从 PyTorch 移植到 JAX。他指出，目前 90% 的大型语言模型（LLM）都运行在 NVIDIA GPU 上，但实际上还有一些同样强大且性价比更高的替代方案。例如，在 Google TPU 上训练和部署 Llama 3.1 的成本比 NVIDIA GPU 低约 30%。

然而，支持非 NVIDIA 硬件的开发工具较为匮乏。Sonti 最初尝试使用 PyTorch XLA 在 TPU 上训练 Llama 3.1，但过程并不顺利。XLA 与 PyTorch 的集成不够完善，缺少一些关键的库（如 bitsandbytes 无法正常运行），同时还遇到了一些难以解决的 HuggingFace 错误。

为此，他决定调整策略，将 Llama 3.1 从 PyTorch 移植到 JAX，成功解决了这些问题。Sonti 还录制了详细的教程视频，并开源了所有代码：

方法演示：https://dub.sh/felafax-demo
代码仓库：https://github.com/felafax/felafax

加载模型，并把模型参数分片

处理像 LLaMA 405B 这样的超大模型，需要在多个设备之间高效地进行参数分片。以下是如何通过 JAX 实现这一点的。

在 JAX 中进行参数分片

为了将巨大的 LLaMA 405B 模型高效地分布到 8 张 AMD GPU 上，需要使用 JAX 的设备网格（device mesh）功能。

部署代码：https://github.com/felafax/felafax/blob/e2a96a0e207e1dc70effde099fe33a9e42a7d5cb/llama3_jax/trainer_engine/jax_utils.py#L69

JAX 的设备网格可以帮助我们把可用的设备组织成一个网格，让我们可以指定如何把模型的参数和计算分配到不同的 GPU 上。

在本文的设置中，需要创建一个形状为（1, 8, 1）的网格，并将轴分别命名为数据并行（dp）、全分片数据并行（fsdp）和模型并行（mp）。然后，为模型的每个张量定义特定的分片规则，指定这些维度如何沿着这些网格轴进行分片。

DEVICES = jax.devices ()

DEVICE_COUNT = len (DEVICES)

DEVICE_MESH = mesh_utils.create_device_mesh ((1, 8, 1))

MESH = Mesh (devices=DEVICE_MESH, axis_names=("dp", "fsdp", "mp"))

可视化分片

可以使用以下代码来可视化分片结果，从而方便地验证分片规则是否按预期应用。

jax.debug.visualize_array_sharding

分片规则

模型不同组件的分片规则如下所示：

参数如何分片：

参数要在 8 个 GPU 之间分配。例如，LM head（lm_head/kernel）张量有两个轴，按照 PS ("fsdp", "mp") 进行分片。在本例中是 8 和 1，因此可以看到该张量在第一个轴上沿着 8 个 GPU 被拆分。

Non-Replicated 参数：

没有任何分片规范的参数会在所有设备上进行复制。例如，层归一化（attention_norm/kernel 和 ffn_norm/kernel）没有设置分片规范，是 PS (None)。

应用分片函数

在加载模型时，使用以下分片函数逐步对模型权重进行分片：

def make_shard_and_gather_fns (partition_specs):

def make_shard_fn (partition_spec):

out_sharding = NamedSharding (mesh, partition_spec)

def shard_fn (tensor):

return jax.device_put (tensor, out_sharding).block_until_ready ()

return shard_fn

shard_fns = jax.tree_util.tree_map (make_shard_fn, partition_specs)

return shard_fns

# Create shard functions based on partitioning rules

shard_fns = make_shard_and_gather_fns (partitioning_rules)

这使得我们能够将每个参数放置在指定的设备上，并按照设定的分片进行处理。

分片训练 Batch

最初，训练 Batch 是正常创建的，但在输入模型之前，需要按照下面的代码在 GPU 上进行分片：

train_batch = jax.device_put ( train_batch,

NamedSharding (self.mesh, PS ("dp", "fsdp")))

在这里，我们指定训练 Batch 应该在 "dp" 和 "fsdp" 轴上进行分片，在本例中分别对应于被分成 1 和 8 份，如果把结果可视化出来，如下所示：

分片前：

在调用 jax.device_put 之后：

加入 LoRA

LoRA 通过将权重更新分解为低秩矩阵，减少了可训练参数的数量，这对于微调大型模型特别有效。以下是在 AMD GPU 上微调 Llama 3.1-405 的 LoRA 的要点：

将 LoRA 参数（lora_a 和 lora_b）与主模型参数分开。
使用 jax.lax.stop_gradient (kernel) 来防止对主模型权重的更新。
使用 lax.dot_general 进行快速、精确控制的矩阵运算。
LoRA 输出在添加到主输出之前会被缩放为 (self.lora_alpha/self.lora_rank)。

LoRADense 层

在此设定一个自定义的 LoRADense 层，该层集成了 LoRA 参数：

class LoRADense (nn.Module):

features: int

lora_rank: int = 8

lora_alpha: float = 16.0

@nn.compact

def __call__(self, inputs: Any) -> Any:

# Original kernel parameter (frozen)

kernel = self.param ('kernel', ...)

y = lax.dot_general (inputs, jax.lax.stop_gradient (kernel), ...)

# LoRA parameters (trainable)

lora_a = self.variable ('lora_params', 'lora_a', ..., ...)

lora_b = self.variable ('lora_params', 'lora_b', ..., ...)

# Compute LoRA output

lora_output = lax.dot_general (inputs, lora_a.value, ...)

lora_output = lax.dot_general (lora_output, lora_b.value, ...)

# Combine original output with LoRA modifications

y += (self.lora_alpha/self.lora_rank) * lora_output

return y.astype (self.dtype)

分片 LoRA 参数

为了高效地在设备之间分配 LoRA 参数，我们也通过 JAX 设定了分片规则，这确保了 LoRA 参数与主模型参数的分片一致，优化了内存使用和计算效率。

LoRA A matrices (lora_a)

LoRA A 矩阵（lora_a）

分片规则：PS ("fsdp", "mp")
可视化结果：如下图所示，lora_a 参数被分片为 (8, 1)，这意味着第一个轴在 8 个设备上进行分片（"fsdp" 轴），而第二个轴未进行分片。

LoRA B 矩阵（lora_b）

分片规则：PS ("mp", "fsdp")
可视化结果：如下图所示，lora_b 参数被分片为 (1, 8)，这意味着第二个轴在 8 个设备上进行分片（fsdp 轴），而第一个轴未进行分片。

这种分片策略优化了参数的分配，减少了通信开销，并在训练过程中增强了并行性。它确保每个设备仅持有一部分 LoRA 参数，使得大模型如 LLaMA 405B 的高效扩展成为可能。

仅更新 LoRA 参数

为了优化训练，在微调 LLaMA 405B 模型，只计算 LoRA 参数的梯度，保持主模型参数不变。这个方法减少了内存使用，并加速了训练，因为只更新较少的参数。可以移步 GitHub 仓库，查看实现细节。

在训练过程中，每一步都涉及将一批输入数据通过模型进行处理。由于只有 LoRA 参数是可训练的，因此模型的预测和计算的损失仅依赖于这些参数，然后对 LoRA 参数进行反向传播。只更新这些参数简化了训练过程，使得在多个 GPU 上高效微调像 LLaMA 405B 这样的大型模型成为可能。

更多研究细节，请参考原博客。

近期资讯

全面解析蚂蚁U3S21EXPH：SHA-256算法挖掘的理想设备

#BTC# Antminer 蚂蚁U3S21EXPH开箱测评：矿界新贵，性能与效率的双重飞跃在加的密的货的币挖掘领域，每一次新品的发布都牵动着无数矿工的心弦。今天，李依小编有幸为大家带来Bitmain最新力作——Antminer 蚂蚁U3S21EXPH的开箱测评。这款定于2024年12月发布的服务器，以其惊人的860 Th/s哈希率和创新的液冷技术，未发先热，成为了业界关注的焦点。开箱初印象首先，从包装箱中取出Antminer 蚂蚁U3S21EXPH的那一刻，就能感受到其不凡的工业设计。服务器整体尺

依17779130177 2024-09-30

AI机器人破解验证码：交通灯挑战不再是障碍

在互联网上，验证码测试要求用户点击图像网格以验证他们是人类，这无疑是最让人烦恼的事情之一。尽管如此，大多数用户还是认为它们是必要的，因为它们可以防止机器人堵塞网络、进行欺诈或抓取数据。然而，随着机器人技术的不断进步，验证码测试的有效性已经大大降低，现在有定制的机器学习软件能够完全绕过谷歌的实现。苏黎世联邦理工学院的研究人员开发了一种机器学习程序，它能够以完美的准确率解决谷歌reCAPTCHA v2图像识别挑战。尽管这些经常受到批评的测试正在变得过时，但它们在互联网安全中仍然扮演着重要的角色。验证

星鸢依依 2024-09-30

word文档怎么把两页变成一页？3个小技巧，立马搞定

你也想把文档里的内容合并成一页，却不知道该怎么办？别担心，这两页内容看似分道扬镳，却有“牵手”的可能。关于word文档怎么把两页变成一页，文章将会分享3个小技巧，让你的文档变得紧凑又美观，文档编辑不再是个难题！方法一：通过调整页边距合并word文档在Word文档中，页边距是决定文档排版是否美观的关键因素之一。对于word文档怎么把两页变成一页的问题，有时候，适当调整页边距就能解决。这就像是文字周围的安全距离，如果将它缩小一点，就能腾出更多空间，容纳更多文字了！你可以按照以下步骤进行调整：步骤1：打开你的文

庄壮壮略略略 2024-09-30

关于地理如何夯实基础，迎难而上--我们揉碎了《五本教材》，整理了200个常见设问

地理的学习重在思路与积累，重在表达与逻辑，虽然对于记忆而言要求并不甚高，但是如果在考场上有相似或者熟悉的感觉，一定能够节约时间，增加信心，也许只有很少的分数，但是将会影响正常考试的氛围。所以笔者梳理了常见的主观题答题分析模板，以资借鉴。地理学习同样也是一个开卷有益的过程，积累每个地理自然与人文有关的要素并消化吸收，然后在做题的时候能够择优选择相关的要素组合罗列，辅之以适当的表达技巧，以较为规范的文句表述出来，则可以实现经由读书所达到的理想境界。同时也是为了规避在主观题作答的过程中，出现不切实际的口

兰佩地理 2024-09-30

贝锐洋葱头浏览器如何整治当今浏览器乱象？

在企业协同办公中，通常需要使用多种工作软件。例如，远程办公需要VPN，文档编辑需要安装Office套件，而保障数据安全则需要终端安全工具。然而，日常使用频率最高的网页浏览器往往被忽视。实际上，在日常办公中，访问企业网站时常会使用附件方式传递各种文档。我们通常会将这些文档下载到本地磁盘，然后使用Office套件进行编辑。从数据生命周期视角看，文档被下载到设备磁盘仍然需要管理跟进，企业安全管理员对于数据保护的措施必须延伸到本地各种设备上。日常工作流程如果数据可以不落在本地设备上，问题就会简单得多。洋

贝锐科技 2024-09-30

物联网虚拟仿真系统对接 ThingsBoard实现手动控制

网迅通物联 2024-09-30

智慧消防：构建消防安全社会的“智慧消防管理平台”

近年来，随着城市化进程加速和高层建筑的增加，火灾安全问题愈发严重。频繁的火灾事故不仅导致了无数的人员伤亡和财产损失，更引起了社会对消防安全教育和培训的广泛关注。在这种背景下，北京欧倍尔推出了创新的“联动消防实训平台”，成为提升公众和专业人员消防安全意识与应急处置能力的重要工具。真实模拟：深度体验火灾现场“联动消防实训平台”通过先进的技术手段，创造了一个高度真实的火灾模拟环境。学员可以在虚拟的火灾现场中，体验到逼真的烟雾、火焰及其带来的威胁。系统中完善的消防设备模拟器，可以重现消防泵的轰鸣声、喷淋系统的工作

北京欧倍尔虚拟仿真 2024-09-30

《千古一帝秦始皇》秦始皇，这位在中国历史长河中留下深刻印记的帝王，他的名字永远闪耀着独特的光芒。秦始皇嬴政，13 岁继承秦国王位，凭借着非凡的智慧和果敢的决断，逐步展现出统一天下的雄图大略。他善用谋士良将，采用远交近攻的策略，先后灭掉韩、赵、魏、楚、燕、齐六国，结束了长期以来诸侯割据的混乱局面，建立了中国历史上第一个统一的多民族封建国家 —— 秦朝。秦始皇统一六国后，实行了一系列影响深远的改革措施。他推行郡县制，统一度量衡、货币和文字，修筑万里长城以抵御北方匈奴的侵扰。这些举措无疑加强了中央集权，促进了各

农者说史 2024-09-30

微调大模型，AMD MI300X就够了！跟着这篇博客微调Llama 3.1 405B，媲美H100

推荐体验

相关资讯

AMD公布新款MI300X AI芯片

AMD发布最新AI芯片，MI300X与MI300A引领市场新风潮

“最强算力芯片”登场，MI300X比H100快，但快多少？微软会是胜负手吗？

Llama 3.1 405B VS Mistral Large 2，谁是开源之王？｜AI横评

极智一周 | 两系列汇总、MI300X、H100、特供芯片、GPT-4、火灾检测、酷睿Ultra And so on

近期资讯

全面解析蚂蚁U3S21EXPH：SHA-256算法挖掘的理想设备

AI机器人破解验证码：交通灯挑战不再是障碍

word文档怎么把两页变成一页？3个小技巧，立马搞定

关于地理如何夯实基础，迎难而上--我们揉碎了《五本教材》，整理了200个常见设问

贝锐洋葱头浏览器如何整治当今浏览器乱象？

物联网虚拟仿真系统对接 ThingsBoard实现手动控制

智慧消防：构建消防安全社会的“智慧消防管理平台”

高中生最舒服的学习状态是什么样的？！

伯努利积分

《千古一帝秦始皇》

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响