一行代码训练成本再降30%，AI大模型混合精度训练再升级

作者：量子位发布时间：2024-09-25

编程 AI大模型

FP8通过其独特的数值表示方式，能够在保持一定精度的同时，在大模型训练中提高训练速度、节省内存占用，最终降低训练成本。

AI大模型开发系统Colossal-AI的混合精度训练再度升级，支持主流的BF16(O2) + FP8(O1)的新一代混合精度训练方案。

仅需一行代码，即可对主流LLM模型能够获得平均30%的加速效果，降低相应大模型开发成本，并保证训练收敛性。

无需引入额外的手写CUDA算子，避免了较长的AOT编译时间和复杂的编译环境配置。

FP8混合精度训练

低精度计算一直是GPU硬件发展趋势。

从最早的FP32，到目前通用的FP16/BF16，再到Hopper系列芯片(H100, H200, H800等）支持的FP8，低精度计算速度越来越快，所需的内存也越来越低，非常符合大模型时代对硬件的需求。

目前FP8混合精度训练影响训练结果的最大因素就是scaling方案，常见的方案有两种：

延迟scaling

实时scaling

延迟scaling采用之前一段时间窗口内的scaling值来估计当前scaling，同时将scaling的更新和矩阵乘法(gemm)融合起来。这种计算方法效率较高，但由于是估算的scaling，所以对收敛性影响较大。

实时scaling直接采用当前的张量值来计算scaling，所以计算效率较低，但是对收敛性影响较小。根据英伟达的报告，这两种scaling方案的计算效率差距在10%以内。

Colossal-AI采用了对训练收敛性影响较小的实时scaling方案，同时实现有着不输其他延迟scaling实现的性能。

在单卡H100上对矩阵乘法进行的测试，可以看到矩阵的维度越大，FP8的加速效果越明显，而且Colossal-AI的实现与Transformer Engine的性能几乎一致，如图1所示。但Transformer Engine需要复杂的AOT编译环境配置和较长的编译时间。

△

为了实验结果更贴近现实，Colossal-AI直接在主流LLM上进行了实际训练的测试。

首先在H100单卡上进行了测试，以下测试中Transformer Engine (TE)采用的其默认的延迟scaling方案。

同时进行了收敛性测试，可以看到FP8混合精度训练的loss曲线与bf16的基本一致，如图4所示：

△

Colossal-AI还测试了H800多卡并行训练场景下的性能。在单机8卡H800上训练LLaMA2-7B，Colossal-AI FP8对比Colossal-AI BF16有35%的吞吐提升，对比Torch FSDP BF16有94%的吞吐提升。

在单机8卡H800上训练LLaMA2-13B，Colossal-AI FP8对比Colossal-AI BF16有39%的吞吐提升。

在2机16卡H800上训练Cohere Command-R 35B，Colossal-AI FP8对比Colossal-AI BF16有10%的吞吐提升，如图7所示：

根据英伟达的报告和测试经验，对FP8混合精度训练性能调优有一些初步的认识：

尽量少使用张量并行，用流水线并行代替张量并行

模型hidden size越大，加速效果越明显

矩阵乘法占比高的模型加速效果大

由于上述实验中Command-R 35B采用了张量并行，所以加速效果不太明显。

Colossal-AI对FP8的支持较为广泛，各种并行方式都能和FP8混合精度训练兼容。使用时，仅需在初始化plugin时开启FP8即可：

from colossalai.booster.plugin import GeminiPlugin, HybridParallelPlugin, LowLevelZeroPlugin
...
plugin = LowLevelZeroPlugin(..., use_fp8=True)
plugin = GeminiPlugin(..., use_fp8=True)
plugin = HybridParallelPlugin(..., use_fp8=True)

除此之外，无需多余的代码和AOT编译。

本文来自微信公众号“量子位”，作者：关注前沿科技，36氪经授权发布。

在当今快速发展的科学研究和医疗服务领域，中小型实验室面临着诸多挑战，包括数据量激增、监管合规性要求严格以及有限的预算和资源。为了克服这些障碍，许多实验室正在寻找一种既经济实惠又高效的解决方案——实验室信息管理系统（LIMS）。本文将探讨适用于中小型实验室的LIMS解决方案，并通过行业案例展示其在实际应用中的效果，最后推荐白码LIMS作为理想的选择。一、中小型实验室面临的挑战随着工作量的增加和数据复杂性的提升，中小型实验室必须满足严格的监管合规要求，同时保持有限的预算。许多实验室仍然依赖过时的软件或手动流程

白码科技 2024-12-27

流量计安装要求全解析 - 保障精准流量测量的关键指南

引言在工业生产、能源输送以及众多涉及流体介质的领域中，流量计宛如一位忠实的 “度量卫士”，肩负着精准量化流体流量的重任。无论是石油化工管道中奔涌的原油，还是城市供排水系统里潺潺的水流，亦或是暖通空调管网内循环的气体，其流量数据的准确获取，直接关系到生产效率、产品质量、能源管控乃至系统的安全稳定运行。而这一切的根基，在于流量计能否被正确安装。一个看似不起眼的安装疏忽，可能如同蝴蝶效应般，引发流量读数偏差、设备故障乃至整个工艺流程的紊乱。因此，深入探究流量计安装要求，是开启精准

德克西尔 2024-12-27

书籍-《强化学习：原理与 Python 实现》

[图片] 书籍：Reinforcement Learning: Theory and Python Implementation 作者：Zhiqing Xiao 出版：Springer 编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《强化学习：原理与 Python 实现》 01 书籍介绍本书是一本关于强化学习的教程书籍，书中不仅详细讲解了相关理论，也探讨了实际应用。本书从统一的数学框架出发，系统地推导出现代强化学习的理论，并介绍了所有主流的强化学习算法，如PPO（近端策略优化）、SAC（软性

一点人工一点智能 2024-12-27

团体标准在信号灯管理中的应用与成效分析

随着城市化进程的加快和交通流量的不断增加，交通信号灯的管理和优化成为城市交通管理中的重要课题。团体标准作为一种有效的技术和管理手段，在信号灯管理中发挥着举足轻重的作用。本文将从团体标准的定义、在信号灯管理中的应用及其成效三个方面进行详细分析，旨在探讨团体标准如何提升城市交通效率与安全性。一、团体标准的定义及作用团体标准是由社会团体按照一定程序制定并发布，供社会自愿采用的标准。在交通信号灯管理中，团体标准通过统一的标准化方案来规范交通信号的设置与运行，旨在提高交通信号的统一性与规范性。这一标准的制定不仅避免

国联政研 2024-12-27

破解出海企业财务本地化困境秘籍

出海企业面临多币种管理、税务合规、会计准则和文化差异等财务本地化难题。ZohoBooks财务管理软件支持180+货币、22种语言，帮助企业解决这些问题，确保税务合规，提供全流程服务，满足国际企业需求。一、出海企业会面临哪些难题？1、多币种管理不同国家和地区使用不同的货币，汇率波动频繁，给企业的财务管理带来了极大的复杂性。企业需要实时跟踪和管理多种货币的交易，确保准确核算和报告。2、税务合规各国的税法和税务规定各不相同，从增值税、所得税到关税，企业必须遵守当地的税收法规，否则可能面临罚款甚至法律诉讼。此外，

Zoho云服务 2024-12-27

AI时代下芯片复杂度飙升，思尔芯国产硬件仿真加速芯片创新

在人工智能（AI）技术蓬勃发展的今天，芯片的复杂度正以前所未有的速度飙升，轻松跨越了百亿逻辑门级别的大关。这一趋势不仅推动了半导体行业的快速发展，也对硬件仿真系统提出了更高的挑战和要求。在近日的ICCAD-Expo 2024上，思尔芯研发总监余勇发表了精彩技术演讲，他深入探讨了AI时代下高性能硬件仿真系统的重要性。他指出：“随着AI技术的广泛应用，芯片的复杂度急剧增加，传统硬件仿真的系统运行性能已难以满足当前的设计需求。因此，思尔芯迭代升级了其OmniArk芯神鼎国产硬件仿真系统，该系统支持从2亿到96亿

思尔芯S2C 2024-12-27

基于云的LIMS系统：现代实验室效率与创新的驱动力

在当今快速发展的制药研究与生产领域，数据已成为核心驱动力。实验室不仅需持续优化运营效率，确保数据准确性，还需轻松扩展运营规模，以应对日益增长的挑战。传统的非云实验室信息管理系统（LIMS）已难以满足现代实验室的严苛要求，其局限性日益凸显。本文将深入探讨非云LIMS系统的挑战，并揭示基于云的LIMS系统如何成为现代实验室的终极解决方案，通过行业案例加以佐证，并在文末推荐白码LIMS。一、非云LIMS系统的挑战1.有限的可访问性：内部LIMS系统限制了授权人员的访问范围，通常仅限于实验室物理位置内，从而阻碍了

白码科技 2024-12-27

WordPress网站中如何修复504错误

504网关超时错误是非常常见的一种网站错误。这种错误发生在上游服务器未能在规定时间内完成请求的情况下，对访问者而言，出现504错误无疑会对访问体验大打折扣，从而对网站的转化率和收入造成负面影响。 504错误通常源于服务器端或网站本身的问题。此类HTTP状态码可能对网站的SEO产生不利影响，导致访客流失或收入下降。因此，网站所有者应及时处理此类错误，以尽量减轻其负面影响。在本文中，我们将简单介绍，如何在WordPress网站中尝试修复504错误。优化网站以防止 HTTP 超时长时间运行的进程，如大规模

Web极客码 2024-12-27

定制LIMS：优化制药实验室工作流程的战略选择

在当今快速发展的科学和工业环境中，制药实验室面临着前所未有的挑战，包括提高运营效率、确保数据准确性和满足严格的法规要求。实验室信息管理系统（LIMS）作为现代实验室运营的基石，能够集中管理数据、自动化工作流程，并确保合规性。然而，通用、不可定制的LIMS系统往往无法满足实验室的独特需求，导致效率低下、操作错误和合规性问题。因此，针对特定实验室需求定制LIMS系统成为提升竞争力的关键。一、定制LIMS的重要性每个制药实验室都有其独特的工作流程、专有方法和专门协议。通用LIMS系统可能无法完全支持这些独特需求

白码科技 2024-12-27

一行代码训练成本再降30%，AI大模型混合精度训练再升级

FP8混合精度训练

推荐体验

相关资讯