开源方案低成本复现ChatGPT流程，仅需1.6GB显存即可体验

作者：OSC开源社区发布时间：2023-02-21

出品 | OSC开源社区（ID：oschina2013)

开源并行训练系统 ColossalAI 表示，已低成本复现了一个 ChatGPT 训练的基本流程，包括 stage 1 预训练、stage 2 的奖励模型的训练，以及最为复杂的 stage 3 强化学习训练。具体亮点包括：

一个开源完整的基于 PyTorch 的 ChatGPT 等效实现流程，涵盖所有 3 个阶段，可以帮助你构建基于预训练模型的 ChatGPT 式服务。
提供了一个迷你演示训练过程供用户试玩，它只需要 1.62GB 的 GPU 显存，并且可能在单个消费级 GPU 上实现，单 GPU 模型容量最多提升 10.3 倍。
与原始 PyTorch 相比，单机训练过程最高可提升 7.73 倍，单 GPU 推理速度提升 1.42 倍，仅需一行代码即可调用。
在微调任务上，同样仅需一行代码，就可以在保持足够高的运行速度的情况下，最多提升单 GPU 的微调模型容量 3.7 倍。
提供多个版本的单 GPU 规模、单节点多 GPU 规模和原始 1750 亿参数规模。还支持从 Hugging Face 导入 OPT、GPT-3、BLOOM 和许多其他预训练的大型模型到你的训练过程中。

ColossalAI 是一个具有高效并行化技术的综合大规模模型训练系统；旨在无缝整合不同的并行化技术范式，包括数据并行、管道并行、多张量并行和序列并行。其声称已通过 ZeRO、Gemini、Chunk-based 内存管理等技术，极大地降低 ChatGPT 训练的显存开销；仅需一半硬件资源即可启动 1750 亿参数模型训练（从 64 卡到 32 卡），显著降低应用成本。

若使用上述相同硬件资源，Colossal-AI 则能以更短时间进行训练，节省训练成本，加速产品迭代。为了让更多开发者体验复现 ChatGPT 模型，除 1750 亿参数版本外，Colossal-AI 还提供高效的单 GPU、单机 4/8 GPU 的类 ChatGPT 版本，以降低硬件限制。

博客内容还指出，在单机多 GPU 服务器上，即便使用最高端的 A100 80GB 显卡，由于 ChatGPT 的复杂性和内存碎片，PyTorch 最大仅能启动基于 GPT-L（774M）这样的小模型的 ChatGPT。用 PyTorch 原生的 DistributedDataParallel (DDP) 进行多卡并行扩展至 4 卡或 8 卡，性能提升有限。

Colossal-AI 不仅在单 GPU 速度上训练和推理优势明显，随着并行规模扩大还可进一步提升，最高可提升单机训练速度 7.73 倍，单 GPU 推理速度 1.42 倍；并且能够继续扩展至大规模并行，显著降低 ChatGPT 复现成本。

为了最大限度地降低培训成本和易用性，Colossal-AI 提供了可以在单个 GPU 上试用的 ChatGPT 培训流程。与在 14999 美元的 A100 80GB 上最多只能启动 7.8 亿个参数模型的 PyTorch 相比，Colossal-AI 将单个 GPU 的容量提升了 10.3 倍，达到 80 亿个参数。对于基于 1.2 亿参数的小模型的 ChatGPT 训练，至少需要 1.62GB 的 GPU 内存，任意单个消费级 GPU 都可以满足。

此外，Colossal-AI 还在致力于降低基于预训练大型模型的微调任务的成本。以 ChatGPT 可选的开源基础模型 OPT 为例，Colossal-AI 能够在单 GPU 上将微调模型的容量提高到 PyTorch 的 3.7 倍，同时保持高速运行。

Colossal-AI 为 Hugging Face 社区的 GPT、OPT 和 BLOOM 等主流预训练模型，提供了开箱即用的 ChatGPT 复现代码。以 GPT 为例，仅需一行代码，指定使用 Colossal-AI 作为系统策略即可快速使用。

fromchatgpt.nn import GPTActor, GPTCritic, RewardModel

fromchatgpt.trainer import PPOTrainer

fromchatgpt.trainer.strategies import ColossalAIStrategy

strategy=ColossalAIStrategy(stage=3, placement_policy='cuda')

withstrategy.model_init_context:

actor=GPTActor.cuda

critic=GPTCritic.cuda

initial_model=deepcopy(actor).cuda

reward_model=RewardModel(deepcopy(critic.model)).cuda

trainer=PPOTrainer(strategy, actor, critic, reward_model, initial_model,...)

trainer.fit(prompts)

更多详情可查看博客内容： https://www.hpc-ai.tech/blog/colossal-ai-chatgpt

马斯克连夜命令推特工程师修改算法顶流开源项目作者全职做开源的“血泪史”：入狱、耗尽积蓄、被网暴…… 质疑我违规窃取开源代码？拉黑你！

这里有最新开源资讯、软件更新、技术干货等内容

点这里 ↓↓↓ 记得关注✔ 标星⭐ 哦

开源方案低成本复现ChatGPT流程，仅需1.6GB显存即可体验

推荐体验

相关资讯

开源方案复现ChatGPT流程！1.62GB显存即可体验，单机训练提速7.73倍

ChatGPT低成本复现流程开源！任意单张消费级显卡可体验，显存需求低至1.62GB

ChatGPT低成本复现流程开源！任意单张消费级显卡可体验

开源的 Sora 复现方案，成本降低近一半！

零门槛复现ChatGPT：预训练模型数据集直接用，包含完整RLHF流程，在线可体验

近期资讯

国科微：AI边缘计算芯片支持多场景应用

苹果今年停产15款产品！这8款降价了也别买

共铸XR终端市场科技新未来，谷歌/Meta/微美全息引领技术升级新篇章

国家数据局：鼓励企业探索市场化、场景化的“授权使用、分享收益”新模式，盘活企业数据资源

【新机】红米Turbo4官宣6550mAh电池黑色/青色外观曝光

联想电脑录屏技巧全指南：轻松掌握多种录制方法与小技巧

华为SSD韩国开售：1TB仅236元！

苹果妙控鼠标有望大升级：加入AI语音控制功能

小米 REDMI A5 手机即将亮相：多市场版本，NFC 功能成亮点

影石Insta360授权店被曝套装配件非原装！品牌方回应

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响