如何使用单个指令微调GPT-3.5或Llama 2

作者：51CTO发布时间：2024-02-29

由于在各种任务中的通用性，像ChatGPT和Llama 2这样的大型语言模型(LLM)广受欢迎。然而，有些应用程序需要使用自定义数据对这些模型进行微调，以获得更好的性能。

不幸的是，针对特定应用程序对大型语言模型(LLM)进行微调通常是复杂和令人沮丧的，并且在很大程度上取决于应用程序类型和所需的数据。幸运的是，HyperWrite公司首席执行官Matt Schumer开发了一个非常有用的工具--gpt-llm-trainer，它简化了Llama 2或GPT-3.5 Turbo的微调过程。

gpt-llm-trainer将微调LLM的复杂任务减少到单个简单明了的指令，让用户更容易根据自己的需求调整这些模型。

gpt-llm-trainer是如何工作的

gpt-llm-trainer采用了一种称为“模型蒸馏”(Model Distillation)的技术。这个过程在本质上是将知识从一个规模较大的机器学习模型(教师)转移到一个规模较小的机器学习模型(学生)。在LLM的场景中，模型蒸馏通常涉及教师模型生成特定于任务的训练示例，这些示例随后用于训练规模较小的模型。

gpt-llm-trainer对开发者的任务进行描述，使用GPT-4自动为其要训练的规模较小模型生成训练示例。然后，这些示例用于开发者微调选择的模型，目前包括Llama 2和GPT-3.5 Turbo。

需要注意的是，模型蒸馏并不是一种微调LLM的万能解决方案。在许多情况下，开发者可能仍然需要经历手动管理自己数据的艰难过程。然而，模型蒸馏在教师模型的表现上超过学生的情况下被证明特别有效。

为了确定蒸馏是否是完成任务的一种正确方法，开发者可以参考基准绩效报告，或者对教师和学生模型进行自己的实证研究。这将帮助开发者做出明智的决定，并优化微调过程。

图1：LLM模型蒸馏

如何使用gpt-llm-trainer

开发者可以在相关网站访问gpt-llm-trainer的GitHub页面。Matt还准备了两个谷歌Colab笔记本，一个用于GPT-3.5 Turbo，另一个用于Llama 2，这使得无需设置自己的Python环境即可轻松运行它们。

要使用gpt-llm-trainer工具，首先需要一个OpenAI帐户和一个有效的API密钥。这把密钥应该记在笔记本上，上面写着“你的密钥在这里”(YOUR KEY HERE)。

在笔记本的第一个单元格中，将输入任务的描述、所需示例的数量以及温度，这将调整模型的创造力水平。接下来的步骤很简单：依次运行单元以生成示例并训练模型。

如果使用的是Llama 2笔记本，生成的模型将保存到谷歌云盘中。如果使用的是GPT-3.5笔记本，则模型将存储在开发者的OpenAI帐户中。

值得注意的是，OpenAI的服务条款禁止使用其LLM来训练竞争产品的模型。这意味着开发者不能将经过gpt-llm-trainer微调的模型用于商业目的。但可以很容易地使用它来创建自己的写作或编码助手或其他个人日常使用的工具。

还要注意的是，数据生成和训练过程可能很耗时，这取决于开发者希望生成和微调模型的示例数量。由于示例是使用GPT-4生成的，因此监控训练成本非常重要，可以用不到一美元的费用生成大约50个简短的训练样本。但是，如果计划生成一个大型数据集，需要谨慎地考虑成本。你可以从生成一小批示例开始，然后评估它们的质量并根据需要调整指令，然后再继续创建整个数据集。

对于使用Llama 2笔记本的用户，gpt-llm-trainer将默认微调“NousResearch/ Llama -2-7b-chat-hf”模型，无需填写申请表即可访问。如果想调整原来的Meta Llama 2，需要修改代码并提供Hugging Face密码。另外，微调将使用Colab的GPU执行，因此请确保将运行环境配置为使用GPU。

改进gpt-llm-trainer

虽然gpt-llm-trainer是一个功能强大的工具，但它基于谷歌Colab的界面并不是最友好的，因为Colab通常不是为生产环境设计的。

此外，还有几个功能可以增强这个工具的可用性。例如，生成的训练示例将不会被存储，并且在Colab会话结束后将被丢弃。但是，这些示例在会话期间存储在Pandas DataFrame中，并且通过一些编码，可以将它们导出到CSV文件以供将来使用。

一个有趣的想法是将gpt-llm-trainer移植到Streamlit，这将为微调LLM提供一个更加用户友好的界面，允许使用开发者自己的训练示例进行引导，并允许存储生成的示例以供以后使用。虽然gpt-llm-trainer是LLM蒸馏的一个很好的起点，但是有很多方法可以改进它。

原文标题：How to fine-tune GPT-3.5 or Llama 2 with a single instruction，作者：Ben Dickson

链接：https://bdtechtalks.com/2023/11/03/gpt-llm-trainer/

如何使用单个指令微调GPT-3.5或Llama 2

gpt-llm-trainer是如何工作的

如何使用gpt-llm-trainer

改进gpt-llm-trainer

推荐体验

相关资讯

GPT-3.5 微调实践

使用 DPO 微调 Llama 2

使用 PyTorch FSDP 微调 Llama 2 70B

昆仑万维：天工通用大模型推理能力超过GPT-3.5和LLaMA2

使用 InstructPix2Pix 对 Stable Diffusion 进行指令微调

近期资讯

云晟（安徽）能源装备科技有限公司取得聚氨酯组合式光伏框架结构专利，提高工作人员工作效率

安徽格恩半导体申请GaN基化合物半导体激光元件专利，提升光束质量因子

中国电建集团青海省电力设计院有限公司取得可旋转光伏支架专利，能够对太阳光进行有效利用

大连美天取得可以快速固定的光伏发电板及其安装组件专利，提升发电效率

安徽格恩申请一种氮化镓基大功率绿光激光器的芯片结构专利，降低大功率绿光激光器的阈值电流密度

青岛翼晨镭硕申请周期性量子点增强型半导体可饱和吸收镜及其制备方法专利，能制备周期性量子点增强型半导体可饱和吸收镜

安徽格恩半导体申请 GaN 基大功率蓝光激光器的芯片结构专利，降低激光器阈值电流提升光电转换效率

福建金固美能源科技有限公司取得连接组件及BIPV支架专利，一定程度地调节了固定光伏板的宽度

山东华光申请一种新型半导体激光器侧面泵浦结构专利，有效解决水冷激光器相关问题

华光光电子申请具有异质波导的量子级联激光器及其制备方法专利，实现芯片输出功率提升以及阈值电流密度降低

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响