使用免费Colab创建带有Gradio和Hugging Face 的 LLaMa 2 聊天机器人

作者：二师兄talk发布时间：2023-12-17

Hugging Face Midjourney LLaMA

Midjourney

本文，您将学习如何使用 Gradio ChatInterface和 Hugging Face 构建一个聊天机器人。而且，您可以免费在 Colab 中运行（文末付源码）！

我们将逐个步骤地进行，因此这个教程适合初学者。但有经验的工程师也会受益匪浅。

操作流程

在这个分步指南中，我们将执行以下步骤：

在看代码之前，需要花2分钟来完成以下3个必要步骤：

确保将 Colab 运行时切换到 GPU 以获得最佳性能。在顶部菜单中转到 “Runtime” -> “Change runtime type” 并选择 “T4 GPU”。
在 Hugging Face 上创建帐户以访问模型。
获取对 Llama 2 的访问权限。重要提示：在表单中提供的电子邮件必须与您Hugging Face帐户的电子邮件完全相同。还要注意：获取模型访问权限可能需要几分钟时间。

我们将需要以下Python库：

然后，我们想使用方便的聊天界面，需要 Gradio 的最新版本。需运行：

注意： 如果安装 gradio 时遇到问题。如果遇到错误，例如 “NotImplementedError: A UTF-8 locale is required. Got ANSI_X3.4-1968”，请执行以下操作：

重新启动运行时：Runtime -> Restart Runtime

验证当前会话以获取 Llama-2 7B 模型的权限。

这是以您的身份运行 Hugging Face 代码的方式。

仔细检查您的登录状态，确保一切正常。

在输出中，您应该看到您的 Hugging Face 用户名。

引入Llama模型及其分词器

提醒一下，我们正在使用针对聊天机器人进行微调的 Llama 2 的 7B 参数版本。

设置一个简化的管道，用于提示生成文本响应。

注意： 这是我们实际加载 Llama 2 模型的步骤。因此，这段代码需要几分钟才能完成。

我们在管道中设置了4个参数，但前两个至关重要：

在我们进入代码之前，我们需要回答一个问题：

如何以正确的方式提示 Llama 2 ？

如果使用 OpenAI API，您可以通过添加 messages 和 "role" 参数来通过简单的函数调用来提示 GPT 模型。 API 负责处理其他所有事情。

但开源模型更为复杂。 它要求开发人员了解如何微调特定模型。然后，它们遵循精确的结构来生成模型响应。

当前 Llama 2 的提示，我们需要遵循这个结构：

举例：

我们分解一下：

<s></s> 是“句子”标记。它们被用来分隔每次对话的交流。将它们视为包含单个用户查询和机器人响应的“回合”。
[INST][/INST] 是用户指令的标记。我们将每个用户查询放在标签之间。
<<SYS>><</SYS>> 是系统提示的标记。我们使用它来为模型提供清晰的指令。我们在对话的第一个“回合”中，在用户 [INST][/INST] 之间传递系统提示。

以下是代码用例，根据上面的结果，我们将提示词融合到 format_message 函数：

我们解释一下我们在这里使用的函数参数：