GPT-4 是 OpenAI 开发的最先进的生成式人工智能。它正在改变我们工作方式的格局。但是,GPT-4 不是开源的,这意味着我们无法访问代码、模型架构、数据或模型权重来重现结果。我们不能像聊天机器人那样创建自己的 GPT-4。
为了平衡规模,开源社区已经开始研究 GPT-4 替代方案,这些替代方案提供几乎相似的性能和功能,并且需要更少的计算资源。在本文中,我们将介绍 12 个 GPT-4 替代方案,并附有简要说明。
注意:提到的某些模型具有非商业许可证,这限制了它们仅用于研究和学术目的。在使用它们之前,您需要了解这些限制。
1.ColossalChat
ColossalChat 是一个开源项目,允许您使用完整的 RLHF(人类反馈强化学习)管道克隆 AI 模型。
它是一个完全开源的项目,包括双语数据集、训练代码、演示和 4 位量化推理。所有组件都将帮助您更便宜、更快速地创建定制的聊天机器人。
2. 羊驼-LoRA
Alpaca-LoRA 是使用斯坦福羊驼和低秩适应 (LoRA)创建的模型。低等级采用使我们能够在 4GB RAM Raspberry Pi 4 上运行质量与 GPT-3.5 相似的 Instruct 模型。
该项目提供源代码、微调示例、推理代码、模型权重、数据集和演示。最好的部分是我们可以在几个小时内在单个 RTX 4090 上训练我们的模型。
3.骆马
Vicuna 可以为聊天机器人生成连贯且富有创意的文本。它是一种基于转换器的架构,在从 ShareGPT.com 收集的对话数据集上进行了微调。
Vicuna 提供了几乎 90% 的 ChatGPT 性能。它是FastChat的一部分,FastChat 是一个开放平台,允许用户训练、服务和评估他们的聊天机器人。FastChat 提供了构建自定义聊天机器人模型所需的所有组件和工具。
4. GPT4ALL
GPT4ALL 是由 Nomic AI 团队开发的聊天机器人,基于大量精选的辅助交互数据,例如文字问题、代码、故事、描述和多轮对话。该模型架构基于 LLaMa,它使用低延迟机器学习加速器在 CPU 上进行更快的推理。
使用 GPT4ALL,您可以获得 Python 客户端、GPU 和 CPU 干扰、Typescript 绑定、聊天界面和 Langchain 后端。
5.乌鸦RWKV
Raven RWKV 是ChatRWKV的一部分,它是一个类似于 ChatGPT 的开源模型,但由 RWKV(100% RNN)语言模型提供支持,而不是基于转换器。
通过使用 RNN,该模型实现了与 transformer 相当的质量和可扩展性水平,并具有更快的处理速度和 VRAM 保护的额外好处。Raven 经过微调以遵循指令,并且在 Stanford Alpaca、code-alpaca 和更多数据集上进行了微调。
6. OpenChatKit
OpenChatKit是一个综合工具包,它提供了 ChatGPT 的开源替代方案,用于开发聊天机器人应用程序。
该工具包包括用于训练您自己的指令调整的大型语言模型、微调模型的分步说明,以及用于更新机器人响应的可扩展检索系统。此外,它还包括有助于过滤掉不适当问题的两种审核功能。
七、选择
OPT(Open Pre-trained Transformer)语言模型在零样本和少样本学习以及刻板偏见分析方面表现出非凡的能力,尽管其质量不及 ChatGPT。
OPT 是一个大型语言模型家族,参数范围从 125M 到 175B。这些模型是仅解码器的转换器,这意味着它们生成从左到右的自回归文本。
8.法兰-T5-XXL
Flan-T5-XXL 是经过微调的 T5 模型,这些模型已经在以说明形式呈现的大量数据集上进行了训练。这种类型的微调显着提高了各种模型类的性能,例如 PaLM、T5 和 U-PaLM。此外,Flan-T5-XXL 模型针对 1000 多项涵盖多种语言的额外任务进行了微调。
9.百泽
由于其护栏有助于降低潜在风险,Baize在多轮对话中表现出色。它通过高质量的多轮聊天语料库实现了这一点,该语料库是利用 ChatGPT 开发的,以促进与自身的对话。
Baize 代码源、模型和数据集是在非商业(研究目的)许可下发布的。
10.考拉
Koala 是一个聊天机器人,通过在从网络上抓取的对话数据集上微调 LLaMa 进行训练。Koala 的表现优于 Alpaca,在很多情况下与 ChatGPT 类似。
考拉提供训练代码、公共权重和对话微调器,并由 100 人进行评估。
11.多莉
Dolly 是一个大型语言模型,由 Databricks 机器训练,以证明我们可以使用旧的开源语言模式并赋予它们 ChatGPT 神奇的指令跟踪能力。模型训练需要在一台机器上进行 30 分钟,使用高质量的训练数据。您甚至不需要大型模型来获得高质量。该团队使用了 60 亿参数模型,而 GPT-3 为 1750 亿。
12.打开助手
Open Assistant 是一个真正的开源项目,这意味着让每个人都可以访问基于顶级聊天的大型语言模型。它旨在通过使人们能够与第三方系统交互、动态检索信息并使用语言创建新的应用程序,从而在语言创新方面掀起一场革命。
您可以在单个高端消费类 GPU 上运行大型语言聊天机器人,其代码、模型和数据均已获得开源许可。
结论
这些 GPT-4 替代方案可以帮助研究人员、开发人员和小公司创建他们基于语言的技术并与行业巨头竞争。这些模型的性能不高于 GPT-4,但随着时间和社区的贡献,一些模型可能有超过 GPT-4 的潜力。