300美元复刻ChatGPT九成功力，GPT-4亲自监考，130亿参数开源模型“小羊驼”来了

作者：机器之心发布时间：2023-04-01

机器之心报道

机器之心编辑部

OpenAI 的强大模型们，被开源社区复刻得差不多了。

过去几个月，OpenAI 的 ChatGPT 彻底改变了聊天机器人领域的格局，也成为其他研究赶超的对象。

以 Meta 开源 LLaMA（直译为「大羊驼」）系列模型为起点，斯坦福大学等机构的研究人员先后在其上进行「二创」，开源了基于 LLaMA 的 Alpaca（羊驼）、Alpaca-Lora、Luotuo（骆驼）等轻量级类 ChatGPT 模型，大大降低了这类模型的研究、应用门槛，训练、推理成本一再降低。

由于「二创」过于丰富，生物学羊驼属的英文单词都快不够用了，但富有创意的研究者似乎总能给他们的模型找到新名字。近日，来自加州大学伯克利分校、卡内基梅隆大学、斯坦福大学、加州大学圣迭戈分校的研究者们又提出了一个新的模型 ——Vicuna（小羊驼）。这个模型也是基于 LLaMA，不过用到的是 13B 参数量的版本（作者表示，初步人工评测显示 13B 版本比 7B 版本模型要好不少，不过这不是一个严谨的结论）。

这个项目有趣的地方在于，作者在评测环节并没有通过某种「标准化考试」来测定模型性能（因为他们认为这些问题测不出模型在对话中的变通能力），而是让 GPT-4 当「考官」，看看 GPT-4 更倾向于 Vicuna-13B 还是其他基线模型的答案。结果显示，相比于现有的 SOTA 开源模型（LLaMA、Alpaca），GPT-4 在超过 90% 的问题中更倾向于 Vicuna，并且 Vicuna 在总分上达到了 ChatGPT 的 92%。

目前，该模型已经开源。

项目地址：https://github.com/lm-sys/FastChat

Meta 前段时间开源了系列大模型 LLaMA，Vicuna-13B 就是通过微调 LLaMA 实现了高性能的对话生成。这一点和斯坦福之前的 Alpaca 模型类似，但 Vicuna 比 Alpaca 的生成质量更好，速度也更快。

我们来对比一下 Alpaca 和 Vicuna 的生成结果，对于同一个问题：「为你最近刚去过的夏威夷旅行撰写一篇博客，重点介绍文化体验和必看景点」，Alpaca 的回答是：

Vicuna 的回答是：

显然，Vicuna 的回答比 Alpaca 优秀很多，甚至已经可以媲美 ChatGPT 的回答。这是怎么做到的呢？我们来看一下 Vicuna 的技术细节。

模型介绍

受 Meta LLaMA 和 Stanford Alpaca 项目的启发，Vicuna 使用从 ShareGPT 收集的用户共享数据对 LLaMA 模型进行微调。ShareGPT 是一个 ChatGPT 数据共享网站，用户会上传自己觉得有趣的 ChatGPT 回答。有传闻称谷歌的 Bard 也使用 ShareGPT 的数据，但不同的是，Vicuna 是一个完全开源的模型，研究团队明确强调 Vicuna 不能用于任何商业目的。

如下图所示，该研究首先从 ShareGPT 收集了大约 7 万个对话，然后改进了 Alpaca 提供的训练脚本，以更好地处理多轮对话和长序列。训练是一天内在 8 个 A100 GPU 上使用 PyTorch FSDP 完成的。

具体来说，Vicuna 以斯坦福的 Alpaca 为基础，并进行了如下改进：

内存优化：为了使 Vicuna 能够理解长上下文，该研究将最大上下文长度从 512 扩展到 2048。这大大增加了 GPU 内存需求，因此该研究利用梯度检查点和闪存注意力来解决内存压力问题。

多轮对话：该研究调整训练损失以考虑多轮对话，并仅根据聊天机器人的输出计算微调损失。

通过 Spot 实例降低成本：该研究使用 SkyPilot 显著降低了成本，将 7B 模型的训练成本从 500 美元削减至 140 美元左右，将 13B 模型的训练成本从 1000 美元削减至 300 美元左右。

为了提供 demo，该研究实现了一个轻量级的分布式服务系统。

demo 地址：https://chat.lmsys.org/

研究团队提供了一个具体的演示样例，其中包含多轮对话，如下视频所示：

GPT-4 做考官，Vicuna 能考 90 分以上

在模型评估方面，该研究创建了 80 个不同的问题，并利用 GPT-4 来初步评估模型的输出质量，其中将每个模型的输出组合成每个问题的单个 prompt。然后将 prompt 发送到 GPT-4，由 GPT-4 来评估。LLaMA、Alpaca、ChatGPT 和 Vicuna 的详细比较如下表所示。

具体来说，研究者也发现，通过精心设计提示，GPT-4 能够生成基线模型难以解决的各种具有挑战性的问题。该研究设计了八类问题，包括费米问题、编码、数学任务等等，用以测试聊天机器人的各个方面。之后该研究为每个类别设计了十个问题，并统计 LLaMA、Alpaca、ChatGPT、Bard 和 Vicuna 在这些问题上的性能。然后要求 GPT-4 根据有用性、相关性、准确性和细节来评估上述模型生成的答案质量。

研究发现 GPT-4 不仅可以产生相对一致的分数，而且可以详细解释为什么给出这样的分数。但是，该研究也注意到 GPT-4 不太擅长判断编码、数学任务。

由 GPT-4 评估的响应比较。

如上图所示，相比于现有的 SOTA 开源模型（LLaMA、Alpaca），GPT-4 在超过 90% 的问题中更倾向于 Vicuna，并且 Vicuna 已经具备了和 ChatGPT、Bard 相当的竞争力。在 45% 的问题中，GPT-4 将 Vicuna 的回答评为更好或媲美 ChatGPT。

GPT-4 在 80 个问题上对几个模型的评估结果（满分为 10 分）如下表所示，Vicuna 在总分上达到 ChatGPT 的 92%。

当然，与其他大语言模型类似，Vicuna 也有一定的局限性。例如，它不擅长推理或数学任务，还有在输出信息的准确性和偏见等方面存在缺陷。

不过，作为一个开源模型，性能总体上可以达到 ChatGPT 的 90%，已经非常难得，并且成本只需 300 美元。感兴趣的读者快去试试吧。

参考链接：

https://zhuanlan.zhihu.com/p/618389519?utm_medium=social&utm_oi=56560353017856&utm_psn=1625413291274199040&utm_source=wechat_session

https://vicuna.lmsys.org/

300美元复刻ChatGPT九成功力，GPT-4亲自监考，130亿参数开源模型“小羊驼”来了

推荐体验

相关资讯

300美元平替ChatGPT！斯坦福130亿参数“小羊驼”诞生，暴杀“草泥马”

ChatGPT平替“小羊驼”Mac可跑！2行代码单GPU，UC伯克利再发70亿参数开源模型

弥补斯坦福70亿参数「羊驼」短板，精通中文的大模型来了，已开源

2000元训练比肩ChatGPT的开源大模型！GPT-4亲自盖章认证

Meta发布开源大模型Llama 3 超4000亿参数对标GPT-4

近期资讯

iPhone现在还有啥吸引你！vivo：跟苹果差距很小影像上面已经开始领先

买新年“追光”装备来京东3C数码年货节享以旧换新至高补贴1500元

“格致论道·未来少年”科学讲坛举办 8位“阳光下的少年”登台演讲

敲出治愈节奏：在鸿蒙生态中，我的轻木鱼是这样诞生的

“手机壳”一键检测水质和果蔬农药残留重庆大学发布这些成果

快手可灵VS抖音即梦，实测结果出炉

雷军预告小米SU7限定色明天亮相或为玫瑰红

杭州余杭杀出超级隐形冠军：年入8.35亿全球第十

越秀好产品∙温度篇丨空间载体，内容王道，“万物以人为尺度”

WAVE 横山宏 MA.K AFSMKI AFSMKII 1/20 非涂装机甲拼装模型GK套件

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响