OpenBMB 对齐技术 UltraLM 登顶斯坦福 Alpaca-Eval 开源模型榜单

作者：OpenBMB发布时间：2023-07-02

最近，UltraLM-13B 在斯坦福大学 Alpaca-Eval 榜单中位列 开源模型榜首，是 唯一一个得分在 80 以上的开源模型。

ChatGPT 之后，开源社区内复现追赶 ChatGPT 的工作成为了整个领域最热的研究点。其中，对齐（Alignment）技术是最重要的环节之一，来自斯坦福大学、伯克利、微软、Meta、Stability.AI 等多个机构都争相推出相关的模型和方法（如Alpaca、Vicuna、WizardLM 等等）。

我们在探索对齐技术的过程中发现，训练出具有基本指令理解和追随能力的模型本身难度不高，但训练出可以针对各类指令都能给出高质量、有信息量和逻辑性回复的模型则十分困难。团队通过可扩展多样性（Scalable Diverse）的方法来大规模构造指令数据 UltraChat，并且在此之上开发了 UltraLM 对话语言模型。

➤ Github 链接 🔗

https://github.com/thunlp/UltraChat

➤ Huggingface 链接 🔗

https://huggingface.co/openbmb/UltraLM-13b

➤ 榜单链接 🔗

https://tatsu-lab.github.io/alpaca_eval/

斯坦福 Alpaca Eval 榜单介绍

—

AlpacaEval 是斯坦福大学发布的用于自动评估大语言模型的排行榜，它包括了从测评数据集、模型回答生成，到自动评估的完整评测流程，目前榜单已经包含了来自全球各个机构的多个代表性模型。具体而言，该排行榜主要评估大模型遵从指令的能力以及回答质量，其中排行榜所使用的数据集共计805条指令，集成了来自于 Self-instruct，Open Assistant, Vicuna 等项目发布的测评数据。排行榜的具体指标计算方式为使用GPT-4自动评估当前模型的回答与 Text-Davinci-003 的回答，统计当前模型的胜率。

AlpacaEval 的实验表明，榜单所采用的 GPT-4 评估与人类标注结果的皮尔逊相关系数达到 94%，说明该评估方式可靠性较高。同时，研究人员对评估的成本也做了一定的分析，说明了当前评估方式大幅降低了人工评估所花费的经济成本和时间成本。斯坦福大学团队曾经发表指令微调语言模型的代表性工作之一 Alpaca，在 GitHub 上获得超过 25000 星标。

榜单情况

目前，来自 OpenAI 和 Anthropic 的闭源模型 GPT-4, Claude 和 ChatGPT 仍然处于前三名，其中 GPT-4 的得分达到 95.28%，遥遥领先其他模型。但在开源模型中，UltraLM 13B 位居榜首，也是 唯一一个得分在 80 以上的开源模型，比第二名的开源模型多出 5.33% 的得分。Huggingface OpenLLM 榜单中位列榜首的 Falcon-40B Instruct 表现不佳，只得到了 45% 左右的得分。而来自微软的 WizardLM，来自加州大学伯克利分校的 Vicuna 模型都取得了较好的效果。

关于 UltraLM 和 UltraChat

—

UltraLM-13B 是一个在 UltraChat 数据上训练而来的大语言模型，它具有丰富的世界知识和超强的指令理解和跟随能力，能对各类问题/指令给出很有信息量的回复。

作为UltraLM的能力来源，UltraChat 由清华大学、面壁智能、知乎等机构在 OpenBMB 开源社区构建，这是一个大规模、高质量、高度多样化的多轮指令数据，包含了 150余万条 多轮指令数据。

UltraChat秉承“可扩展多样化（Scalable Diverse）”的原则，即 并非通过少量样本的选取来达到多样化的目的，而是设计方法论使得多样化数据可以大规模扩展。UltraChat设计了三个模块来涵盖人类与机器可能交互的范式：信息获取、条件信息创造、信息转换，并且对用户模型进行了个性化建模。

在我们的文本多样化统计（Lexical Diversity）中，UltraChat 在 150 万条数据规模的情况下达到了 74.3 的得分，而此前公开数据的多样性得分最高仅有 67.1。

模型训练

UltraLM 直接采用监督指令微调的方式对 LLaMA 进行全参数微调。对于 UltraChat 中的每一组多轮对话，将其分割成长度不超过 2048 的片段，遮蔽模型回答部分并计算该部分损失进行训练。该训练方式使得模型能够获得当前用户输入及对话历史作为上下文进行生成，有效保证了多轮对话的连贯性。

不同于 Vicuna 等模型，在训练过程中，UltraLM 不内嵌系统提示，以使得它可以被更灵活地定制化。

其他评测

除了在 AlpacaEval 评测集上进行评估外，我们还自己构建了一个指令评测集，该评测集包含了 80 条 Vicuna 测试集，以及其他 300 条由 GPT-4 生成的不同领域不同难度的指令，涵盖了对常识知识、世界知识、专业知识、数学及推理能力和创作能力的测试。在该测评集上，我们同样使用 GPT-4 对 UltraLM 和基线模型进行相对打分比较。其中，我们显式地要求 GPT-4 优先考虑模型回复的正确性，再评估涵盖的信息量。同时，为了应对模型回复的先后顺序带来的影响，对每一个指令，我们随机指定模型回复的顺序。下图显示，UltraLM 的回复与其他模型相比，胜率最高可以达 98%（vs Dolly-12B），同时分别以 9% 和 28% 的胜率优势超越了之前的最好开源模型 Vicuna 和 WizardLM。

在上述的测试中，UltraLM 与其他模型都使用了各自的定制化系统提示来增强模型回复的质量。团队发现，尽管 UltraLM 在训练过程中并未使用系统提示，在测试过程中系统提示对于模型回复质量的提升仍有重要作用。

尽管 UltraLM 在评测中领先其他开源模型，可以对多种形式的指令和问题给出符合人类价值观且有信息量的回复，但它仍然具有幻觉等大模型常有问题，我们期待与 OpenBMB 开源社区的朋友们一起推动大模型对齐技术的发展，继续推出更加强大的模型。

➤ Github 链接 🔗

https://github.com/thunlp/UltraChat

➤ Huggingface 链接 🔗

https://huggingface.co/openbmb/UltraLM-13b

➤ 加社群/ 提建议/ 有疑问

请找 OpenBMB 万能小助手：

🔍 关注我们

微信搜索关注 “OpenBMB开源社区”

后台回复“CPM-Live” 即可加入CPM-Live加油群

还可获取更多大模型干货知识和前沿资讯！

微信功能被限制使用了怎么办？可以登得上去，但部分功能无法使用，例如社交场景，朋友圈功能等，放置不去理他，并不会自动恢复，必须要主动去处理，针对常见的情况，分享点个人经验与解决的办法，仅供参考 [图片] 第一种：临时辅助只针对临时限制的有效，而其他的类型不适用，让符合条件的好友配合辅助即可解决，如果里面的好友不符合，或不认识，这种情况可以申请换验证方式，再选择合适自己的方式解决，不会的可以来问。 [图片] 第二种：变更类型如果显示的是永久限制，情况不严重或初次遇到的，可以申请变更处罚类型，将永久的降低成

坤琳讲 2024-12-28

OpenBMB 对齐技术 UltraLM 登顶斯坦福 Alpaca-Eval 开源模型榜单

斯坦福 Alpaca Eval 榜单介绍

关于 UltraLM 和 UltraChat

🔍 关注我们

推荐体验

相关资讯

中国开源大模型技术有多强——通义千问 “霸榜” 开源榜单、斯坦福团队“抄袭”清华系大模型

斯坦福开源FlashAttention，大模型速度翻倍

Transformer挑战者出现！斯坦福CMU联合团队，模型代码都开源

斯坦福NLP课程来了

斯坦福最新LLM排行榜发布！自家Alpaca垫底，华人团队WizardLM开源第一，GPT-4、Claude稳居前二

近期资讯

(*´∀`)~♥ 感谢你的喜欢

微信功能被限制怎么解封？5个方法

小米16系列配置前瞻：外观尺寸持平上一代，或将首发骁龙8 Elite2

就这么毫无征兆的：六代机横空出世！

2026经济学考研名校百家行之武汉大学

视频怎么提取音频？8款视频转音频mp3软件免费集合，小白速看！

高中英语核心词汇887个…

【赵渝强老师】MongoDB的Journal日志

勤源FinOps：实现政务云精准成本分摊与高效计费

努力的果实：会有好结果

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响