不用RLHF，匹敌GPT-4！Meta重磅发布LIMA 65B，1000个样本性能飞升，LeCun转赞

作者：新智元发布时间：2023-05-23

GPT-4 ChatGPT

新智元报道

编辑：桃子好困

【新智元导读】RLHF并没有那么重要！Meta最新650亿参数模型LIMA，仅用1000个样本，实现与GPT-4相匹敌的性能。

人人都知，让ChatGPT称霸天下的秘密武器，就是人类反馈强化学习（RLHF）。

而现在，Meta AI等机构的爆火研究LIMA直接打破这一规则，直言RLHF并没有那么重要！

论文一出，直接在AI圈炸了锅！

就连LeCun忍不住发推炫一番：LIMA：LLaMa-65B+1000监督样本=GPT-4/Bard级别的性能。

正如标题所称，LIMA是「Less is More for Alignment」，暗示着一个强大的预训练AI模型，通过几个样本就足以实现高质量的结果。

而LIMA仅在1000个精心挑选的样本上微调LLaMa-65B，而且无需RLHF，就实现了与GPT-4和Bard相媲美的性能。

论文地址：https://arxiv.org/abs/2305.11206

论文中，研究人员将这一突破称为「表面对齐假设」（Superficial Alignment Hypothesis）。

实验证明了，大语言模型在预训练阶段就已习得大部分知识，仅用有限的指令微调数据，足以教会模型产生高质量的内容。

高质量的数据就可以克服小样本量？训练这样模型的成本是多少，这是否意味着小型LLM玩家可以与OpenAI/谷歌竞争？

还有网友质疑，GPT-4在57%情况中击败LIMA，还能说性能相当？

RLHF并非王者？

大语言模型经过预训练，能在大规模上预测下一个token，让其学习通用表征。这些表征可以转移到几乎任何语言理解或生成任务中。

为了实现这种转移，人们已经提出各种「对齐」语言模型的方法，主要侧重在百万级token上进行指令调优。

而最近采用较多的是，从人类反馈中进行强化学习（RLHF）。这些反馈便是在与人类标注者进行数百万次互动中收集的。

ChatGPT令人深刻的表现，主要归功于RLHF。根据OpenAI的思路，RLHF分为三步。

然而，现有的对齐方法代价是高昂的，需要大量算力，以及专门的数据才能实现像ChatGPT一样的性能。

Meta AI却要逆行其道，证明了，一个预训练语言模型可以通过简单地微调精心挑选的1000个样本，就能实现强大的性能。

在此，研究人员提出「表面对齐假设」（Superficial Alignment Hypothesis），假设「对齐」可以是一个简单的过程，。

在这个过程中，模型的知识和能力几乎完全是在预训练期间学习的，而「对齐」只告诉模型学习与用户交互的风格或格式

为了验证这个假设，Meta等研究者挑选了1000个近似于真实用户提示，以及高质量响应的样本。

他们从其他研究论文、WikiHow、StackExchange和Reddit等来源进行手动挑选，训练数据的总量大约是750,000个token。

训练提示（输入）、响应（输出）以及测试提示的来源

此外，研究者手动编写了250个提示和响应的样本，同时对任务的多样性进行了优化。

最后，研究人员对预训练LLaMa 65B模型在1000个样本集上进行微调，并进行了人类评估。

评估结果

Meta将LIMA与5个模型基准进行了比较：（在2023年4月期间，对所有基准的响应进行了采样）

Alpaca 65B——利用52,000个样本对LLaMa 65B微调后得到的大模型

DaVinci003——基于RLHF训练的大语言模型

Bard——基于谷歌的PaLM模型

Claude——通过强化学习Constitutional AI训练的52B参数模型

GPT-4——目前使用RLHF训练的最强的模型

为了比较LIMA和其他SOTA模型，Meta为每个测试提示生成一个单一的响应。

然后，要求人类参与者将LIMA的输出与每个基准进行比较，并标记他们更喜欢哪一个。

在人类偏好研究中，尽管Alpaca 65B的训练数据量是LIMA的52倍，但它产生的输出往往比LIMA的不如人意。

让人大跌眼镜的是，DaVinci003也是同样的情况，虽然程度较小。该模型使用了RLHF进行训练，这本应是一种更优越的对齐方法。

而Bard在42%的时间中，其产生的回答优于LIMA。这也意味着，剩下的58%时间里，LIMA的响应至少和Bard一样优秀。

最后，研究者发现，虽然Claude和GPT-4通常表现得比LIMA更好，但在一些情况下，LIMA实际上能产生更好的回答。

另外，讽刺的是，在GPT-4的偏好研究中，有19%的时间，GPT-4更喜欢LIMA的输出。

「表面对齐假设」

Meta将这一发现定义为「表面对齐假设」（Superficial Alignment Hypothesis）。

它表明，所谓预训练后的对齐阶段，主要是让模型学会一种特定的风格或格式，这种风格或格式在与用户交互时可以被模型回忆起来。

因此，「微调」更多是关于风格，而不是实质。

LIMA的结果表明，实际上，利用简单的方法就可以解决对齐和微调AI模型这类复杂问题。

这与诸如OpenAI的RLHF那些，特别繁琐和复杂的微调过程，形成了鲜明的对比。

不过，LIMA也不是万能的。Meta认为，该方法存在两个明显的局限：

第一，用高质量的示例构建数据集是一种非常具有挑战性的方法，很难扩展。

第二，LIMA并不像已经有产品的模型那样强大，比如GPT-4。

团队表示，虽然LIMA的生成结果，在大部分情况下质量都很高。但一个「对抗性的提示」或一个「不走运的样本」，依然会让模型产生不理想的答案。

Yann LeCun对GPT-4和类似模型背后努力的相对贬值采取了务实的看法。

他将大型语言模型看作是近期的一个元素，至少在中期内不会「在没有重大变化」的情况下发挥作用。

以上，主要评估是根据最先进的模型对LIMA进行评估，但需要明确的是，其中一些模型实际上已经在训练期间使用了数百万真实用户的提示。

对此，研究人员通过手动分析50个随机示例来进行绝对的评估。

并将每个示例标记成3个类别：Fail，响应不符合提示符的要求；Pass，响应符合；Excellent，对提示提供了优秀的响应。

实验结果显示，50%的LIMA回答被认为是优秀的，它能够遵循所有的50个分析提示中的44个。

如下，LIMA针对育儿建议和生成食谱的示例进行的输出。

另外，一个仅在1000个样本上微调的模型在多轮对话中表现又如何？

在零样本上，LIMA的响应出奇地连贯，并引用了前面对话的信息。在10次对话中，LIMA有3次未能遵循提示。

为了提高对话能力，研究人员收集了30个多轮对话。其中10个是由作者手动编写，20个来自Stack Exchange，并根据助手风格进行编辑。

研究者使用组合的1,030个示例对预训练模型进行微调，得到一个新版本的LIMA，并针对相同的提示进行了10次实时对话。

实验发现加入这30个示例后生成质量显著提升，优质响应比例从45.2％提高到76.1％！

LIMA如何以「少」胜「多」

团队通过消融实验，研究了训练数据多样性、质量和数量的影响。

Meta发现，为了对齐目的，提高输入多样性和输出质量有可测量的正面效应，而单独增加数量却没有。

实验设置

团队在各种数据集上微调了一个拥有70亿参数的LLaMa模型，并控制了相同的超参数。

团队对每个测试集提示抽取5个回应，并通过让ChatGPT（GPT-3.5 Turbo）在1-6的Likert量表上评级回应的帮助性来评估回应质量。

多样性

为了测试提示多样性的影响，同时控制质量和数量，团队比较了在质量过滤后的Stack Exchange数据和wikiHow数据上的训练效果。

图5显示，更多样的Stack Exchange数据显著提升了模型的性能。

质量

为了测试响应质量的影响，团队从Stack Exchange抽取了2000个没有任何质量或风格过滤的示例，并比较了在这个数据集和过滤后的数据集上训练的模型。

图5显示，在过滤和未过滤的数据源上训练的模型之间存在着0.5点的差异。

数量

在众多机器学习设置中，都会采用增加示例数量的策略，来提升性能。

为了测试其影响，团队从Stack Exchange中抽取了呈指数增长的训练集。

但实际上，如图6所示，数据翻倍的训练集并未改善响应质量。

如此一来也暗示了，对齐的规模法则不必然只受数量影响，而更可能是在保持高质量响应的同时，提升提示的多样性。

作者介绍

Chunting Zhou是Meta AI的一名研究科学家。

2022年5月，她在卡内基梅隆大学语言技术研究所获得博士学位，在那里从事自然语言处理工作，导师是Graham Neubig。Zhou的主要研究兴趣在于自然语言处理和机器学习的交叉领域，并对开发对分布变化具有鲁棒性的方法感兴趣，目的是学习模型能够在各种群体中表现统一。

此外，Zhou还研究生成模型，及其在自然语言处理任务中的应用。

参考资料：

https://arxiv.org/abs/2305.11206

近期资讯

统一纯电专用全合成变速箱油太差劲？你认真的吗？

首先，理解电动汽车的动力系统与传统汽车的最大不同是必要的。电动汽车的动力系统通常由电动机、变速箱和电池组成，其动力传输与内燃机的工作原理截然不同。电动机能够提供高扭矩，且在低转速时即可达到最大输出，因此其对统一变速箱油的润滑性能要求也相应提高。全合成变速箱油因其优越的抗磨损性、氧化稳定性和高温稳定性，成为电动汽车变速箱润滑的优选。然而，部分消费者却对这种专用润滑油表示疑虑，认为其性能不如传统变速箱油。这种看法的形成，部分由于对新技术的不熟悉所导致的误解。在使用过程中，一些消费者可能体验到了与传统燃油车的

来聊科技 2024-12-28

采购必修课：8招判断供应商实力

了解供货商的实力，一来可以判断供货商的供货情况如何;二来可以充分的评估产品的质量以及相关配套服务。三来可以节省成本——很显然，要是采购量较大，我们直接从厂商拿货会减少中间成本，节省相当的费用。那么，怎样判断供应商的性质和实力呢？两个维度的评判方法：商务与业务。商务即我们在寻源时运用到的网络资源、对产品及物料的认知、谈判交流与观察能力。 1、网站判断。一般的供货商只要是有点实力的不会没有网站。网站上的内容我们基本上能判断出供货上是贸易公司还是工厂;大概有个什么实力! 2、利用搜索工具查找涉及该公司的产品

采购帮 2024-12-28

方案365 2024-12-28

「高中生物」晨读晚默小纸条~知识点总结，吃透逆袭90+！！！

看完这个你会发现高中生物真的不难！！！高考其实是离不开教材的，课本的知识点很重要，无论哪科，如果脱离课本，很容易白费力气，在考试中不知所措，面对试卷，不知道从何下笔，选择能选对，到了填空就不会了！本文完全针对生物非常不好的同学，【高中生物晨读晚背知识点】背下这些让你直接白捡三十分！哪怕每天只记住5条，一个月时间也可以逆袭了！！！如果你生物偏科，不会自己整理，建议打印。记住，完成比完美重要，哪怕你定每天背十个，但其实只每天背了一个，那也是进步！！！不要有太大压力。 [图片] [图片] [图片] [图片

hello是小琪 2024-12-28

Rope：突破创意的边界，带来无限可能

随着科技的进步，人工智能（AI）技术正在以惊人的速度改变我们日常生活的方方面面。Rope 是一款基于AI的换脸软件，专为需要面部替换与创意制作的用户设计，具有强大的处理能力和优质的效果。无论你是想制作有趣的视频、增加创意元素，还是进行专业的影视制作，Rope都能满足你的需求。现在就通过以下链接下载 Rope 软件，开启全新的创作体验！软件下载地址：https://pan.baidu.com/s/1r5L3Lh2O1zKiOXf2MDxf-w?pwd=21x8提取码：21x8Rope：突破创意的边界，带来无

rope换脸 2024-12-28

长白山文旅太懂稻米们需要什么了吧！

@长白山文旅真的太懂稻米们需要什么了，ColorOS 15真不愧是官方认证的旅行搭子，有了一键问屏简直就像张起灵在身边！玩转长白山没有难度。比如看地图有个超美景点，一键问屏问一问就知道在哪，然后一句话还能导航到打卡点，这么智能的AI简直不要太好用。还有ColorOS 15就像手机里面的百科全书，景点资讯、景点背后有什么故事，都能解释得一清二楚，再也不用花钱请导游了。这个冬天大家都给我带上长白山文旅认证旅行搭子ColorOS 15打卡好吗！#OPPO全新系统ColorOS15##小布旅行去哪都行# #先出

可爱小豆豆豆 2024-12-28

统一新能源：新能源汽车热车吗

首先我们有必要澄清“热车”这一概念。统一新能源能看到信息是热车，来源于传统燃油汽车的启动及运转过程。在传统汽车中，热车是指在发动机启动后，车主需等待一段时间，以使发动机内部的机油达到良好的润滑状态，从而保证引擎的高效运行。尤其在寒冷的冬季，热车显得尤为重要，因为在低温环境下，机油粘度增大，若直接猛踩油门，会加大对发动机的磨损，甚至导致发动机工作不稳定，而长时间的怠速空转又会造成燃油浪费和环境污染。新能源汽车，尤其是电动汽车（EV）的工作原理与燃油车显著不同。电动汽车依靠电池驱动电动机，其动力系统相对简单

江江的科技生活 2024-12-28

「高中化学」选择题常见隐含条件300个，3h背会，保底85+万一用到呢！！！

对于高中化学来说有很多同学都觉得很难，来和学姐说自己平时也听努力的，化学题也没少做，但是就是考试的时候成绩不高，不知道自己该怎么办了。但其实学姐认为这类同学的基础还是不够扎实，一些基本的知识点不能张口就来，总是很费力或者根本答不出！对于一些化学的定义、物质的性质，都不能够在第一时间就答出来，又怎么灵活的运用这些知识解题呢？今天这份高中化学选择题300个隐含条件，说是隐含，但其实学姐认为绝大部分都是同学们应该掌握的内容，希望大家都把这些背的滚瓜乱熟，高考冲刺，你一样赶得上！！ [图片] [图片] [图片

琪琪学姐吖 2024-12-28

不用RLHF，匹敌GPT-4！Meta重磅发布LIMA 65B，1000个样本性能飞升，LeCun转赞

推荐体验

相关资讯

没有RLHF，一样媲美GPT-4、Bard，Meta发布650亿参数语言模型LIMA

Meta发布650亿参数语言模型LIMA，媲美GPT-4、Bard

首次：微软用GPT-4做大模型指令微调，新任务零样本性能再提升

重磅！Meta推出开源大模型Llama 3，性能直逼GPT-4

使用 LoRA 技术对 LLaMA 65B 大模型进行微调及推理

近期资讯

统一纯电专用全合成变速箱油太差劲？你认真的吗？

采购必修课：8招判断供应商实力

Rope：让换脸创作变得轻松而有趣

ARMORED阿莫得隐形车衣-有效提升原厂车漆亮度

官宣！低空经济司，挂牌成立！

「高中生物」晨读晚默小纸条~知识点总结，吃透逆袭90+！！！

Rope：突破创意的边界，带来无限可能

长白山文旅太懂稻米们需要什么了吧！

统一新能源：新能源汽车热车吗

「高中化学」选择题常见隐含条件300个，3h背会，保底85+万一用到呢！！！

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响