研究人员揭示大模型指令微调新秘密，助力大模型高效、低成本定制

作者：DeepTech深科技发布时间：2024-10-04

2020 年，通过增加大模型参数量的方法，OpenAI 在具有 1750 亿参数量的 GPT-3 上发现，大模型可以根据提示词中提供的信息，来执行新任务或改进现有任务。

这意味着大模型不必进行任何梯度更新或微调，仅通过几个例子或简单的指令来执行新的语言任务（即上下文学习）。

自 ChatGPT 发布以来，大模型的参数量在不断扩大。目前开源社区已经迎来含有 4000 亿参数的大模型。

届时，不管是从时间成本还是金钱成本上来看，通过梯度更新来直接修改模型权重的微调方法，将变得十分昂贵且耗时。

目前，一个明显的趋势是大模型可容纳的上下文长度正在不断扩大，从最开始的 2 千个字符开始扩大到最大 2 百万个字符。

越来越大的上下文长度，意味着人类可以加入更多的完整目标指令数据，来支持更全面的上下文学习。

所以能否使用成本更低、更易管理的上下文学习来代替现有的成本高昂的模型参数微调方法成为一个亟待解决的重要研究课题。

基于此，瑞士洛桑联邦理工学院（EPFL，École Polytechnique Fédérale de Lausanne）硕士毕业生、瑞士洛桑联邦理工学院机器学习理论实验室研究助理赵皓于 2024 年和所在团队开展了一项研究。

图 | 赵皓（来源：赵皓）

当时，赵皓联系了正在 EPFL 机器学习理论实验室读博的马克西姆·安德烈伊什琴科（Maksym Andriushchenko）。

那时，赵皓已经拥有一些研究经验，并且研究兴趣也和 Maksym 的研究背景相契合，所以他们在开展课题上一拍即合。

不过，他们当时确立的研究课题与目前盛行的大模型截然不同。

当时，他们定下了题为“理解训练深度神经网络模型时的数据学习顺序”（Understanding the order of learning of training examples）的课题。

2023 年 7 月，为了汇报各自的研究论文，他俩一起参加了在夏威夷举办的国际机器学习大会（ICML，International Conference on Machine Learning）。

会上，因 ChatGPT 的发布而兴起的大模型研究热潮随处可见，来自各个国家的参会者无不在激动地讨论着有关大模型的各类话题。

他们当即也都意识到这是一个重要的研究机会，所以从夏威夷回来以后立即开会讨论，准备将实验对象从“传统的训练图像分类的深度神经网络”改为“指令微调基础大模型”。

在他们的合作之下，让 EPFL 机器学习理论实验室迎来了第一篇大模型顶会论文，相关论文发表于 ICML 2024，也帮助赵皓获得了 EPFL 优秀硕士论文奖的提名。

随后他们趁热打铁，一起研究能否使用上下文学习，来替代成本高昂的指令微调方法。

后来，在赵皓的硕士论文投稿到 ICML 2024 之后不久，Maksym 收到了来自 OpenAI 的邮件。

后者询问他们对于通过应用程序编程接口（API，Application Programming Interface）访问 GPT4Base 模型是否感兴趣。

赵皓表示：“我们收到邮件时感到非常意外和惊喜，立即着手准备申请。几周后，成功通过了申请，这让我们可以自由地通过 API 使用 GPT4Base 模型。”

在此基础之上，他和 Maksym 以及另一位同学弗朗西斯科·克罗塞（Francesco Croce）开始思考如何通过上下文学习，来开展大模型对齐的研究。

研究之后他们发现：仅通过增加上下文学习中的训练数据，无法获得匹配相同基础模型下的 OpenAI 官方所发布对齐模型的表现。

虽然实验结果证明使用筛选的高质量数据可以显著提升对齐表现，但是也无法达到上述目的。

此外，通过公平地对比上下文学习和指令微调，他们在实验中得出如下结论：在低数据量的情况下，上下文学习可以用更低的成本可靠有效地代替指令微调，但是指令微调可以通过不断扩大高质量训练数据规模获得更显著的对齐表现提升，并且拥有更强的泛化表现。

（来源：arXiv）

基于上述发现，本次研究将能指导人们以更低成本、更高效地定制专门化的大模型。

（来源：arXiv）

对于现有的定制大模型方法来说，它主要通过在大量训练数据上做指令微调和人类偏好对齐，比如从人类反馈中进行强化学习。

对于每一个定制化应用的研发，开发者都需要保存每一个微调后的大模型（大小从几亿到几千亿参数），而这将导致庞大的计算和存储消耗。

如能通过大量样本下的上下文学习来对齐模型，那么只需保存一个基础大模型，以及相应的支持上下文学习的定制化提示词。

这样一来，就能完全避免微调模型带来的计算消耗，以及极大减小部署不同定制化模型带来的存储消耗。

同时，本次研究也可以帮助大模型领域的研究者更好地理解上下文学习的内在机理和其局限性。

日前，相关论文以《在大模型中上下文学习是否足以进行指令跟随？》（Is In-Context Learning Sufficient for Instruction Following in LLMs？）为题发在 arXiv[1]。

图 | 相关论文（来源：arXiv）

目前相关论文已经整理并投稿到机器学习顶级会议之一，接下来研究团队也将思考如何进一步有效提升上下文学习的对齐表现。

希望能够指导大模型从业者更好地根据已有资源来权衡不同的方法，最终使用理想的对齐策略。

参考资料：

1.https://arxiv.org/pdf/2405.19874

运营/排版：何晨龙

近期资讯

《自然》杂志每日简报翻译和简评——2024年10月1日

望远镜扩建工程暂停 [图片] expansion n. 膨胀;扩展;扩张;扩大; sticking v. 粘贴;插入;粘住 pivoted v. (使)在枢轴上旋转(或转动); phased v. 分阶段进行;逐步做; 世界上最大的射电望远镜--平方公里阵列（SKA）向另外八个非洲国家扩建的工程将不再按原定时间表进行。 SKA总干事 Philip Diamond 表示，由于资金紧张，该项目已从大规模扩建转向 "更多的分阶段、持续部署"。不过，扩建工作不会完全停止。博茨瓦纳是八个伙伴国之一，明年它将获

DolphinJ 2024-10-01

【沈少】更快、更炫、更强 - 雷蛇巴塞利斯蛇V3专业版35K评测

Hello，大家好！我是沈少！今天带来评测的是雷蛇刚刚发布的巴塞利斯蛇V3专业版35K鼠标。这款鼠标不仅在原有的基础上更新了目前雷蛇旗舰的Focus Pro 35K光学传感器，配合另购的鼠标底座专业版还实现了无线8KHz的超高回报率，再加上13区CHROMA RGB灯效，可以说是对比上代在性能、酷炫度、使用体验上的全面提升，具体我们结合开箱和实测体验来详细聊聊。开箱&外观先来看看开箱，目前雷蛇巴塞利斯蛇V3专业版35K有黑白两色可选，我手头这只是白色款，个人觉得比较百搭。鼠标底座专业版则是黑色款，同样有R

沈少Neo 2024-10-01

客观

直接地，客观不是主观，主观不是客观，二者相互对立。但客观的超然地位，并不允许自己与主观相对立，而必须直接就是主观，因为在客观之外的主观比客观更超然。主观本身就是客观。此外，客观并不仅仅直接现身于一个主观，否则客观就不必也不能直接地过渡到对方，因为一对一的对立，会使客观失去超然地位，而仅仅呈现为一个单纯的差别。事实上，唯一主观不可能划出客观的界限，因此也取消了自身。 ——唯我论是不可能的。客观是诸多主观的总体。真正的客观不是客观和主观的差异，而是主观和主观的差异，因而也是客观和客观的差异。客

叶栽树 2024-10-01

Julia、Python求解随机微分方程

随机微分方程（Stochastic Differential Equations，SDEs）是描述系统在随机扰动下动态行为的数学模型。与常微分方程（Ordinary Differential Equations，ODEs）不同，SDEs考虑了系统中随机性或不确定性，通常用于建模物理、金融、生物等领域的动态系统。以下是对随机微分方程的详细介绍。1. 随机微分方程的基本形式随机微分方程通常写作如下形式：Xt：表示在时间ttt的状态（通常是一个随机过程）。μ(Xt,t)：漂移项，表示系统的确定性部分，描述了状态

永远的修伊 2024-10-01

荣耀急眼了，4320Hz调光+骁龙8Gen3跌至3428元，5450mAh+50W无线

对于手机厂商来说，“金九银十”是提升手机销量最佳的时间段。所以自从进入9月份以来，手机厂商便加快了新机的发布速度和开启了新一轮的“价格战”。如今，时间来到国庆节假期以后，手机厂商更是火力全开。其中，一向主打性价比的荣耀手机更是率先发力的。笔者发现，在第三方平台，荣耀Magic6的价格再创历史新低，到手仅需3428元。与发布之初相比，性价比更加高的。不过，与市面上众多同价位机型相比，是否更加值得消费者入手呢？Magic系列作为荣耀手机的高端系列，它除了拥有很多创新以外，甚至它还是智能手机行业发展的风向标。其

小愚测评 2024-10-01

自我超越不停步，比S21更舒适的游戏耳机，西伯利亚S31

人无远虑，必有近忧。最近满天的高通收购Intel，intel要卖工厂卖产业的传言，证明曾经的巨人近况真的不咋样。我家里还有一块i7-6700k，四核八线程，频率为4G，属于第六代酷睿；第四代酷睿(第五代为过渡产品，市面上几乎不流通)i7-4770K，四核八线程，频率为3.5G;i7 3770k，四核八线程，3.5G；i7 2600K，四核八线程，3.4G。过往Intel被称为牙膏厂就是这样子来的，核心线程基本上原封不动，然后加一点新硬件的支持，甚至加一个接口什么的就是新一代，每一代都在挤牙膏。无他，当年

中山狐 2024-10-01

台湾经济日报 20231108 今年以来，全球暖化引发的极端气候，让世界各地都出现明显灾情，不是旱灾就是洪水，除了生命之外、还有财产的损失，其中一楼商店尤为严重，例如汽车、电器、古董字画、精品服饰等。滞洪池是普遍用来调节洪水和减少淹水风险的方式，可以在暴雨期间暂时储存多余的雨水，然后在雨势减弱后缓慢排放到下游的河流或排水系统中；然而滞洪池大都设置在较远离繁华市中心的地区，而且很明显数量也不足，这对于我们应对未来的风险已经捉襟见肘。越是繁华地区越需要滞洪池，然而要在这样的精华地段设置滞洪池，现实上要实施

卢博的博庐 2024-10-01

研究人员揭示大模型指令微调新秘密，助力大模型高效、低成本定制

推荐体验

相关资讯

亚马逊与 Hugging Face 合作：定制芯片低成本运行 AI 模型

赔光OpenAI？！研究人员：版权诉讼不休，其实大模型普遍存在“抄袭”现象

Meta失去研究人员挑战大型语言模型落地进程

大模型参数高效微调技术实战（五）-LoRA

研究人员打造统一型参考框架，阐述构建大模型智能体的基本模块

近期资讯

《自然》杂志每日简报翻译和简评——2024年10月1日

【沈少】更快、更炫、更强 - 雷蛇巴塞利斯蛇V3专业版35K评测

客观

Julia、Python求解随机微分方程

荣耀急眼了，4320Hz调光+骁龙8Gen3跌至3428元，5450mAh+50W无线

自我超越不停步，比S21更舒适的游戏耳机，西伯利亚S31

BMW:3系(F30) 整车技术

Parsec -800 -6101问题解决方案（2024.10.1）

BMW:M3(E92) 整车技术

以星罗棋布的滞洪池建构永续生态城市

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响