数学能力超ChatGPT，70B开源大模型火了：用AI微调AI，微软全华班出品

作者：量子位发布时间：2023-08-14

用AI生成的指令微调羊驼大模型，数学能力超ChatGPT——

微软最新开源大模型WizardMath来了。

如下图所示，经过GSM8k数据集测试，WizardMath数学能力直接击败了ChatGPT、Claude Instant 1、PaLM 2-540B等一众大模型——

并且是在参数只有700亿，远不及后三者的情况之下。

HuggingFace已上线3个在线可玩版本（分别为7B、13B和70B参数），各种数学题可以直接丢进去试一试。

比如解决下面这道四次多项式方程：

或者是一道简单的微积分：

亦或者是稍微修改过的拉格朗日方程推导：

它都全部正确（过程也不需要等太久）。

有网友向作者表示：

效果真的很惊人，感谢你们对开源LLM的贡献。

目前，相关代码、复现方式以及论文也都开源或上线，GitHub短短几天已揽获4.8k标星。

那么，WizardMath究竟是如何做到的？

用AI生成的指令增强大模型能力

OpenAI的大模型（InstructGPT、GPT-4等）能够取得巨大成功、去执行各种复杂和多样化的任务，一部分原因是使用了真实人类用户生成的开放域指令数据进行了微调。

然而，不是谁都能像这家公司一样获得这样的指令数据集。

一是因为整个注释过程极其昂贵且耗时，二是人工难以创建出足够比例的高难度指令。

因此，开发出一种成本相对较低的、大规模开放域指令自动生产方法，成为当下指令调优语言模型的关键。

在此，作者将他们的方法命名为Evol Instruction。

它是一种利用AI来代替人类自动生成涵盖各种难度级别开放域指令的新方法。

具体而言，Evol Instruction分为指令进化器和指令消除器。

其中指令进化器可通过深度进化（蓝线）或广度进化（红线）两种路径，将简单指令升级为更复杂的指令或创建一条全新指令。

具体执行哪一条？随机选择就好。

其中，深度进化的具体“进化法”，则是通过五种类型的操作来完成，包括：

添加约束（add constraints）、深化（deepening）、具体化（concretizing）、增加推理步骤（increase reasoning steps）和使输入复杂化（complicate input）。

由于所有指令均由AI完成，有时难免会出现错误。因此，指令消除器就是用于过滤失败指令的。

以下是一个具体示例，该方法从“1+1=？”开始，最终通过以上步骤自动生成了相当多的新指令。

通过重复这一生成过程，最终我们就能得到足够多的指令，然后将它们合并并随机打乱，组成一个难度级别均匀分布的指令集，就可以对基础大模型进行微调了。

在此，作者选择Alpaca的训练数据（仅由175条人工创建的种子指令生成）作为初始数据集，然后使用ChatGPT的API执行了四个进化周期，最终获得25万条指令。

为了与Vicuna的70k真实用户数据（ShareGPT）进行公平比较，作者从这25万条数据中抽取了等量的样本，训练LLaMA 7B模型，最终得到WizardLM，结果WizardLM的性能明显优于Vicuna。

（Alpaca：斯坦福在LLaMa-7B基础上微调出来的模型；Vicuna，UC伯克利在LLaMa-13B的基础上微调得来）

此外，在更为复杂的测试指令下，人类更喜欢WizardLM的输出，而非ChatGPT，这表明该方法可以显着提高LLM处理复杂指令的能力。

基于此，作者又利用Evol Instruction生成了很多数学领域相关的指令，然后微调羊驼大模型，得到了WizardMath。

其效果如开头所示，在GSM8k数据集上测得其数学能力超越包括ChatGPT、Claude Instant 1、PaLM 2-540B等一众大模型，位列第5名，仅次于GPT-4、Claud1.3和2.0，以及5400亿参数的Flan-PaLM 2之后。

以此类推，作者还在羊驼之上得到了专攻代码能力的WizardCoder，效果超越Claude和Bard（详情可戳文末地址）。

团队介绍

本文共9位作者，全华人。

一作有3位：

Can Xu，微软亚洲互联网工程院S+D NLP组高级应用科学家，之前曾在微软小冰研究组和微软亚研院从事聊天机器人系统工作；

Qingfeng Sun， Microsoft Research科学家，研究方向为自然语言处理和信息检索，精通构建高效搜索系统，为Microsoft Bing和Office 365贡献了核心深度模型；

Kai Zheng，Microsoft Research科学家，研究方向为自然语言处理、搜索和推荐排名，同样为Microsoft Bing和Office 365贡献了核心深度模型。

通讯作者为姜大昕，微软全球合伙人、副总裁、前微软亚洲研究院首席科学家，在微软工作16年有余、曾作为微软必应搜索引擎和Cortana智能助手自然语言理解负责人，日前已被曝离职投身大模型创业。

另还有一位作者Jiazhan Feng，是北大学生，这篇合著论文是TA在微软实习时产出的。

项目主页： https://github.com/nlpxucan/WizardLM/tree/main/WizardMath

论文地址：https://arxiv.org/abs/2304.12244（WizardLM）https://arxiv.org/abs/2306.08568（WizardCoder）

本文来自微信公众号“量子位”（ID:QbitAI），作者：丰色，36氪经授权发布。

近期资讯

新机遇：统一润滑油2024可持续发展者大会的启示

2024年12月18日，统一润滑油在全国范围内召开了以“主动增长、做最值钱的经销商、销售令人自豪的产品”为主题的可持续发展者大会。此次大会汇聚了来自全国各地的经销商家人们，大家积极响应，共同探讨如何把握国产替代的历史机遇，结合大牌国货的低碳路线图与目标用户企业的低碳发展进程，以央企的品牌优势持续赢得更多的商业机会。在当今全球经济环境中，面对日益严峻的环保形势和市场竞争，企业的可持续发展已成为一个不可逆转的趋势。统一润滑油作为行业的领军企业，深刻认识到自身在推动低碳经济和可持续发展方面的责任与使命。大会上

江江的科技生活 2024-12-29

武汉深蓝S07车友会年会圆满结束~

2024年12月28日, 我们湖北深蓝S07车友会成功举办了一次令人难忘的年会活动。这次活动不仅让车友们有了更深入的交流，也为大家带来了许多欢乐和美好的回忆。在露营过程中，我们组织了丰富多彩的活动。白天，车友们分贝体验了高尔夫, 一起开心户外ktv, 以及各种桌游, 围在茶炉旁交流用车体验, 氛围十分友好。夜幕降临，篝火点燃，温暖的火光映照着大家的笑脸。烧烤的香味四溢，大家一边品尝着美食，一边享受着这轻松愉快的氛围, 最后大家一起燃放烟花庆祝此次活动圆满结束。通过这次活动，车友们的关系紧密了起来。我们不

丨弦月丶 2024-12-29

2026经济学考研名校百家行之北京师范大学

2026经济学考研名校百家行之北京师范大学 [图片]

研职经济学考研 2024-12-29

专注药用酸枣苗种植，探寻果实背后的经济秘密

探寻药用酸枣苗的经济秘密：开启高端水果种植之旅 [图片] 一、品种优势显著的高品质药用酸枣苗 [图片] 在这片充满生机的大地上，一种特殊的植物正在悄然改变着农业格局。那就是我们的药用酸枣苗，其品种优势显著，成为引领现代农业的新风尚。作为一种天然的药食同源植物，它的果实不仅口感超群，更富含多种营养元素，市场需求日益增长。在这里，每一株药用酸枣苗都蕴藏着无限的潜力。选对优质的种苗，是您走向成功种植之旅的第一步。 [图片] 二、独特的种植模式与环境探寻 [图片] 药用酸枣苗生长的理想环境是温暖湿润、光照充足、土

万林农业 2024-12-29

微信被临时限制所有社交场景怎么解封？

微信被临时限制了怎么办？例如社交功能限制，虽然是最轻度的处罚，但不会自动恢复，必须要主动处理。今天在这里分享点个人经验和解决的办法，仅供参考 [图片] 第一种：好友辅助根据系统的提示，完成辅助流程即可解决，这是最简单的，注意邀请和被邀请的双方都要符合条件才行没，否则会通不过。 [图片] 第二种：变更类型有的没好友，或里面的人都不认识，不符合的情况，可以申请变更类型，更换成其他的验证方式即可解决，选择合适自己的方式即可通过，不会的可以来问。 [图片] 第三种：提交复审如你被冤枉，就果断去提交复审，把

坤琳讲 2024-12-29

找工作指南 | 教地信遥感测绘等3S专业毕业或考研后怎么找工作公开课！！

新中地GIS开发咨询 2024-12-29

统一润滑油2024年市场战略与服务提升分析（一）

随着全球经济的不断发展，润滑油行业作为基础工业的重要组成部分，其市场竞争日趋激烈。统一润滑油在这一背景下，针对2024年制定了一系列的市场战略与服务提升措施，力求在竞争中占据更为有利的地位。根据统计数据，2024年统一润滑油将集中力量实施进攻性服务的经销商数量接近1500家，销售团队陪跑人员增加到399人，储备大客户7988个，KA客户增加299个，平均每天直播两场，举办精准会议每天多达5场，每天一场案例分享会，每月每人陪跑达到20天，新增交易用户数2万多。这些数据不仅展现了统一润滑油在市场开拓方面的决心

来聊科技 2024-12-29

数学能力超ChatGPT，70B开源大模型火了：用AI微调AI，微软全华班出品

用AI生成的指令增强大模型能力

团队介绍

推荐体验

相关资讯