字节“开盒”OpenAI所有大模型，揭秘GPT-3到GPT-4进化路径

作者：量子位发布时间：2023-11-04

OpenAI GPT-4

字节“开盒”OpenAI所有大模型，揭秘GPT-3到GPT-4进化路径

丰色克雷西发自凹非寺

量子位 | 公众号 QbitAI

GPT-3究竟是如何进化到GPT-4的？

字节给OpenAI所有大模型来了个“开盒”操作。

结果还真摸清了GPT-4进化路上一些关键技术的具体作用和影响。

比如：

SFT是早期GPT进化的推动者

帮助GPT提升编码能力的最大功臣是SFT和RLHF

在预训练中加入代码数据则提升了后续GPT版本的各方面能力，尤其是推理……

创业后忙得不可开交的AI大牛李沐看完，也久违地出现在公众视野，并给这项研究点了个赞。

网友们更是盛赞：

这是迄今为止第一个充分开盒OpenAI所有模型的工作，respect。

而除了一些新发现，它还坐实了一些已有猜想：

比如GPT-4在变笨并非危言耸听，这项评测发现GPT进化路上出现了明显的“跷跷板现象”，即模型进化过程中一部分能力提升另一部分下降。

这和网友此前的感受不谋而合。

如作者本人表示：

这项工作可以为GPT-3到GPT-4的演化路径提供宝贵的见解。

言外之意，通过它我们可以一窥GPT模型的“成功之道”，为接下来的大模型构建工作提供有效经验。

那么，具体它都“开”出了哪些东西，我们扒开论文来看。

探秘GPT-3到GPT-4进化之路

最开头的进化图由作者们根据公开信息总结得出。

可以看到，它标注了每一个中间模型是经过哪些技术（如代码微调、SFT/FeedME等）一路从最初的GPT-3进化到3.5再到如今的4。

这些技术具体起到了多大影响，从davinci到gpt-4-0613，字节对每代GPT的数学、编码、推理等7大能力全部测了个“底朝天”。

1. SFT：早期GPT进化的推动者

首先，在GPT-3系列中，最初的davinci (GPT-3)通过监督微调SFT和其变体FeedME进化为了text-davinci-001。

这让后者在几乎全部任务上都获得了性能提升：

更直观的表现如下图所示（“粉圈”为进化后的text-davinci-001）。

接着，GPT开始进入3.5系列，在该系列早期阶段，先是最基础的code-davinci002采用同样的技术进化成text-davinci-002。

然而这一进化操作的效果属实不大，GPT的各项性能只有少数几个提升，更多是不增反减的。

在此，作者引出他们的第一个结论，即：

SFT只在较弱的基础模型上管用，用在更强的模型上收效甚微。

类似现象在开源模型身上也可见（这个评测还测了Llama1和2、PaLM2-L、Claude 2等模型）：

在初代Llama-65B之上，SFT成功提升了它在MMLU基准上的性能，但是，所有使用了SFT改进的Llama2-70B在Open LLM Leaderboard榜单上却只表现出微小的进步。

总结：在GPT3阶段，SFT技术对模型的进化起到了关键作用。

2、RLHF和SFT：编码能力提升的功臣

顺着GPT3.5系列接着看，从text-davinci-002开始，OpenAI开始引入新技术基于PPO算法的RLHF，得到text-davinci-003。

此时，它在大部分基准上的表现和前代模型持平或略变差，说明作用不是特别明显（在开源模型身上也是如此）。

但有一个除外：编码任务，最高足足增加了近30分。

联想到前面code-davinci002采用SFT技进化成text-davinci-002造成整体性能下降时，编码任务也没受影响，反而还涨分了——

作者决定验证SFT和RLHF对大模型编码能力的影响。

在此，他们测量了几代GPT模型的pass@1（采样1次通过的概率）、pass@100（采样100次通过的概率）等分数。

结果是与基础模型相比，使用了SFT和RLHF技术的模型在pass@1上出现了大幅提升，而在pass@100上略有下降。

这说明啥呢？

作者解释：

pass@100刻画的是模型内在coding能力，而pass@1代表的是模型一遍过、bug-free的coding能力。

pass@100小幅下降表明SFT和RLHF在编码任务上和其它任务一样，仍然有所谓的对齐税（alignment tax）。

不过，SFT和RLHF能够将pass@100的能力学到pass@1上，即把内在能力（但需要很多次尝试）转化到一遍过、bug-free的coding能力，致使pass@1大幅提升。

而再仔细看结果，可以发现gpt-3.5-turbo-0301通过SFT和RLHF，大幅提升了pass@1，这对于小模型的性能优化是个好消息。

这还没完，鉴于作者之前观察到GPT-4在一些复杂推理任务上经过多次尝试才能解决问题。

他们结合上面的观察，总结为：

LLM仍可以通过SFT和RLHF，不断将内在能力（但需要多次尝试）转化成一次性解决问题的能力，不断逼近LLM的能力上限。

言外之意，GPT-4还可以更强。

3、代码加入预训练，对推理帮助最大

在GPT4进化之路上，还出现了2个特别的模型：

code-cushman-001 (Codex-12B) 和code-davinci-002。

前者是OpenAI初次尝试使用代码数据训练模型，尽管它的规模较小，但也取得了不错的代码能力。

后者是GPT3.5的基座模型，它是在GPT3的基础上使用RLHF+代码训练的结果，也就是文本和代码混合预训练。

可以看到，它大幅超越GPT-3（不止是编码能力）、在一些推理任务上（如BBH）表现甚至可以超过后面的gpt-3.5-turbo-0613。

作者表示：

这表明预训练加入代码数据可以全面提升LLM的能力，尤其是推理能力。

4、“跷跷板”现象

通过比较2023年3月和2023年6月的OpenAI API模型，我们确实可以发现这一现象：

与gpt-3.5-turbo-0301相比，升级后的gpt-3.5-turbo-0613在HumanEval上表现出色（53.9 -> 80.0），但在MATH上却大幅下降（32.0 -> 15.0）。

gpt-4-0613在DROP上的表现优于gpt-4-0314 (78.7 -> 87.2) ，但在MGSM上也出现了直线下降(82.2 -> 68.7) 。

作者认为：

“跷跷板现象”可能成为LLM通往AGI之路的绊脚石，因为AGI强调“通用智能”，要在所有task上都有优异的性能，要求模型不能“偏科”。

在此，他们也呼吁社区重视这个问题，共同推进大模型平衡发展的研究。

帮助大模型从业者找到方向

以上这些发现，全部基于GPT-Fathom——

字节最新提出的一个大模型评测工具。

想必大家肯定疑问：

大模型排行榜和评测工具已经有很多了，为什么还要提出一个新的方法？

作者介绍，相比已有的测评方式，GPT-Fathom尺度更加统一，结果具有可重现性。

大模型从业者可以借助它来明确自己与领先模型的差距到底在什么地方，从而有的放矢地完善自己的产品。

具体来看，GPT-Fathom主要是解决了其他大模型评测方法的三个不足：

setting标准不一致：是否使用思维链（CoT）、样本数量等设置，以及答案评价方法没有统一标准

模型和任务收集不完整：测试关注的能力不全面，缺乏对早期模型的关注

缺乏对模型敏感性的研究

为了更直观体现GPT-Fatham的特点，作者对比了一些具体的现有榜单，可以总结成下面这个表格：

其中，对敏感性的评测就发现了此前的测试标准没能找出的问题。

相比于GPT，其他模型对提示词的敏感度很高，稍有变化就会导致输出截然不同，提示其他模型的鲁棒性和GPT之前还存在很大差距。

比如在TriviaQA数据集上，提示词的细微改变就让Llama 2-70B的得分下降四分之一，而GPT系列模型则没有明显变化。

此外诸如CoT、样本数量以及采样方差等因素也都被包括进了敏感性测试当中。

未来，作者计划从能力种类、测试数据集和模型三个维度继续扩展GPT-Fathom，将支持多轮对话、多模态等能力的测评，以及增加对多个数据集和模型的测试。

GPT-Fatham的两位共同一作分别是字节公司应用机器学习研究组的研究人员张驭宇（Yuyu Zhang）和实习生Shen Zheng。

Shen Zheng是伊利诺伊大学香槟分校（UIUC）的一名硕士生。

此外，字节公司的Yijie Zhu等四名研究人员，以及UIUC的Kevin Chen-Chuan Chang教授也参与了这项研究。

论文地址：

https://arxiv.org/abs/2309.16583

参考链接：

https://github.com/GPT-Fathom/GPT-Fathom

近期资讯

领克明年将推首款大型插混SUV 内部代号L946

近日，领克汽车销售有限公司副总经理穆军宣布，领克计划于2025年初推出首款大型高端插电混合动力SUV。新车内部代号为L946，基于全新的大型车电混专属架构开发。目前，该车型已进入路试和宣传筹备阶段，预计将于2025年正式上市。从公布的图片来看，这款SUV车型外观设计优雅，线条流畅，采用隐藏式门把手，展现了领克品牌在设计领域的创新与精细。新车将拥有大型SUV的尺寸，基于SPA Evo架构打造，预计将提供插电混动系统，兼顾性能与燃油经济性。从轮廓来看，领克L946气场强大，采用了方正的车身设计。车头线条平直，

辣车TV 2024-12-25

办文绿软 2024-12-25

天神之眼无图城市领航开通，全国都能开，比亚迪稳居智驾第一梯队

从昨天开始，相信大家都陆续刷到了比亚迪高阶智能驾驶辅助系统“天神之眼”在全国范围内正式开通无图城市领航（CNOA）功能的消息，来聊聊我的看法。对于广大迪粉来说，这无疑是个好消息，这意味着腾势、仰望车型用户的高阶智驾不再局限于部分城市，而是“全国都能开，有路都好开”，哪怕是乡村小道它都能搞定，享受高阶智驾带来的乐趣。而对于比亚迪来说，这次CNOA开通，意义更为重大，至此之后，比亚迪天神之眼实力稳居行业第一梯队，也可以让那些质疑比亚迪的黑粉们闭嘴了。可能你会问，此次全国开通的城市领航功能，有什么不同

海评 2024-12-25

浙江各地市光资源逐月辐照量数据查询

本文数据来源于：光储圈一、前言光资源，是太阳能光伏领域的核心要素。充足、稳定的光照条件，意味着光伏电站能够更高效地将太阳能转化为电能，提高发电效率、增加电力产出，给企业带来更低的用能成本，给投资者创造可观的经济收益。二、浙江各地市光照资源输入本文数据来源于光储圈，数据仅供参考：1）杭州0度倾角的光资源数据：2）湖州0度倾角的光资源数据：3）嘉兴0度倾角的光资源数据：4）金华0度倾角的光资源数据：5）丽水0度倾角的光资源数据：6）宁波0度倾角的光资源数据：7）衢州0度倾角的光资源数据：8）绍兴0度倾角的光资

光储圈小蜜蜂 2024-12-25

合肥瑶海区复印机维修及时上门修打印机维修复印机,合肥打印机耗材齐全

合肥地区专业多年提供硒鼓、墨盒、打印机，复印机销售，租赁及维修‌‌，打印机加粉，送货上门，质量保障，放心使用。 URL：www.dndyj.cn V/QQ: 908110260 TEL：15O-56O5-8798欢迎来电咨询！ [图片] [图片] 1 、打印机耗材配送安装：硒鼓，墨盒，连供，碳带，碳粉，色带架 / 芯； 2 、打印机硒鼓加粉：激光打印机硒鼓加粉，各品牌复印机加粉，加原装高黑碳粉； 3 、打印机复印机维修：理光、施乐、佳能、惠普、三星、夏普、东芝、柯尼卡、美能达等各类品牌的打印机复印机的维修

万维电脑 2024-12-25

音频处理软件合集：2024推荐9款top高性价比音频剪辑软件，实战经验与方法分享！

随着元旦的到来，各大晚会都在摩拳擦掌，准备给观众们留下一份大礼。又是到了一年一度金曲诞生的时候了，其中，如果遇到了喜欢的歌曲，想要将这些制作成符合长度的音乐该怎么做呢？最近很多粉丝都想要了解歌舞串烧的制作方法，小编结合了不同的应用场景，分别选出9款简单好用的音频处理软件，能够满足用户99%以上的音频剪辑需求，一起来了解下吧！第1款：闪电音频剪辑软件大部分电脑用户用到的都是Windows系统，而闪电音频剪辑软件适用于win7以上操作系统的用户使用。软件功能强大且简单易用，对新手用户十分友好，软件界面整洁，让

金舟软件 2024-12-25

统一「瓶中树」产品的创新与环保特性

土壤，作为农业生产的基础，其重要性不言而喻。它孕育了无数的作物，从根茎到果实，无一不依赖于肥沃的土壤。正是土壤的默默奉献，才保障了我们的粮食安全和农业生产的稳定。可以说，没有健康的土壤，就没有丰收的希望。土壤不仅是我们获取食物的源泉，更是一个重要的“碳汇”或“碳源”。在自然界中，植物通过光合作用吸收二氧化碳并释放氧气，从而维持大气中二氧化碳和氧气的平衡。而土壤中的微生物也参与这一过程，它们分解有机物，释放或吸收二氧化碳。因此，健康的土壤有助于减少温室气体的排放，维护全球的生态平衡。此外，土壤还含有多种矿

来聊科技 2024-12-25

录音怎么去除杂音？多个方法分享给你，内附详细教程！

录音怎么去除杂音？如果不是使用专业的录音设备和录音棚，那么无论是手机还是电脑，录音时就容易将一些环境杂音和其他噪音一并录制。噪音特别多的话，听起来滋滋啦啦的，整体质感很差，影响使用。为了避免录制到杂音和噪音录音文件，本文整理了相关录音技巧和去除录音杂音的方法，有需要录音或给录音去除杂音的用户可以参考使用，具体介绍如下！一、录音为什么会有杂音、噪音？录音含有杂音噪音的原因有很多种，包括原因有：环境噪音、房间混响、电路噪音、话筒距离不合理、口水音、喷麦等等。除了这些之外，还有一些其他因素也可能导致录音中出现杂

金舟软件 2024-12-25

字节“开盒”OpenAI所有大模型，揭秘GPT-3到GPT-4进化路径

字节“开盒”OpenAI所有大模型，揭秘GPT-3到GPT-4进化路径

推荐体验

相关资讯