什么成就了ChatGPT：从基础模型说起

作者：全球技术地图发布时间：2024-03-20

2018年以前，能够训练出一个适配特定任务的神经网络模型，对于深度学习领域的算法工程师而言难度很大。而进入大语言模型时代后，通过几句简单的提示，普通人就可以完成同类任务。是什么让深度学习在这几年间发生了如此巨大的改变？为何当今主流大语言模型是GPT而不是其他神经网络结构呢？本文通过详述近年深度学习的范式之一——基础模型，与读者一起探讨这些问题。

什么是基础模型？

2023年9月，英国竞争和市场管理局（CMA）发布了《关于人工智能基础模型（FM）的初步报告》（后简称报告），在报告中CMA将基础模型定义为“基于大量数据训练的大型机器学习模型，可以适应广泛的任务和操作”。这篇报告中“基础模型”的定义实际引用自斯坦福大学众多学者联合撰写的论文《基础模型的机遇与风险》（后简称论文），该论文将Transformer模型、大型语言模型（LLM）和其他仍在构建的神经网络归入到基础模型这个重要新类别中。

这里需要特别注意的是，“基础”一词指定了这些模型所扮演的角色：基础模型本身是不完整的，但作为通用基础，许多限定任务的模型是通过对其适配而构建的。也就是说，基础模型的责任是利用普适的海量数据完成对先验常识的抽象表征，但对特定领域的专业任务，仍需要进一步的微调和适配才能达到预期的效果。

基础模型的发展历程

基础模型的发展历程和近年自然语言处理（NLP）的发展是密不可分的。在早期，自然语言处理模型主要关注特定任务的学习，比如文本分类或实体抽取。然而，这种训练方式需要针对每个任务独立建模和训练优化，无法充分利用任务之间的共性。

随后，迁移学习的出现打破了这一局面。迁移学习的核心思想是将从一个任务中学到的知识应用到另一个任务中，这使得模型能够在不同任务之间共享知识，提高了学习效率。预训练是迁移学习在深度学习中实现的主要方法，通过在替代性任务上训练模型，然后将其适配到下游任务，实现了跨任务的知识迁移。

这里值得一提的是，2013年由Tomas Mikolov等人发明的Word2Vec算法，该算法是一种在自然语言处理领域广泛应用的词嵌入技术，它的目标任务是将语料库中的词训练成固定维度的向量，使得语义上相近的词在向量空间中的距离也更近。这个任务的训练方式是用神经网络来学习词的上下文关系，最终得到的模型参数就是词的向量表示。而在应用上，Word2Vec生成的词向量可以直接通过线性分类器就适配到不同的任务上。

这个算法迈出了预训练基础模型，再迁移适配到下游任务的重要一步。从此，自然语言处理领域从单一的任务学习逐渐演化为跨任务的通用学习。这个演化过程不仅体现了技术的进步，也反映了人们对语言处理任务本质理解的深化。

然而，预训练模型的发展并非一帆风顺。早期的预训练主要依赖于带标注的数据集，这导致了标注成本高昂和标注数据稀缺。直到自监督学习的兴起，预训练才真正实现了飞跃。自监督学习能够从未标注的数据中自动推导出预训练数据，这使得预训练变得更具可扩展性。同时，自监督任务的设计也使得模型在训练过程中能够预测部分输入，从而产生了更丰富、更实用的模型。

这里要提及一下2018年在自然语言处理领域取得重大突破的BERT算法，该算法是在2018年由谷歌的研究团队提出的，它的全名是Bidirectional Encoder Representations from Transformers，意为“来自Transformer的双向编码器表示”。它通过改进谷歌在2017年发布的Transformer架构，联合调节所有层中的双向Transformer来进行预训练。这意味着BERT在理解一个词时，会同时考虑其前后的词，从而更准确地捕捉词在句子中的上下文含义。BERT的训练过程分为预训练和微调两个阶段。在预训练阶段，BERT通过大量无标注的文本数据学习语言的内在规律。

它使用了两种预训练任务：掩码语言建模和下一句预测。前者随机遮盖输入句子中的部分词，要求模型预测被遮盖的词；后者则判断两个句子是否是连续的，以提升模型对句子关系的理解。在微调阶段，BERT可以根据具体的自然语言处理任务（如文本分类、问答等）进行参数调整，从而适应不同的任务需求。

由于BERT能够捕捉词在句子中的上下文含义，因此在命名实体识别、文本分类、问答系统等任务中都取得了很好的效果。同时，BERT也为后续的自然语言处理研究提供了强大的基础模型，推动了整个领域的发展。在2019年左右，笔者亲身经历了BERT给整个行业带来的巨大改变。之前训练优化了多年性能也未见改善的模型，替换成BERT后效果大幅度提升。算法相关从业人员相互调侃：“连HR都知道简历里面的BERT是什么含义”。

2022年11月，OpenAI的研究人员发布了在10000个NVIDIA GPU上训练而成的ChatGPT，在短短两个月内就吸引了超过1亿用户。通过ChatGPT，许多人了解了如何使用生成式人工智能，它的发布被称为人工智能的“iPhone 时刻”。Chatgpt的底层模型是GPT，全称Generative Pre-trained Transformer，是一种基于深度学习的自然语言处理模型。而GPT的原理主要基于Transformer架构，并通过大规模的语料库采用了自回归的方式进行预训练，即根据前面的词预测下一个词，从而生成连贯的文本。这种预训练方式使得GPT模型能够捕捉到语言的深层含义和上下文信息。

从BERT模型出来以后，“无监督训练+下游任务微调”的范式便奠定了它的霸主地位，各类沿着BERT的思路，琢磨“如何获得更好的文本特征编码”的方法大量涌现，以至于GPT这个以生成式任务为目标的模型显得像一个“异类”。如果当时OpenAI“顺应大势”，放弃生成式预训练这条路，也许我们要等更长的时间才能见到ChatGPT这样的模型。

一个令人深思的问题：GPT采用了单向编码，仅仅保留了生成文本的能力，而BERT采用了双向编码，理论上具备更强的上下文理解能力，为什么如今GPT取代了BERT成为了自然语言处理的霸主？这个问题的答案，可以在OpenAI提到的“缩放规律”中看到部分答案。该研究表明，语言模型的性能（如交叉熵损失），随模型大小、数据集大小和训练计算量的增加而呈幂级增长；而其他架构细节（如网络宽度或深度），在一定范围内的影响较小。所以OpenAI坚持用大量数据、加大模型参数量、使用超大GPU集群反复训练，最终做出了GPT4——参数量是BERT模型500多倍的大模型，取得了令人震惊的成就。

所以我们不难看出，基础模型的发展实际上带来了前所未有的同质化水平，从word2vec到BERT再到GPT，这些“基础模型”都满足了“先预训练再根据下游任务调整”和“缩放规律”这两大模式，这也正是斯坦福团队总结出来的“范式”。

基础模型的最新应用

报告表示，“基础模型的最新发展及其在多个用户应用程序（如ChatGPT和Office 365 Copilot）中的迅速推广，凸显了它们刺激创新和经济增长的潜力。基础模型很有可能会突然改变我们的生活，以及一系列行业的工作模式，对个人、企业和经济产生重大影响。”之前的基础模型大部分集中在自然语言处理领域，随着行业的发展，现在多模态的基础模型开始涌现，这里列举两个比较有新意的案例：

英国自动驾驶创业公司Wayve于2023年推出了针对自动驾驶的生成式AI模型：GAIA-1。它能够通过视频、文本和动作输入生成真实的驾驶场景，并对车辆行为和场景特征提供精细控制。这种模型的核心在于其能够学习高级结构和场景动力学，具备泛化性、创造性和上下文意识，从而生成新的多样视频，超越训练集中的特定实例。GAIA-1不仅能够记忆统计模式，还能理解如下基本规则：世界中物体排列的规律和支配他们的行为。此外，GAIA-1还展示了对3D几何形状的理解，有效地捕捉了道路不规则性（如减速带）引发车辆俯仰和侧倾的复杂作用。GAIA-1不但能预测未来事件，还可以生成真实样本，为自主驾驶领域的创新提供了新的可能性。

中国的蚂蚁集团于2024年2月推出了一个20亿参数的多模态遥感基础模型：SkySense。它能够实现地球观测图像的通用解释。研究团队预先在一个精选的多模态遥感图像（RSI）数据集上训练，该数据集包含2150万个时间序列。SkySense采用了一个分解的多模态时空编码器，接受光学和合成孔径雷达（SAR）数据的时间序列作为输入。这个编码器通过提出的多粒度对比学习（Multi-Granularity Contrastive Learning）预先训练，以学习不同模态和空间粒度的表征。为了进一步通过地理上下文提升RSI表征，SkySense引入了地理上下文原型学习（Geo-Context Prototype Learning），以学习在RSI的多模态时空特征上的区域感知原型。SkySense是迄今为止最大的多模态遥感基础模型（RSFM），其模块可以灵活组合或单独使用，以适应各种任务。

结语

现如今大模型成为了新一代的潮流，但许多人盲目跟随OpenAI，也试图打造大模型基座。实际上，哪些人能笑到最后呢？在2013年，大数据技术盛极一时，互联网行业曾经抱有一种幻想，认为只要数据足够大，就能颠覆旧业务并寻找到新的增量，甚至有人说“人工智能就是人工策略在大数据下看上去很智能”。然而随着时间的推移，只有那些深耕业务场景并坚定实现业务数字化和实践数据治理的公司，成功地存活并坚持到大模型时代的到来。对比来看深度学习模型从Word2vec到BERT到GPT4，研究者们并未追求某种特定任务的性能提升，而是不断尝试让机器自行发现真实数据中的模式。不难知道，基础模型的发展过程也将和大数据发展历程相似，即结合真实有效的海量数据，让机器自行探索其中的先验规律，才能有可能在特定任务上取得更好的效果。而未来会有怎样的基础模型出现，让我们拭目以待。

免责声明：本文转自元战略，原作者David Morre。文章内容系原作者个人观点，本公众号编译/转载仅为分享、传达不同观点，如有任何异议，欢迎联系我们！

转自丨元战略

作者丨David Morre

研究所简介

国际技术经济研究所（IITE）成立于1985年11月，是隶属于国务院发展研究中心的非营利性研究机构，主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题，跟踪和分析世界科技、经济发展态势，为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号，致力于向公众传递前沿技术资讯和科技创新洞见。

地址：北京市海淀区小南庄20号楼A座

电话：010-82635522

微信：iite_er

什么成就了ChatGPT：从基础模型说起

推荐体验

相关资讯

从ChatGPT背后的基础模型说起，运营商数字化转型需要怎样的IT基础设施？

从文生视频模型Sora说起：现实不存在了，还是我们不存在了？

从水印技术在ChatGPT上开始应用说起

人工智能，从游戏说起

病毒式技术心理学：从ChatGPT的爆火说起

近期资讯

荣耀Magic7系列全面升级大王影像，AI与影像相结合是未来发展方向

调用量疯涨，产业加速落地，百度AI 交出亮眼成绩单

李想：要实现L4自动驾驶，最少要有500万辆以上的车跑在路上

李想谈至暗时刻：2008年被小股东排挤，想着想着就会掉眼泪

谷歌CEO皮查伊的艰难2024：AI竞争更卷、员工士气下滑、裁员抗议不断

iPhone 14 / SE 3 退环境，Type-C 一统江湖

消息称苹果 iPhone 17 标准版“大概率使用高刷屏”

腾讯新闻独家对话李想：谈车企为何自研大模型称喜欢看团队吵架

Copilot 成品牌核心，更名Microsoft 365应用筑起微软 AI 帝国梦

洛图科技：中国监控摄像头 11 月线上销量 241 万台，小米双第一

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响