【湾创观点】AI大模型简史：萌芽、沉淀、爆发！

作者：大湾区创新发布时间：2024-05-29

近一年来，随着ChatGPT爆火，大模型热潮席卷全球并持续升温，国内越来越多的知名高校、科研院所和创新型企业加大研究力度，大模型技术不断迭代升级，模型能力不断加强，逐渐形成从底层算力、模型开发到行业应用的新兴产业，大模型也从语言文本，到音视图文，再到动作行为，最终将走向人类社会往人机共生的社会。

AI大模型双核动力：预训练与大模型

人工智能大模型是“人工智能预训练大模型”的简称，是“大数据+大算力+强算法”结合的产物，是凝聚了大数据内在精华的“隐式知识库”，包含了“预训练”和“大模型”两层含义，即模型在大规模数据集上完成了预训练后无需微调，或仅需要少量数据的微调，就能直接支撑各类应用。

训练大模型“预训练+精调”模式（来源：IDC&百度）

简单来说，预训练就像是知道了所有大量基础知识的学生，完成了“通识”教育。但他们还需要实践，需要反馈后的精细调整，才能更好地完成任务。

而人工智能大模型，是预训练与大模型的协同作用，就像是一个有着非常大和复杂大脑的超级聪明学生。这个大脑里有成亿上万的小电路（参数），使它能够学习和处理大量不同类型的信息。这个学生通过阅读大量的书籍（数据）来学习，因此他变得非常聪明，能够做很多事情，比如理解语言、识别图片或者创作艺术作品。但是，这个学生也需要很多能量（计算资源）来维持他的学习和思考，而且如果他学习的内容有错误或偏见，他也可能学到错误的知识。

AI大模型简史：萌芽、沉淀、爆发！

人工智能发展成为人工智能大模型的过程，主要得益于深度学习技术的成熟，计算能力的提升和算法的优化，其发展历经了三个阶段：萌芽期、沉淀期和爆发期。

萌芽期（1950－2005）：以CNN为代表的传统神经网络模型阶段。

1956年，从计算机专家约翰·麦卡锡提出“人工智能”概念开始，AI发展由最开始基于小规模专家知识逐步发展为基于机器学习。1980年，卷积神经网络的雏形CNN诞生。1998年，现代卷积神经网络的基本结构LeNet-5诞生，机器学习方法由早期基于浅层机器学习的模型，变为了基于深度学习的模型，为自然语言生成、计算机视觉等领域的深入研究奠定了基础，对后续深度学习框架的迭代及大模型发展具有开创性的意义。

沉淀期（2006－2019）：以Transformer为代表的全新神经网络模型阶段。

2013年，自然语言处理模型 Word2Vec诞生，首次提出将单词转换为向量的“词向量模型”，以便计算机更好地理解和处理文本数据。2014年，被誉为21世纪最强大算法模型之一的GAN（对抗式生成网络）诞生，标志着深度学习进入了生成模型研究的新阶段。2017年，Google颠覆性地提出了基于自注意力机制的神经网络结构——Transformer架构，奠定了大模型预训练算法架构的基础。2018年，OpenAI和Google分别发布了GPT-1与BERT大模型，意味着预训练大模型成为自然语言处理领域的主流。在探索期，以Transformer为代表的全新神经网络架构，奠定了大模型的算法架构基础，使大模型技术的性能得到了显著提升。

爆发期（2020－至今）：以GPT为代表的预训练大模型阶段。

2020年，OpenAI公司推出了GPT-3，模型参数规模达到了1750亿，成为当时最大的语言模型，并且在零样本学习任务上实现了巨大性能提升。随后，更多策略如基于人类反馈的强化学习（RHLF）、代码预训练、指令微调等开始出现, 被用于进一步提高推理能力和任务泛化。2022年11月，搭载了GPT3.5的ChatGPT横空出世，凭借逼真的自然语言交互与多场景内容生成能力，迅速引爆互联网。2023年3月，最新发布的超大规模多模态预训练大模型——GPT-4，具备了多模态理解与多类型内容生成能力。在迅猛发展期，大数据、大算力和大算法完美结合，大幅提升了大模型的预训练和生成能力以及多模态多场景应用能力。如ChatGPT的巨大成功,就是在微软Azure强大的算力以及wiki等海量数据支持下，在Transformer架构基础上，坚持GPT模型及人类反馈的强化学习（RLHF）进行精调的策略下取得的。

国内外典型大模型梳理（数据来源：赛迪智库）

可见，随着计算能力的提升和算法的优化，研究者们开始探索更大规模的模型训练。同时，预训练模型和大规模预训练技术的发展也为AI大模型的崛起提供了可能。通过在大规模数据集上进行预训练，模型可以学习到丰富的知识和经验，从而更好地适应各种下游任务。

AI大模型技术演进：从泛用到专长

人工智能大模型是通过人工智能发展演变而来，同时也是人工智能领域的一个重要分支，它通过超大规模参数和超强计算资源实现了更高的能力和更好的通用性。当谈及人工智能与人工智能大模型之间的差异时，可从以下几方面探讨：

技术基础：

人工智能的技术基础包括符号逻辑、专家系统、基于规则的系统以及传统的机器学习方法等。这些方法通常基于人类专家的知识或者手动设计的特征。人工智能大模型的技术基础是深度学习，特别是基于神经网络的方法。这些方法能够自动从数据中学习特征和模式，而不需要手动设计特征。

数据需求：

人工智能大模型通常需要大规模的数据集来进行训练，以便模型能够从中学习。这些数据集可能包含数十亿甚至数万亿的文本、图像或视频等。一些传统的人工智能方法可能不需要如此庞大的数据集，而是依赖于少量的人类专家知识或者手动标注的数据。

模型复杂性：

人工智能大模型往往拥有巨大的模型规模和复杂的结构，例如数十亿甚至数万亿的参数。这些大模型具有更强大的学习和推理能力，但也需要更多的计算资源来训练和部署。传统的人工智能方法可能会设计相对简单的模型，参数数量较少，但可能会牺牲一定的性能。

计算资源需求：

人工智能大模型通常需要大量的计算资源来进行训练和推理，例如数千甚至数万台GPU。这使得其在实践中的应用受到了硬件资源的限制。传统的人工智能方法可能在相对较低的计算资源下就能够运行，因此更适合于资源受限的环境或者嵌入式系统中的应用。

应用领域：

人工智能大模型在自然语言处理、计算机视觉等领域取得了巨大成功，例如在语言生成、翻译、图像识别等任务中表现出色。一系列基于大模型的人工智能应用已经问世，如ChatGPT和“文心一言”等，这些应用已经在社会生产、生活方面产生了广泛影响。传统的人工智能方法可能更适用于一些特定的任务或者领域，例如基于规则的系统在专家系统、推荐系统等方面有所应用。

综上所述，人工智能大模型与传统的人工智能方法相比，在技术基础、数据需求、模型复杂性、应用领域以及计算资源需求等方面存在明显的差异，是从泛用到专长的技术演进。人工智能大模型借助于深度学习技术的发展，在自然语言处理、计算机视觉等领域取得了巨大的进展和成功，成为当今人工智能领域的重要发展方向之一。

跨界融合赋能千行百业，应用增长维持强劲态势

国家数据局局长刘烈宏此前公开介绍，中国10亿参数规模以上的大模型数量已超100个，行业大模型深度赋能电子信息、医疗、交通等领域，形成上百种应用模式，赋能千行百业。

中国信息通信研究院数据显示，2023年我国人工智能核心产业规模达5787亿元，相关企业数量达 4482家。人工智能产业链已覆盖芯片、算法、数据、平台、应用等上下游关键环节。

2024中国人工智能多模态大模型20强企业模型应用场景（数据来源：赛迪智库）

目前国内大模型处于百花齐放的状态，以百度、阿里、腾讯、华为为代表的科技巨头，科大讯飞、智谱AI、商汤科技等AI公司，三大运营商，以及智源研究院、中科院等学术研究机构都纷纷投身AI大模型浪潮。根据中国科学技术信息研究院2023年5月发布的《中国人工智能大模型地图研究报告》，我国参数规模在10亿以上的大模型数达79个，数量在全球排名仅次于美国。这些大模型在地理上分布较广，14个省市地区都有开展大模型研究，其中北京和广东最多，北京有38个大模型，广东有20个大模型。

广东省还拥有一大批新一代信息技术产业集聚区，建设了鹏城云脑Ⅱ、横琴先进智能计算两大人工智能算力平台，打造了鹏城实验室、琶洲实验室等省实验室，成立了广州人工智能与先进计算、广东智能无人系统、广东琴智科技等高水平创新研究院，组建了16家广东省新一代人工智能开放创新平台。

推动建设核心应用场景，加速牵引技术落地转化

从短期来看，人工智能大模型已在日常办公、文本创作、图像视频生成、客服问答等领域展现较大发展潜力和应用价值。从长期来看，人工智能大模型与制造、生物医药、能源、交通等实体经济领域深度融合，不断提升创新效率、拓展应用领域、提高生产效率，是各行业转型升级的基础赋能工具，已成为塑造未来的科技巨擘。

然而，我们也应看到人工智能大模型技术发展中存在的挑战和问题。目前市面上缺乏高质量公开的数据集，比如政务、医疗、智慧城市等领域数据获取难度大、隐私性要求高，大模型厂商无法迭代准确面向行业落地场景训练大模型，而多数行业数据丰富的企业又缺乏自研大模型的能力，严重掣肘行业模型研发和应用落地。此外，当前人工智能大模型应用还存在“蹭热度”和同质化情况，只是将大模型与传统AI模型简单替换，未能体现场景对大模型的刚需，难以带来实际经济效益。

为了促进人工智能大模型技术的深入发展及其健康可持续的应用，需要加快创新应用场景建设，牵引成果落地应用。鼓励行业龙头企业依托业务场景和数据，通过开展行业大赛、接班挂帅等形式，引导行业用户向大模型厂商开放有价值的核心业务场景，整合行业数据，开展大模型应用试点，为大模型技术落地转化提供“试验场”。

展望未来，人工智能大模型将继续引领科技发展的方向，塑造全新科技纪元。让我们共同期待人工智能大模型在未来带来的更多惊喜和变革！

- 参考列表 -

[1]戴新宇.人工智能大模型时代的机遇和挑战[J].视听界,2023,(05):9-11+29.DOI:10.13994/j.cnki.stj.2023.05.041.

[2]天翼智库.迎接大模型时代：大模型发展简史及攻略[J].互联网天地,2023,(05):8-15.

[3]蔡睿,葛军,孙哲,等.AI预训练大模型发展综述[J/OL].小型微型计算机系统:1-12[2024-05-26].http://kns.cnki.net/kcms/detail/21.1106.tp.20240510.1900.010.html.

[4]韩炳涛,刘涛.大模型关键技术与应用[J/OL].中兴通讯技术:1-23[2024-05-26].http://kns.cnki.net/kcms/detail/34.1228.TN.20240418.1324.004.html.

[5]谷业凯.国产大模型加速赋能产业发展[N].人民日报,2024-05-13(017).DOI:10.28655/n.cnki.nrmrb.2024.004806.

[6]黄鑫.大模型产业加速形成应用场景[N].经济日报,2024-05-23(006).

[7]冷观人工智能大模型热[J].软件和集成电路,2023(07):60-63.DOI:10.19609/j.cnki.cn10-1339/tn.2023.07.034.

[8]《2024中国人工智能多模态大模型企业综合竞争力20强研究报告》，作者：人工智能产业创新研究中心，来源：赛迪四川

【湾创观点】AI大模型简史：萌芽、沉淀、爆发！

AI大模型双核动力：预训练与大模型

AI大模型简史：萌芽、沉淀、爆发！

AI大模型技术演进：从泛用到专长

跨界融合赋能千行百业，应用增长维持强劲态势

推动建设核心应用场景，加速牵引技术落地转化

推荐体验

相关资讯

从萌芽期到智能营销：AI大模型的奇迹

大湾区人形机器人产业迎爆发拐点

五道口大模型简史

对话 APUS 李涛：全面转型做 AI，蒸馏法训练大模型，沉淀中小模型

迈向AGI时代，AI大模型引领硅基智能新物种大爆发｜2024联想创投CEO年会

近期资讯

Electron使用D3可视化磁盘空间（6）

程序员同事之间该不该借钱？

【2024 年终总结】组织 25 个活动，I 人程序猿转 E 的一年

前端常见的20种设计模式及其应用

像素跳动效果

gozero项目接入elk的配置与实战

React中的 ref 及原理浅析

前端实现pdf、图片、world、excel文件预览，以及对应的文件下载，文件上传，轮播图展示多张图片,鼠标小手指

2024再见！

Kotlin Multiplatform 2024 年总结，KMP 崛起的一年

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响