AI大模型：卡位大模型的数据预训练新秀

作者：AIGC资源社发布时间：2023-12-27

AI大模型

【幻影视界】：有数据的研报下载中心，用数据解读行业发展

1.数据预训练是AI应用降本增效的重要因素，随着场景落地，数据将成为大模型竞争力提升的高效燃料，预训练数据服务商有望伴随着AI场景落地而快速成长。

前期AI模型搭建以过往数据为主，预训练数据服务需求并未伴随模型发展而快速增长，由此带来错觉：预训练数据服务在AI中不需要。事实恰恰相反，预训练数据服务是AI模型降本增效，加速迭代重要因素。

预训练数据服务需求将伴随AI场景落地而迅速增长。预训练数据服务有助于优化算力配置；有助于更精准实现客户需求；有助于AI模型快速迭代。因此，随着AI场景落地，使用更多全新数据，预训练数据服务需求由此快速增长。

数据反向赋能应用场景，数据和场景落地有望共振。终端场景应用落地加速数据要素多模态扩容，将进一步提升预训练数据环节的重要性，高质量预训练数据集是大模型自反馈强化学习机制的前提，数据与场景将实现共振。

2 场景驱动，AI预训练数据有望增长

2.1 预训练数据是AI产业链的基石

数据是AI产业链上游的基石。ChatGPT大模型引领本轮生成式AI浪潮，纵观当前的AI产业链，上游数据来源于终端场景的采集，是算法感知世界的起点；中游模型开发是数据应用的工具；下游场景端拉动模型算法迭代；监管是贯穿上下游全环节的刚需。

根据AI分析公司Congnilytica研究显示，AI项目中数据处理过程占据80%的时间，其中数据标注占比25%，针对复杂场景数据的有效预处理，可缩短数据识别、整合、增强、清洗、标注全环节的时间周期，为模型开发节约成本。

纵观AI数据链，AI数据预训练环节是承上启下的关键抓手。

预训练数据服务承接上游数据来源：非结构数据只有经过预训练处理才能激活其价值。AI预训练数据服务将场景端语音、图像、文本、视频、点云等非结构化数据进行采集、清洗、标注、质检，形成AI模型可直接利用的有效预训练数据集。

预训练数据助力下游算法设计、训练、评测、迭代全生命周期降本增效。

（1）算法设计环节，利用小批量预训练数据对算法初步的设计进行验证，减少模型设计的方向性偏差。（2）算法训练环节，有效简化模型参数规模，节约算法开发时间。（3）算法测评环节，少量人工标注的预训练数据可作为模型输出结果的对照组，有效评定模型的准确性。（4）算法迭代环节，针对bug对预训练数据进行精确标注处理，进而对模型精准修复，有效提升模型性能。

2.2 多模态趋势显著，提升数据预训练的重要性

多模态预训练数据是解决AI应用长尾问题的关键，大模型与垂直领域的产业结合趋势带来的多模态技术迁移，将进一步提升预训练数据环节的重要性。

海内外模型多模态趋势显著，输入数据从海量语言信息、文本信息，发展为多类垂直领域的多模态数据。叠加模型底层是模型通过对指令的理解，建立起不同模态数据，如：文本、语音、视频、图像等数据的关键特征，并建立多维映射。因此，模型训练和优化过程需要海量的多模态数据。数据预训练通过对非结构化多模态数据进行跨模态特征的提取、对齐和融合，解决产业结合下多模态数据难以有效识别和语义信息深度利用的痛点。

模型趋向特定方向上的优化迭代，竞争焦点从参数规模转移到与数据质量。

伴随大模型与垂直领域的产业结合更多模型或将采用类强化学习模式来进行特定领域或特定方向上的优化迭代，因此，在模型预训练环节、微调环节，高质量的标注过的指令数据是模型精确度、泛化能力的基础。

竞争焦点从参数规模的竞争到数据质量的竞争。如大模型诞生初期，主流观点是参数规模是模型效果增强的核心要素，模型参数越大，性能表现越好，当前这一观点正逐渐被打破。如Llama-13B参数规模为GPT-3的1/13，依靠模型训练数据规模，最终常识推理、闭卷问答、阅读理解等方面表现略优于GPT-3。

2.3 场景落地，驱动数据预训练需求释放

模型演变趋向算法功能至上，数据成为场景落地重要的推动力量，全球范围内AI预训练数据需求快速增长。ChatGPT诞生初期，模型预训练数据为截止到2019年5月的历史存量数据，本来伴随模型在垂直领域的结合，海量终端全新数据的标注需求有望释放。根据Cognilytica预测，2022E全球AI训练数据市场规模为393亿元，2027E年有望达到1574亿元，2022E-2027E全球市场五年复合增速31.98%。

智能驾驶是数据预训练未来五年弹性最大的应用场景，2022E-2027E五年复合增速为37%。根据德勤测算，2022E年中国基础数据服务行业市场规模为45亿元，预计2027E年最高有望达到160亿元，2022E-2027E五年复合增速为29%。从终端场景出发，当前自动驾驶、智慧工业、互联网内容等终端场景占比数据服务行业较大市场份额。

车型迭代进展、量产进度、渗透率三个因素将有望催化数据处理需求呈现指数级增长。（1）车型迭代过程中，不同传感器配置需要基础数据服务商定制不同的数据解决方案。（2）量产进度带来终端场景数据加工规模的指数级增加。（3）渗透率的提高加深了场景数据的复杂性，针对复杂场景多模态数据的加工精度对数据标注提出更高的要求。

数据推动应用端和模型迭代的共振，未来有望反向赋能场景落地。数据预训练是整个大模型训练的知识灌输阶段，数据标注服务商为大模型提供大量标签数据,保证模型真正学习产业核心数据知识，进一步加深产业适配。高质量预训练数据集是大模型自反馈强化学习机制的前提，加速大模型迭代齿轮运转，长期实现场景落地和模型迭代的共振。

本文仅供参考，不代表我们的任何投资建议。幻影视界整理分享的资料仅推荐阅读，用户获取的资料仅供个人学习，如需使用请参阅报告原文。

《汇洲智能-卡位大模型的数据预训练新秀-20231226-财通证券-24页.pdf》

AI大模型：卡位大模型的数据预训练新秀

推荐体验

相关资讯

OLMo：真正的开源大模型，预训练、微调代码、数据集、模型架构、模型权重都完全公开

预训练对话大模型深度解读

中文数据：AI大模型训练的粮食

大模型数据之二｜中美大模型的竞争之路：从训练数据讲起

押注大模型：协同办公打响“卡位战”

近期资讯

中国汽研：智驾不宜过度宣传、不能完全代替人驾

铠侠VD10固态硬盘上市：2TB首发1299元最大读速10000 MB/s

不加长能否热销：奔驰E级标准轴距版上市起售价45.92万元

联发科天玑9400喜获年度AI大奖！

曝剪映两位负责人离职：曾带领产品月活用户超8亿

要买先等等！DRAM内存明年Q1降价13%

春节吉言罐包装：王老吉凉茶2.49元/罐速囤（商超4元）

何小鹏给AGI泼冷水：不可能几年就颠覆世界

余承东亲测享界S9“车位到车位”智驾：自己全程啥也没干

国产CPU之光！10年卖1000万颗、九译二进制跑2+万软件

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响