2024大模型训练数据白皮书

作者：初秋的夜晚发布时间：2024-06-02

业界认为，算法、算力与数据，是支撑大模型发展的三大基石。更高质量、更丰富的数据是以 GPT 为例的生成式人工智能大模型成功的驱动力。GPT 模型架构从第 1 代到第 4 代均较为相似，而用来训练数据的数据规模和质量却有很大的不同。GPT-1 是由 4.8G 未过滤原始数据训练，GPT-2 是由经人类过滤后的 40G 数据训练，GPT-3 是由从 45T 原始数据中过滤的 570G 数据训练，而 chatGPT/GPT-4 则是在该基础上又加入了高质量人类标注。以吴恩达（Andrew Ng）为代表的学者观点认为，人工智能是以数据为中心的，而不是以模型为中心。“有标注的高质量数据才能释放人工智能的价值，如果业界将更多精力放在数据质量上，人工智能的发展会更快”。

数据作为大模型训练的基础，它提供了大模型所必需的知识和信息。区别于以往搜索系统、个性化推荐等所需的大量用户行为和偏好数据，随着技术的演进，大模型所需的数据是对知识性内容有强需求，是一种新的类型。模型训练所需的数据类型 2.1　训练大语言模型的数据大模型所需要的数据根据训练的阶段有所不同。以 ChatGPT 为代表的大语言模型（LLM）为例，其训练过程分为预训练（Pre-training）、监督微调（SFT）、基于人类反馈的强化学习（RLHF）三个阶段，后两部分又统称为“对齐”（Alignment）阶段。

第一阶段预训练所需的语料是各种类型的世界知识，包括网页、书籍、新闻、论文期刊、对话文本、代码等形式，通过大量学习世界知识，构建模型的基础能力，理解客观世界的规律，该阶段的语料特征可以概括为 “广”。第二阶段 SFT，通过标注人员设计问答，编写正确答案，将例题投喂给模型，并希望模型在没有见过的任务中 “举一反三”，提升泛化能力。第三阶段 RLHF，训练目标是让模型的价值观与人类对齐，需要人类对模型的回答进行打分、排序，让模型知道 " 怎么说更好 "。

第二和第三阶段的数据质量要求较高，需要来自人类的高质量反馈，语料特征可以概括为 “齐”。如果将模型微调后部署应用于特定的场景形成行业大模型（如工业、金融、医疗等），则需要满足该场景专业需求的特定领域知识做预训练和对齐，需要具备一定专业深度，如行业数据库、专业文档、专业网站等，这部分的语料特征是 “专”。

2.3　训练数据的常见疑问和误解 2.3.1　大模型训练并不依赖用户个人信息人工智能经历了从有监督学习到无监督学习的发展阶段，神经网络等技术推动了数据驱动的应用模式。传统的决策类人工智能在需求侧通过学习和分析海量的用户行为数据，判断用户的偏好和需求。在供给侧通过学习内容的特征，借助推荐、排序等机制实现需求和内容的匹配，并根据用户的行为反馈进行优化，提高算法的准确性。

以个性化搜索为例，以大量的用户使用记录、用户画像、内容画像等原始数据为基础，提炼出客群和内容标签等不同维度的信息，进而抽象出特征向量，用向量的空间距离计算用户和内容的相似度，通过匹配与排名进行个性化的搜索结果召回。

基于上述特点，此类决策式人工智能技术在需求侧需要更多用户数据，在供给侧依赖更为全面的内容特征。与以前的决策类人工智能相比，以大模型为代表的生成式人工智能的技术特征有明显差异。大模型是模拟人类的思维活动方式生成人类可以理解和使用的内容，而训练数据也是基于世界知识，对语料库等知识性内容有强烈需求，因此大模型训练阶段不依赖个人信息等原始数据。

此外，为保证生成内容与人类价值观对齐，业界往往利用强化学习，通过纳入人工标注等机制优化表达，使模型生成内容更接近于人类认知。因此大模型对于用户数据并不依赖，而对专业化、高质量语料的知识性内容依赖大。由此看出，随着技术的演进，对训练数据的需求类型也有所不同。然而，有很多人对此仍存在误解。