业界认为,算法、算力与数据,是支撑大模型发展的三大基石。更高质量、更丰富的数据是以 GPT 为例的生 成式人工智能大模型成功的驱动力。GPT 模型架构从第 1 代到第 4 代均较为相似,而用来训练数据的数据规模和质 量却有很大的不同。GPT-1 是由 4.8G 未过滤原始数据训练,GPT-2 是由经人类过滤后的 40G 数据训练,GPT-3 是由从 45T 原始数据中过滤的 570G 数据训练,而 chatGPT/GPT-4 则是在该基础上又加入了高质量人类标注。以 吴恩达(Andrew Ng)为代表的学者观点认为,人工智能是以数据为中心的,而不是以模型为中心。“有标注的高 质量数据才能释放人工智能的价值,如果业界将更多精力放在数据质量上,人工智能的发展会更快”。
数据作为大模型训练的基础,它提供了大模型所必需的知识和信息。区别于以往搜索系统、个性化推荐等所需 的大量用户行为和偏好数据,随着技术的演进,大模型所需的数据是对知识性内容有强需求,是一种新的类型。 模型训练所需的数据类型 2.1 训练大语言模型的数据 大模型所需要的数据根据训练的阶段有所不同。以 ChatGPT 为代表的大语言模型(LLM)为例,其训练过程 分为预训练(Pre-training)、监督微调(SFT)、基于人类反馈的强化学习(RLHF)三个阶段,后两部分又统称为“对齐”(Alignment)阶段。
第一阶段预训练所需的语料是各种类型的世界知识,包括网页、书籍、新闻、论文期刊、对话文本、代码等形 式,通过大量学习世界知识,构建模型的基础能力,理解客观世界的规律,该阶段的语料特征可以概括为 “广”。 第二阶段 SFT,通过标注人员设计问答,编写正确答案,将例题投喂给模型,并希望模型在没有见过的任务中 “举一反三”,提升泛化能力。第三阶段 RLHF,训练目标是让模型的价值观与人类对齐,需要人类对模型的回答进 行打分、排序,让模型知道 " 怎么说更好 "。
第二和第三阶段的数据质量要求较高,需要来自人类的高质量反馈, 语料特征可以概括为 “齐”。 如果将模型微调后部署应用于特定的场景形成行业大模型(如工业、金融、医疗等),则需要满足该场景专业 需求的特定领域知识做预训练和对齐,需要具备一定专业深度,如行业数据库、专业文档、专业网站等,这部分的 语料特征是 “专”。
2.3 训练数据的常见疑问和误解 2.3.1 大模型训练并不依赖用户个人信息 人工智能经历了从有监督学习到无监督学习的发展阶段,神经网络等技术推动了数据驱动的应用模式。传统的 决策类人工智能在需求侧通过学习和分析海量的用户行为数据,判断用户的偏好和需求。在供给侧通过学习内容的 特征,借助推荐、排序等机制实现需求和内容的匹配,并根据用户的行为反馈进行优化,提高算法的准确性。
以个 性化搜索为例,以大量的用户使用记录、用户画像、内容画像等原始数据为基础,提炼出客群和内容标签等不同维度的信息,进而抽象出特征向量,用向量的空间距离计算用户和内容的相似度,通过匹配与排名进行个性化的搜索 结果召回。
基于上述特点,此类决策式人工智能技术在需求侧需要更多用户数据,在供给侧依赖更为全面的内容特 征。 与以前的决策类人工智能相比,以大模型为代表的生成式人工智能的技术特征有明显差异。大模型是模拟人类 的思维活动方式生成人类可以理解和使用的内容,而训练数据也是基于世界知识,对语料库等知识性内容有强烈需 求,因此大模型训练阶段不依赖个人信息等原始数据。
此外,为保证生成内容与人类价值观对齐,业界往往利用强 化学习,通过纳入人工标注等机制优化表达,使模型生成内容更接近于人类认知。因此大模型对于用户数据并不依 赖,而对专业化、高质量语料的知识性内容依赖大。由此看出,随着技术的演进,对训练数据的需求类型也有所不 同。 然而,有很多人对此仍存在误解。