合成数据会是训练AI大模型的永动机么？

作者：PlugAndPlay发布时间：2024-01-15

越来越多的AI从业者认为，AI智能超越人类智能，大概率只是时间问题。现如今更大参数的模型，对算力需求巨大的同时，对数据也提出了更高的要求。千亿级大模型正迅速耗尽世界的高质量数据。因此利用AI合成数据，再投入到模型训练中，或许可以解决真实世界数据有限且昂贵的问题。

对于使用合成数据，OpenAI的CEO Sam Altman不仅不介意，还放话“未来所有数据都将变成合成数据”。璞跃中国移动出行团队将针对合成数据（synthetic data）的创新应用趋势，与大家共同讨论AI合成数据未来的发展方向。

以下为本文目录，建议结合要点进行针对性阅读。

本篇行研将分为5个部分阐述：

👇

01 行业概述及发展驱动力

02 技术背景与核心技术难点

03 市场规模及核心部件现状

04 产业链及核心玩家分析

05 璞跃中国核心观点

01.

行业概述及发展驱动力

1.1 宏观演进趋势由决策式AI到生成式AI再到通用型AI

人工智能从出现到现在已经历两个阶段，并正在往第三个阶段过渡：

第一个阶段的决策式AI是以逻辑推理为主，聚焦决策和认知；注重以概率统计的建模、学习和计算为主，AI能力开始聚焦感知、认知和决策；

第二个阶段的生成式AI聚焦学习环节，注重大模型的建设，AI能力覆盖学习和执行，从大量数据中学习并生成新的数据或内容的人工智能系统；聚焦执行与社会协作环节，开始注重人机交互协作，注重人类对人工智能的反馈训练，当下正处于此阶段。

最终发展阶段是通用型AI，即通用人工智能（AGI）或强人工智能（Strong AI），具备与人类同等智能、或超越人类的人工智能，可以像人类一样进行感知、推理、学习、决策、规划等多种任务，能够在不同的领域和情境中灵活地应对和适应。

1.2 当前生成式 AI 进入行业落地阶段

生成式 AI的本质是内容与场景，其发展需要AI与后端基建、算法、算据和算力三要素共同配合。

生成式 AI的三大发展阶段是：

模型赋智阶段（从现实生成数字）：利用AI技术构建模拟现实世界的数字孪生模型；

认知交互阶段（从数字生成数字）：AI能够学习并创作更丰富的内容；

空间赋能阶段（从数字生成现实）：基于物联网，多模态技术获取多维信息，实现更加智能的人与机器互动。

1.3 生成式AI及通用型AI下对合成数据需求强烈

合成数据或将弥补未来数据的不足。合成数据是计算机模拟或算法生成的带有注释的信息，可以替代真实数据。它可以用于模拟实际情况，补充真实数据的不足，提高数据质量和数量，以及降低数据采集和处理的成本。OpenAI 在 GPT-4 的技术文档中重点提到了合成数据的应用，可见其对该领域的重视。

根据 Gartner 的预测，2024 年用于训练大模型的数据中有60%将是合成数据，到 2030 年大模型使用的绝大部分数据将由人工智能合成。

潜在落地行业：合成数据有望首先在汽车、工业、金融、医疗和等诸多领域落地。

02.

技术背景与核心技术难点

2.1 什么是合成数据

合成数据（synthetic data）是通过计算机技术人工生成的数据，而不是由真实事件产生的数据。但合成数据具备“可用性”，能够在数学上或统计学上反映原始数据的属性，因此可以作为原始数据的替代品来训练、测试并验证大模型。

相较于真实数据，利用合成数据可以更廉价、更高效、更准确、更安全可靠地训练AI模型，进而极大扩展AI的应用可能性，将人工智能推向新的发展阶段。

2.2 合成数据背后的技术原理

生成合成数据有多种，一般生成的数据集很复杂，通常首选生成模型。生成模型是基于神经网络的，它可以自动从现实数据中找到的模式中学习，并产生与现实数据精确匹配的信息。

生成模型包含：生成对抗网络（GAN）、变分自编码器（VAE）、Transformer模型、扩散模型（Diffusion Model）、神经辐射场模型（NeRF）等，不同的生成模型不仅使合成数据的种类扩展，而且使其质量也得到了提升。

合成数据核心为多模态技术融合、跨模态场景合成，但当前仍面临许多挑战。以3D场景自动生成领域为例，面临的挑战包含：数据匮乏且无好表示方法、技术选型对齐困难、生成复杂度上升、知识迁移困难、大算力依赖、缺少“模型训练→产品应用→用户反馈→改进模型训练”的正循环等问题。多模态AI的技术挑战真实存在，但有挑战就意味着有机会；

通过技术突破、技术创新在多模态AI领域大步前进，目前是最好的时机。

03.

应用场景及市场规模

3.1 合成数据市场规模

市场规模方面，根据Cognilytica按照 Grand View Research的数据，合成数据市场规模在2021年大概是1.1亿美元，预计AI训练数据市场规模到2030年将超过1000亿美元。

合成数据的应用场景包括医疗保健与生命科学、商业及金融服务、交通运输与物流、制造业、IT与电信、零售与电子商务、消费电子等方方面面，可以预见合成数据作为数据要素市场的新增量，在创造巨大商业价值的同时，也有望解决人工智能和数字经济的数据供给问题。

3.2 合成数据应用场景多元

应用场景1：智能汽车赛道（舱内外交互&自动驾驶&场景仿真）

CV 大模型助力数据标注、场景仿真与重现和纯视觉感知等；NLP 大模型实现人车的更友好交互，推动座舱智能化进程；多模态 AI 大模型为城市场景辅助驾驶乃至高等级自动驾驶的规模量产拉开帷幕，同时也有望用于智能座舱中的人机交互，如融合语音、视觉、手势等多种方式，满足用户在不同场景下的不同使用习惯。

应用场景2：制造业与数字化生产

人工智能在工业流水线上的一个关键用途是识别和计数组件以及检测故障组件。由于装配环境中存在严格的质量要求，出现缺陷产品的情况十分罕见。可以使用AI合成数据创建虚拟场景，生成大量图像以训练工业AI视觉网络的产品计数与缺陷产品检测能力。

应用场景3：商业与金融服务

在银行和投资服务领域，受到GDPR 和隐私问题等法律限制，导致使用真实文档进行 AI 网络训练十分困难。可以使用合成数据填充真实文档模板，创建高质量、多样化训练数据。同时也可通过合成数据模拟损坏、受潮、泛黄文件，扩展边缘数据集。

目前应用领域：金融犯罪和欺诈预防、交易预测、信用评分、销售和交易、合成数据生成和风险因素建模、保险产品定价和索赔管理、资产管理和组合优化等。

应用场景4：医疗健康

医疗影像的合成数据对医疗AI领域的发展产生巨大推动作用。使用案例包含仿真的医疗案例数据训练医疗诊断模型、合成的基因组数据来进行医学研究、合成重大疾病病历数据以开展研究等。

04.

产业链及核心玩家分析

4.1 合成数据产业链结构

合成数据产业链与生成式 AI 大模型的产业链类似，均可以分成算力模型基本层、算法模型训练中间层及场景应用层。

大厂适合布局的环节应聚焦高投入、大算力需求、大数据量级、通用能力好的环节，因此适合布局在算力层、平台的基础层模型生产和训练等环节。其中，对模型进行行业化改造，提供API或改造后的模型。实际上这一功能由产业链上一环节的基础模型研发或者下一环节的应用软件层承担，尚未看到仅从事这一环节的公司，因此在模型优化与改进上仍有机会。

初创企业适合入局的环节应聚焦在投入少、算力需求不高、中低数据量级、垂直/专业场景等环节，适合布局在中间层、应用层和平台层的数据平台环节。其中，应用软件与场景重建层更强调产品运营和商业落地能力，类似SaaS公司。这一环节在国内外已经涌现一部分初创公司，其价值在于提升专业用户生产力，商业模式将主要来自于订阅制或项目制收费。

4.2 合成数据核心玩家mapping

目前全球合成数据创业企业已达100家，比较知名、有影响力的包括AI.Reverie、Datagen、Sky engine、Mostly.ai、Synthesis AI、Gretel.ai、One view、Innodata、Cvedia等。

合成数据的创业赛道主要涵盖非结构化数据（图片、视频、语音等）、结构化数据（表格等）、测试数据（test data）、开源服务等几大方向。

非结构化合成数据持续保持强劲发展势头，原因在于计算机视觉应用场景相对成熟；并且有游戏引擎、图像建模软件、AIGC技术的支撑；自动驾驶汽车、零售、电子游戏等快速发展的产业对合成数据有较高需求。目前结构化数据合成和测试数据合成正在迅猛发展，尤其是合成的测试数据更少受到数据隐私立法的限制，所以开始得到业界青睐。此外，合成数据开源服务也在快速发展，例如Synthetic data vault、Synner、Synthea、Synthetig等。

05.

璞跃中国核心观点

璞跃中国移动出行团队认为，由于当前数据瓶颈的问题，数据增强、迁移学习、数据合成、数据要素等市场，具有实现数据共享、数据反哺加速商业化飞轮的效应。同时，合成数据的技术突破、国家对生成式 AI的政策支持、巨头推动、生态建设、市场化教育均能够推动商业价值闭环。

璞跃中国移动出行团队建议关注：

具备落地AI提供自动化、物理精确可控、真实、可泛化的合成数据解决方案的初创企业。

深耕垂直行业，围绕大客户案例，辐射所在行业做深场景的初创团队。在和行业保持深度绑定关系的同时，能够有相关信任进入接口，成为未来生成式 AI 整体内容平台下的特定应用工具，形成业务闭环。

拥有多模态数据合成的能力，形成模型训练→产品应用→用户反馈→改进模型训练的正循环的初创团队。

发送【移动出行玩家】

加入移动出行行业交流群

与更多志同道合的伙伴们共话移动出行

点击图片，了解更多

关于 Plug and Play China 璞跃中国

璞跃(Plug and Play)是全球历史最悠久和区域及行业覆盖最广的科技孵化器之一，也是全球知名的科技创新生态平台。璞跃发源于硅谷，在全球布局了50多座创新中心，拥有20余年的科创投资、产业科技服务、科技孵化经验，公司曾成功早期孵化了Google，投资了PayPal、Dropbox等多家科技巨头公司，在全球每年投资超过200家科技公司。璞跃致力于在全球寻找、孵化、加速、投资、推广早期硬科技公司和项目，同时在全球与戴姆勒、松下、西门子、中外运、东风等500余家行业龙头企业开展基于其创新需求和文化生态的开放式创新合作和实践。

2016年，随着璞跃全球业务的拓展，璞跃中国(Plug and Play China)正式成立，在北京、上海、深圳、武汉等城市设立区域创新中心。当前，璞跃中国构建了国内领军的一站式科技投资、创新服务和孵化对接平台，开展早期科技投资、创新服务(企业创新、城市创新、国际合作)、孵化创新空间三类创新业务。

璞跃中国构筑的创新平台，联接多维度的创新伙伴，催化创新生态效应发生。目前平台上活跃着超过160余家大企业，14000余家创业公司，100余位创新专家导师，60多家驻华使馆和海外机构，众多投资机构、海内外高校及科研院所等科创活跃力量。

迄今璞跃中国已成功投资了包括ApplyBoard、AutoX、非夕科技等逾百家中国硬科技企业，年均孵化加速1000余家初创公司，累计促进创新技术的转化和应用的PoC案例近500项。

了解更多信息请访问 www.pnpchina.com