【花师小哲】鉴定网络热门（？）AI（14）——合成数据

作者：花师小哲-中二发布时间：2023-08-07

人工智能有三架马车：数据、算法、算力。或许很多文章或资料都告诉你“现在的模型之所以一般都只能是千万亿参数是因为硬件极限基本就在这里了”，但数据极限其实也快到了。本文我们就来简单聊聊合成数据（这里说的合成数据不一定是AI模型生成的，也可以是一些其他算法合成的，主要是与真实数据区分）。

可以搭配这一篇食用：

【花师小哲】当代炼金术（神经网络）前沿（39）——人工人工智能？GPT-4背刺GPT-5?

1.需要合成数据，且不得不用合成数据

其实到现在为止，互联网上能够爬的到的高质量数据已经快被用完了。虽然OpenAI已经声称GPT-4是通用人工智能（AGI）的曙光了，但下一步该怎么走依然是严重的问题，数据就是一个限制因素了。

那么，有没有另一种可能得数据来源呢？还是有的，那就是合成数据。虽然高质量自然语言的合成存在很多问题，但合成数据在人工智能领域的应用其实并不少了。例如我想训练无人驾驶，但是数据不足，怎么办呢？一个办法就是用3D引擎来生成图片。现在很多3D引擎已经能建模得比较真实了，我们就用这个引擎生成路上行驶可能会遇到的各种各样的情况。

当然，用模型生成的数据也可以看做是生成数据的来源，不过目前数据质量自动化保证还有一定的困难。不管怎么说，用合成数据都是以后不得不考虑的一个选项了。

另一方面，现在使用合成数据已经是不可避免的了。原因很简单，因为AIGC的发展，现在的互联网上早就充满了各种各样AI生成的内容了，而现在又没有准确率特别高的算法区分人工生成的内容和AI生成的内容，往后再爬取新的数据的时候就不可避免的会混入大量的合成数据。

那么，问题就很多了。例如合成数据有没有应用，以及可能带来的危害。

2.合成数据的应用

实际上，合成数据已经被用到很多地方了，特别是来自ChatGPT或GPT-4（后续就统称GPT了）生成的数据已经用来训练很多模型了，例如用GPT生成“教科书级别”的代码数据用以训练模型；用GPT生成儿童故事数据集来训练尽可能小但仍然能流畅输出英文的模型等等。（之前举例的）

另一个很可能的应用就是用代码数据来增强现有语言模型。毕竟代码的一个好处是（至少是不分）可以验证正误，也更容易（相较于自然语言）判断质量。不过这种用人工语言反向强化元语言的操作估计也存在很多问题。

3.合成数据面临的问题

一个基本的问题是，合成数据与真实数据的分布是不同的，或者说合成域域真实域存在区别。这个其实很好理解，你像ChatGPT因为做了人类价值观的对齐，生成的文本往往毒性比较低，但是真实数据必然是充斥着大量的有毒文本的；又比如人们在用AI生成图片的过程中一般会挑选质量高的东西（没错，某种程度上来说，数据本身就是通过人的主观采样过的，并不是完全随机的，这也是数据合成面临的一个问题）；《Evidence of Meaning in Language Models Trained on Programs》这篇论文也说明AI生成的数据域训练集在统计指标上并不相同，AI生成的程序往往更短更精炼，偏好也与训练集不相同（这是好事，说明AI真的知道这类问题该怎么做了）。

但是，合成域与真实域不相同并不总是好事。这一点会带来一连串的连带效应：

（1）数据合成困难。已经有研究表明这种分布的区别会导致在合成数据上训练必然会引入一个影响在真实域上表现的误差，这个误差是无法通过增大合成数据量来解决的。所以很多生成合成数据的算法都在想办法减少这两个域的差别（例如Meta Sim）

（2）不能世代传递。既然能用合成数据训练，那么就有人产生一种想法：我用真实数据训练模型1，然后用模型1的生成数据训练模型2，那么我不就可以无限训练下去而不再需要真实数据了？可惜，真相是残酷的。

在NLP（自然语言处理）领域，有人这样做了，结果就是模型崩溃；在CV（计算机视觉）领域，有人这样做了，结果没过几代，生成人脸上就会多很多奇怪的纹理，生成的数据样式也越来越少，作者称这些模型MAD（虽然这个MAD是术语“自噬障碍模型”的缩写）了

一个很重要的原因是，生成数据的多样性往往会降低，即使我们能够保持数据质量（实际上也很难保持，也许是另一种意义上的熵增），多样性基本上是没辙的。这也说明了，真实数据永远是必要的，是无法抛弃的（上面MAD的研究也表明只要真实数据足够，MAD就不会发生）。

所以，AI生成的数据不仅引起其他一些领域的朋友的不满，对于搞AI的人来说，也算不上是好消息。

这里插一段，现在搞AI的人大多数肯定不会像我这样依然坚持认为“研究AI的最终目的是理解我们人的智能”，毕竟AI的几次低谷已经表明AI是不能单纯搞“玩具”的，搞“玩具”是没有经费的，必须要落地才有经费，而AIGC算是现在AI发展的救命稻草之一了，虽然也是一个潘多拉黑盒吧。哎，悲伤且有争议的话题，就不展开了，就单纯抱怨下。

而现在的情况是，网络上是充满了AIGC内容的，有些质量还不高（特别是用GPT机器人到处回答问题的）。只能说，合成数据的使用还是存在很多问题的，不过也是不得不搞的东西。

相关资讯

【花师小哲】鉴定网络热门（？）AI（14）——合成数据

推荐体验

相关资讯

【花师小哲】鉴定网络热门（？）AI（6）——Prompt

【花师小哲】鉴定网络热门（？）AI（2）——ChatGPT篇（2）

【花师小哲】鉴定网络热门（？）AI（13）——从旧网络到新网络

【花师小哲】鉴定网络热门（？）AI（17）——GPT-4V

【花师小哲】鉴定网络热门（？）AI（4）——多模态大模型

近期资讯

商品页面显示英特尔 Ultra 5 230F 处理器为 12 线程设计

火山引擎AI全家桶：推动软件开发智能化生态前行

14000MB/s！致态TiPro9000系列固态硬盘开售：1TB仅需999元

无锡亚州自动化取得一种吹风移动机构专利，能有效提高对车辆吹干效率

撼讯显卡宣布升级 3 年保修

云南磷化取得一种轮档止滑器专利，能稳定起到止滑作用

多家主机厂加码具身智能研究，2030年有望达到百亿美元市场规模 | 投研报告

定期清理缓存的必要性与方法，提升设备运行速度与隐私保护

全面拥抱人工智能，政采云“智采大模型”震撼发布

拆手机全攻略：从准备工具到重装的详细步骤与注意事项

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响