人类数据告急，微软OpenAI开始用AI喂AI，奥特曼放话：未来所有数据都将变成合成数据

作者：量子位发布时间：2023-08-14

微软 OpenAI 阿尔特曼

人类数据缺缺缺，AI被迫开始吃AI生产的数据了！

这是微软、OpenAI等一众AI前沿公司面临的现状。

他们从维基百科、电子书、新闻网站、博客、推特和Reddit等平台和论坛中搜罗了大量数据，然后现在……这些数据快被用完了。

BUT，要训练更好的大模型，多少数据都不够。

据《金融时报》介绍，不少公司正把大模型生成的结果、也就是所谓的合成数据（Synthetic data），喂给参数量更小的大模型吃，发现效果还不错。

对于使用合成数据，OpenAI的CEO Sam Altman不仅不介意，还放话“未来所有数据都将变成合成数据”。

估值20亿美元的大模型初创公司Cohere同样在用合成数据。公司CEO、经典大模型Transformer论文作者之一Aidan Gomez甚至认为：

合成数据可能加速通往“超级智能”AI系统的道路。

所以，究竟哪些大模型已经在用合成数据了，这些合成数据又是从何而来？

大AI合成数据，小AI吃

这些所谓的合成数据，本质上是用当前表现较好的大模型生成的数据，经过人工调整后，再喂给稍微小一点的大模型。

例如Cohere公司就尝试使用了两个大模型进行“角色扮演”对话，并将它们生成的结果做成合成数据。

这两个大模型分别扮演“数学老师”和“学生”，正在进行一堂虚拟的数学教学。同时，Cohere安排一个人类员工在旁边监督对话生成。

一旦对话出现错误，人类员工就会插手对文本进行修正。

尽管确实还需要人力，但这比聘请科学、医学和商业方面的专家来撰写文本要便宜得多。

那么，什么样的大模型会用到这些合成数据呢？

微软研究院最近有研究表明，合成数据可以用于训练比GPT-4或PaLM-2稍微小一点的语言模型。

以用GPT-4生成的一个“四岁儿童小说”数据集TinyStories为例，这个数据集被证明虽然只包含4岁小孩能理解的单词，但用于训练一个大模型之后，同样可以生成语法正确、阅读体验流畅的故事：

对于使用合成数据的理由，Cohere的CEO Aidan Gomez认为：

能从网上获取数据当然更好，但网络数据太杂乱了，完全无法满足需求。相比之下，合成数据已经非常多了，即使它还没被广泛传播。

背后产业链已出现

目前，包括Scale AI、Gretel.ai等企业，已经开始给外界提供合成数据服务。

先是Scale AI，旗下就推出了一款合成数据产品Scale Synthetic，用于给企业提供合成数据服务。

而在之前一篇SemiAnalysis爆料GPT-4“大花边”的新闻中，还提到GPT-4的数据集中，有数百万行是来自Scale AI和内部的指令微调数据。

至于合成数据平台Gretel.ai，从官网来看，它已经和谷歌、拳头游戏、汇丰银行等不同企业进行了合作，以生成更多合成的数据提供给其他开发者使用。

Gretel.ai的CEO Ali Golshan认为，合成数据的好处在于，它保留了数据集中所有个人的隐私，同时仍然保持其统计学意义上的完整性（statistical integrity）。

但并非所有人都接受合成数据这种“神奇操作”，目前各方的看法主要分成两波。

一部分赞同使用合成数据。包括Cohere等AI公司在内，有不少搞大模型的企业仍然坚持这一做法，并认为它可能生成更好的AI，甚至从中诞生出“超级智能”。

另一部分则认为，合成数据终将让AI“自食其果”。

例如一篇来自牛津大学、剑桥大学、帝国理工学院、多伦多大学、爱丁堡大学和Vector Institute多家机构的研究表明：

使用合成数据训练，会让模型出现不可逆转的缺陷：
忘记那些“不可能发生的事件”，最终被自己生成的数据毒害。

有网友认为，这些合成数据最后会变成一滩“无法使用的污泥”——然后人们不得不被迫雇佣数据科学家来对它进行清洗。

还有网友调侃，这听起来就像是“AI近亲繁殖”一样。

你认为AI需要使用合成数据吗？

参考链接：

[1]https://www.ft.com/content/053ee253-820e-453a-a1d5-0f24985258de

[2]https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/

[3]https://arxiv.org/pdf/2306.11644.pdf[4]https://arxiv.org/pdf/2305.17493v2.pdf

本文来自微信公众号“量子位”（ID:QbitAI），作者：萧箫，36氪经授权发布。

相关资讯

人类数据告急，OpenAI用AI喂AI，奥特曼：未来所有数据变合成数据

人类数据告急，OpenAI用AI喂AI，奥特曼：未来所有数据变合成数据萧箫发自凹非寺量子位公众号 QbitAI 人类数据缺缺缺，AI被迫开始吃AI生产的数据了！这是微软、O

OpenAI 微软阿尔特曼

量子位 2023-08-13

微软、OpenAI等AI公司采用合成数据应对数据采集挑战

【头部财经】人工智能公司Cohere的首席执行官Aiden Gomez透露，由于Reddit、Twitter等公司收取的数据采集费用过高，许多AI公司，包括微软、OpenAI和Cohere在内，已开始

微软 OpenAI 人工智能

大力财经 2023-07-20

微软、OpenAI用上“数据永动机”，如何用合成数据训练？

随着人工智能的快速发展，数据永动机成为了一个热门话题。微软和OpenAI等公司都在这一领域进行了大量研究。什么是合成数据。合成数据是通过模拟或生成的方法创建的数据，以替代真实数据。在人工智能领域，

微软 OpenAI 人工智能

洋洋新说 2023-07-24

微软、OpenAI用上“数据永动机” 合成数据是蜜糖还是砒霜？

AI大模型对数据的庞大需求之下，AI公司们正在摸索一条获取数据的“新路”——从零开始自己“造”数据。微软、OpenAI、Cohere等公司已经开始测试使用合成数据来训练AI模型。Cohere首席执行

微软 OpenAI AI大模型

金融界 2023-07-22

微软、OpenAI等公司已使用合成数据来训练AI模型

钛媒体App 7月20日消息，人工智能初创公司Cohere首席执行官AidenGomez表示，由于Reddit、推特等公司的数据采集要价太高，微软、OpenAI和Cohere等公司，已使用合成数据来训

微软 OpenAI 人工智能

钛媒体快报 2023-07-20

近期资讯

借钱不还居然收支付宝京东大额“逾期催收红包”，真的「欠钱的才是大爷」？

钛媒体APP 2024-12-27

当下跨境支付商户和受理的生态体系

人人都是产品经理 2024-12-27

投资人施压，机器人也要打“价格战”

36氪 2024-12-27

奔驰车标供应商宣布破产，德国汽车业深陷寒冬

欧洲汽车供应商合计已宣布裁员5.33万人，小型企业直接面临破产危机

出行一客 2024-12-27

因需求少维护成本高，Curl 放弃实验性 Rust-Hyper 后端支持

IT之家 2024-12-27

消息称英伟达 B300 GPU 经重新流片，算力提升 50%

IT之家 2024-12-27

消息称比亚迪成立未来实验室研发具身智能：包含机器人

IT之家 2024-12-27

周意保：OPPO Find 系列的节奏将会稳定下来

IT之家 2024-12-27

郭广昌看不上的甘肃“酒王”，左手增持右手减持

豫园股份要为减持兜底

征探财经 2024-12-27

用户体验的体现与思维框架

人人都是产品经理 2024-12-27

人类数据告急，微软OpenAI开始用AI喂AI，奥特曼放话：未来所有数据都将变成合成数据

大AI合成数据，小AI吃

背后产业链已出现

推荐体验

相关资讯

人类数据告急，OpenAI用AI喂AI，奥特曼：未来所有数据变合成数据

微软、OpenAI等AI公司采用合成数据应对数据采集挑战

微软、OpenAI用上“数据永动机”，如何用合成数据训练？

微软、OpenAI用上“数据永动机” 合成数据是蜜糖还是砒霜？

微软、OpenAI等公司已使用合成数据来训练AI模型

近期资讯

借钱不还居然收支付宝京东大额“逾期催收红包”，真的「欠钱的才是大爷」？

当下跨境支付商户和受理的生态体系

投资人施压，机器人也要打“价格战”

奔驰车标供应商宣布破产，德国汽车业深陷寒冬

因需求少维护成本高，Curl 放弃实验性 Rust-Hyper 后端支持

消息称英伟达 B300 GPU 经重新流片，算力提升 50%

消息称比亚迪成立未来实验室研发具身智能：包含机器人

周意保：OPPO Find 系列的节奏将会稳定下来

郭广昌看不上的甘肃“酒王”，左手增持右手减持

用户体验的体现与思维框架

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响