OpenAI突然“销毁”了10万多本书，到底发生了什么？

作者：金融界发布时间：2024-05-08

最新解封的法庭文件显示，OpenAI删除了两个名为“图书1”(books1)和“图书2”(books2)的庞大数据集，这些数据集曾用于训练其GPT-3人工智能(AI)模型。

这些文件来自美国作家协会对OpenAI提起的集体诉讼。美国作家协会的律师在法庭文件中表示，这些数据集很可能包含“10万多本已出版书籍”，是该协会指控OpenAI使用受版权保护的材料来训练AI模型的关键。

几个月来，美国作家协会一直寻求从OpenAI获得有关这些数据集的信息。法律文件显示，OpenAI最初以保密为由拒绝提供这些数据集的下落，但最终披露已删除所有数据副本。

高质量的训练数据是强大AI模型的重要组成部分。目前，这些AI模型正在席卷科技界。OpenAI和其他公司使用互联网数据来建立这些模型，其中包括许多书籍。许多创造这些数据的公司认为，他们为新的AI产品提供了训练数据，需要获得报酬。但是，科技公司不想被迫付费。这一争执已经引发了多起官司。

500亿个单词

OpenAI曾在2020年发布过一份白皮书，将图书1和图书2数据集描述为“基于互联网的图书语料库”，并表示它们占据创建GPT-3训练数据的16%。白皮书还表示，图书1和图书2总共包含670亿个数据词元(token)，大致相当于500亿个单词。作为比较，《钦定圣经》有783,137个单词。

最新解封的法庭文件是OpenAI律师的信函，它被标记为“高度机密-仅限律师查看”。信中说，OpenAI已在2021年底停止使用图书1和图书2进行模型训练。由于这些数据集不再使用，它们在2022年年中被删除。信中还说，用于训练GPT-3的其他数据都没有被删除，并允许美国作家协会的律师访问其他数据集。

该文件还显示，创建图书1和图书2的两名研究人员已不再受雇于OpenAI。OpenAI最初拒绝透露这两名员工的身份，随后向美国作家协会的律师确认了这些员工的身份，但没有公开披露他们的姓名。OpenAI已经请求法院对这两名员工的姓名以及有关数据集的信息保密。美国作家协会对此表示反对，认为公众有知情权。目前，争议仍在继续。

OpenAI周二在一份声明中表示：“驱动当前ChatGPT和应用程序接口的模型不是使用这些数据集开发的。这些数据集是由OpenAI前员工创建的，最后一次使用是在2021年，并在2022年因未使用而被删除。”

来源：凤凰网科技

OpenAI突然“销毁”了10万多本书，到底发生了什么？

推荐体验

相关资讯

OpenAI和 SamAltman到底发生了什么？

使用openai库进行流式输出时，到底发生了什么

董事会火并，创始人被开，OpenAI到底发生了什么？

OpenAI宫斗连续剧，100小时内到底发生了什么？

华人高管频频离职，OpenAI发生了什么

近期资讯

掌握电脑分屏技巧，提升工作与娱乐效率的实用指南

1.0到2.0 看长虹模具中心传统制造到智能制造的“重生”之路

一加Ace 5系列评测：双枪齐发！游戏党的战斗利器

鼎阳科技：公开发布三个新产品

机械革命 CES 2025 笔记本电脑新品预热：A 面外壳采用特殊工艺

美的MR-190E：859元到手的181升双门节能冰箱，性价比之选

年轻人的电竞新机登场！荣耀GT全面评测：颜值在线性价无敌

蓝漂广告登陆CCTV，品牌影响力再上新阶

中科创达RUBIK AI Glass Lite版已获超3个品牌客户的选型合作预计2025年第一季度实现量产并上市

Switch 2真机现身？网友疑造假

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响