LLaMA都在用的开源数据集下架：含19万本书，对标OpenAI数据集

作者：量子位发布时间：2023-08-21

LLaMA OpenAI

LLaMA都在用的开源数据集下架：含19万本书，对标OpenAI数据集

明敏发自凹非寺

量子位 | 公众号 QbitAI

开源数据集因侵权问题，惨遭下架。

如LLaMA、GPT-J等，都用它训练过。

如今，托管了它3年的网站，一夜之间删除了所有相关内容。

这就是Books3，一个由将近20万本图书组成的数据集，大小将近37GB。

丹麦一家反盗版组织表示，在该数据集中发现了150本其成员的书籍，构成侵权，所以要求平台下架。

现在该平台上的Books3网页链接已经“404”。

数据集的最初开发者无奈表示，Books3的下架是开源圈的一场悲剧。

Books3是什么？

Books3在2020年发布，由AI开发者Shawn Presser上传，被收录在Eleuther AI的开源数据集Pile中。

它总计包含197000本书，包含来自盗版网站Bibliotik的所有书籍，意在对标OpenAI的数据集，但主打开源。

这也是Books3名字的来源之处——

GPT-3发布后，官方披露其训练数据集中15%的内容来自两个名为“Books1”、“Books2”的电子图书语料库，不过具体内容一直没有被透露。

开源的Books3则给更多项目提供了一个和OpenAI竞争的机会。

比如今年爆火的LLaMA、以及Eleuther AI的GPT-J等，都用上了Books3.

要知道，图书数据一直是大模型预训练中核心的语料素材，它能为模型输出高质量长文本提供参考。

很多AI巨头使用的图书数据集都是不开源，甚至是非常神秘的。比如Books1/2，关于其来源、规模的了解，更多都是各界猜测。

由此，开源数据集对于AI圈内相当重要。

为了更方便获取，Books3被放到了The Eye上托管。这是一个可以存档信息、提取公开数据的平台。

而这一次惨遭下架，说的也是这一平台。

丹麦反盗版组织权利联盟向The Eye提出了下架请求，并且通过了。

不过好消息是，Books3并没有完全消失，还是有其他办法获取的。

Wayback Machine上还有备份，或者可以从Torrent客户端下载。

作者老哥在推特上给出了多个方法。

“没有Books3就没法做自己的ChatGPT”

实际上，对于这次下架风波，数据集作者老哥有很多话想说。

他谈到，想要做出像ChatGPT一样的模型，唯一的方法就是创建像Books3这样的数据集。

每一个盈利性质的公司都在秘密做数据集，如果没有Books3，就意味着只有OpenAI等科技巨头才能访问这些图书数据，由此你将无法做出自己的ChatGPT。

在作者看来，ChatGPT就像是90年代的个人网站一样，任何人都能做是很关键的。

不过由于Books3很大一部分数据来自于盗版网站，所以作者也表示，希望之后能有人做出来比Books3更好的数据集，不仅提升数据质量，而且尊重书籍版权。

这种类似的情况在OpenAI也有发生。

一个多月以前，两位全职作者以未经允许擅自将作品用来训练ChatGPT，起诉了OpenAI。

而之所以会发生这种情况，很有可能是OpenAI的数据集Books2从影子图书馆（盗版网站）中获取了大量数据。

所以也有声音调侃说，AI不仅带来了新的技术突破，也给反盗版组织带来了新任务。

参考链接：

[1]https://www.theatlantic.com/technology/archive/2023/08/books3-ai-meta-llama-pirated-books/675063/

[2]https://gizmodo.com/anti-piracy-group-takes-ai-training-dataset-books3-off-1850743763

[3]https://interestingengineering.com/innovation/anti-piracy-group-shuts-down-books3-a-popular-dataset-for-ai-models

[4]https://torrentfreak.com/anti-piracy-group-takes-prominent-ai-training-dataset-books3-offline-230816/

相关资讯

CSDN 2023-02-21

大模型语料数据联盟推“解数Talk”直播，首期解读开源数据集

为帮助广大开发者更好地了解大模型语料数据联盟发布的AI大模型语料数据，沟通大模型企业在AI视角下的数据需求，不断服务大模型产业生态和落地应用，联盟发起单位上海人工智能实验室联合成员单位共同打造“解数Talk”系列直播。

AI大模型人工智能

澎湃新闻 2023-12-13

OpenAI 数据合作伙伴关系，共同创建用于 AI 训练的开源和私有数据集。

We are introducing OpenAI Data Partnerships, where we’ll work together with organizations to produce public and private datasets for training AI models.我们正在介绍 OpenAI 数据合作伙伴关系，我们将与组织合作生产公共和私有数据集，以训练 AI 模型。Modern AI technology learns skills and aspects of o

OpenAI

XXX科技 2023-11-23

近期资讯

谷歌CEO：Gemini将成公司2025年“最大重点”

快科技12月31日消息，谷歌CEO桑达尔·皮查伊（Sundar Pichai）在12月18日举行的2025年战略会议上强调，2025年对谷歌来说将是“至关重要”的一年。皮查伊表示：“Gemini应

2024-12-31

React中的 ref 及原理浅析

对于 ref 的理解，我们一部人还停留在用 ref 获取真实 dom 元素和获取组件层面上，但实际 ref 除了这两项功能之外，在使用上还有很多小技巧。本章我们就一起深入探讨研究一下

袋鼠云数栈UED团队 2024-12-31

像素跳动效果

效果说明本案例实现了一个图片像素跳动的动画效果。将图片分解成像素块，默认进行垂直运动，当鼠标悬浮时切换为水平运动，创造出独特的视觉效果。

好_快 2024-12-31

中国汽车强势崛起：日本车企全球产量连续7个月下滑

快科技12月31日消息，根据外媒报道，包括丰田汽车在内的八家日本乘用车制造商公布的11月产销数据显示，这些车企的全球产量为212.2万辆，同比下降11%，连续七个月出现同比下降。除了铃木汽车外

2024-12-31

2024再见！

时间过得好快啊，我，都已经27岁了，距离35岁“退休“又近了一步。千军万马过独木桥，导致山河四省的小牛马分外的卷，依稀记得高中教室，红底白字的横幅上印着，【未来的你，一定会感谢现在努力的自己】

柏成 2024-12-31

Kotlin Multiplatform 2024 年总结，KMP 崛起的一年

2024 Google I/O 上正式官宣了 KMP（Kotlin Multiplatform）项目，它是 Google Workspace 团队的一项长期「投资」项目，由 JetBrains 开发维

恋猫de小郭 2024-12-31

Electron使用D3可视化磁盘空间（6）

在上一集中，我们创建了一个小应用程序。以一种非常无聊的方式显示您有多少可用磁盘空间。现在是时候给它加点料了！我们根本不会触及后端，只修改前端部分。安装D3 首先，我们需要安装D3。这是前端的HT

关山月 2024-12-31

前端常见的20种设计模式及其应用

1. 单例模式 (Singleton) 目的: 确保一个类只有一个实例，并提供一个全局访问点。应用场景: 全局状态管理、配置管理、缓存管理等。 2. 工厂模式 (Factory) 目的: 将对象的创

小小小小宇 2024-12-31

你今年给小米贡献多少！雷军：我谢谢大家祝我年入百万

快科技12月31日消息，赶在2024年过去的时候，雷军也是感谢了网友。今天雷军发视频称，回顾过去一年实现了很多愿望，也刷到了很多朋友在他视频下的许愿，有说祝他步步高升，明年继续年入百万的

2024-12-31

前端实现pdf、图片、world、excel文件预览，以及对应的文件下载，文件上传，轮播图展示多张图片,鼠标小手指

1. 前端实现图片预览一般来说，图片在后端的存储方式分为两种：其一：可以将图片以独立文件的形式存储在服务器的指定文件夹中，再将路径存入数据库字段中; 其二：将图片转换成二进制流，直接存储到数据库的

看月亮的方源 2024-12-31

LLaMA都在用的开源数据集下架：含19万本书，对标OpenAI数据集

LLaMA都在用的开源数据集下架：含19万本书，对标OpenAI数据集

推荐体验

相关资讯

Together发布首个全面开源社区版ChatGPT（含权重与训练数据集）

深度学习数据集——球类、运动、体育相关数据集

ChatGPT 数据集之谜

大模型语料数据联盟推“解数Talk”直播，首期解读开源数据集

OpenAI 数据合作伙伴关系，共同创建用于 AI 训练的开源和私有数据集。

近期资讯

谷歌CEO：Gemini将成公司2025年“最大重点”

React中的 ref 及原理浅析

像素跳动效果

中国汽车强势崛起：日本车企全球产量连续7个月下滑

2024再见！

Kotlin Multiplatform 2024 年总结，KMP 崛起的一年

Electron使用D3可视化磁盘空间（6）

前端常见的20种设计模式及其应用

你今年给小米贡献多少！雷军：我谢谢大家祝我年入百万

前端实现pdf、图片、world、excel文件预览，以及对应的文件下载，文件上传，轮播图展示多张图片,鼠标小手指

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响