Tumblr正与OpenAI和Midjourney就训练数据达成协议

作者：鞭牛士发布时间：2024-02-28

鞭牛士报道，2月28日消息，据The Verge报道称，Tumblr和 WordPress.com 的所有者Automattic正在与人工智能公司 Midjourney 和 OpenAI 进行谈判，以提供从用户帖子中抓取的训练数据。

这份来自公司内部匿名消息人士的报告称，Automattic 与两家人工智能公司之间的交易迫在眉睫。过去一周，Tumblr 上流传着一些模糊的谣言，暗示与 Midjourney 的交易可能会为该网站带来新的收入来源。

根据报道，Automattic 计划在周三推出一项新设置，允许用户选择不与包括人工智能公司在内的第三方共享数据。但它引用的内部帖子表明，该公司抓取了一份初始数据转储，其中包含「2014 年至 2023 年间 Tumblr 的所有公开帖子内容」，其中包括（显然是错误的）不会在博客上公开可见的内容。目前尚不清楚这些数据做了什么，以及哪些数据（如果有）已发送到 Midjourney 和 OpenAI。

OpenAI 和 Midjourney 没有立即回应The Verge的置评请求。

Automattic 向介绍了周二的一份公开声明。这篇题为「保护用户选择」的帖子暗示了与未具名的人工智能公司的合作关系。

「我们目前默认阻止主要的人工智能平台爬虫——包括来自最大科技公司的爬虫——并在新爬虫推出时更新我们的列表。」它说，并且将只分享托管在 WordPress.com 和 Tumblr 上的公共内容尚未选择退出的网站。它还指出，「我们还直接与选定的人工智能公司合作，只要他们的计划符合我们社区关心的问题：归因、选择退出和控制。」

许多公司已与人工智能工具制造商达成协议，提供培训数据——这些数据历来都是从公开的在线数据中获取的，近年来，这一过程的法律风险变得越来越大。

据报道，Reddit与 Google签订了每年 6000 万美元的协议，而 Shutterstock 则与 OpenAI 签署了一项协议，以对其照片库进行培训。

但一些艺术家和作家——换句话说，Tumblr 特别迎合的创意社区——抗议他们的作品被用于培训。公司一直在努力平衡满足用户和尝试新的人工智能工具之间的界限，导致像 DeviantArt这样与该技术打交道的在线空间遭到强烈反对。

目前，关于任何交易将涉及什么，以及 Automattic 将从中获得多少收益，还没有太多信息。该公司拥有长期的网络托管业务 WordPress.com 和 WordPress VIP，两者均基于开源 WordPress 软件构建。但该公司在 2019 年从 Verizon 手中收购的Tumblr 货币化方面遇到了各种困难，并于去年宣布将缩减对该网站的雄心。