鞭牛士报道,8月6日消息,据外电报道,一位 YouTube 创作者正在寻求对 OpenAI 提起集体诉讼,指控该公司在未通知或补偿视频所有者的情况下使用数百万条 YouTube 视频记录来训练其生成式 AI 模型。
在周五向美国加州北区地方法院提起的诉讼中,马萨诸塞州 YouTube 用户戴维·米莱特 (David Millette) 的律师指控 OpenAI 偷偷转录了米莱特和其他创作者的视频,以训练该公司人工智能聊天机器人平台ChatGPT和其他生成式人工智能工具和产品所用的模型。
诉状称,通过收集这些数据,OpenAI 从创作者的作品中获利颇丰,同时违反了版权法和 YouTube 的服务条款,这些条款禁止独立于其服务的应用程序使用视频。
诉状写道:随着OpenAI的人工智能产品通过使用训练数据集变得更加复杂,它们对潜在用户和现有用户的价值也越来越高,这些用户购买订阅以访问OpenAI的人工智能产品。然而,OpenAI 训练数据集中的大部分材料都来自未经同意、未经授权、未经补偿而复制的作品。
米莱特由 Bursor and Fisher 律师事务所代理,寻求陪审团审判,并为所有数据可能被 OpenAI 训练所收集的 YouTube 用户赔偿 500 多万美元。
像 OpenAI 这样的生成式 AI 模型并不具备真正的智能。通过输入大量示例(例如电影、录音、文章等),模型可以根据模式(包括周围数据的上下文)学习数据出现的可能性。
大多数模型都是基于来自公共网站和网络数据集的数据进行训练的。
公司辩称,合理使用可以保护他们不加区别地抓取数据并将其用于训练商业模型的行为。然而,许多版权持有者不同意这一观点——他们正在提起 诉讼 ,旨在阻止这种做法。
可以这么说,随着其他数据来源逐渐枯竭,视频转录已成为训练数据的关键要素。
根据 Originality.AI 的数据,目前全球前 1000 个网站中超过 35% 的网站屏蔽了 OpenAI 的网络爬虫。
麻省理工学院数据来源计划的一项研究发现,大约 25% 的高质量来源的数据被禁止用于训练 AI 模型的主要数据集。如果当前的访问阻止趋势继续下去,研究小组 Epoch AI预测,开发人员将在 2026 年至 2032 年之间耗尽用于训练生成式 AI 模型的数据。
今年 4 月,《纽约时报》报道称,OpenAI 创建了其首个语音识别模型Whisper,目的是转录视频中的音频以收集额外的训练数据。
据《纽约时报》报道,包括公司总裁 Greg Brockman 在内的 OpenAI 团队使用 Whisper 转录了 YouTube 上超过一百万小时的视频,并使用这些转录本训练 OpenAI 的文本生成和分析模型GPT-4。
据《纽约时报》报道,一些 OpenAI 员工讨论了此举可能违反 YouTube 的规则。
7 月,Proof News 报道称 ,包括 Anthropic、苹果、Salesforce 和 Nvidia 在内的公司使用了一个名为 The Pile 的数据集来训练生成式 AI 模型,该数据集包含来自数十万个 YouTube 视频的字幕。许多字幕被卷入 The Pile 的 YouTube 创作者对此并不知情,也没有同意;苹果后来发表声明称,它不打算使用这些模型来支持其产品中的任何 AI 功能。
YouTube 的母公司谷歌也试图使用成绩单来训练其模型。
去年, 谷歌扩大了服务条款 (ToS),部分原因是为了允许该公司利用更多用户数据进行生成式 AI 模型训练。根据旧版服务条款,谷歌是否可以使用 YouTube 数据来开发视频平台以外的产品尚不明确。新版服务条款则并非如此,新版服务条款大大放松了限制。
对于 OpenAI 来说,这个月的开始可谓艰难。
特斯拉和特斯拉 X 首席执行官埃隆·马斯克周一对 OpenAI和首席执行官萨姆·奥特曼提起了新的诉讼,指控该公司放弃了其最初的非营利使命,将一些最先进的技术留给了商业客户。
马斯克在 2 月份对 OpenAI 的诉讼中提出了同样的指控,但新诉讼指控 OpenAI 也参与了敲诈勒索活动。