鞭牛士报道,4月7日消息,据The Verge报道,本周早些时候,《华尔街日报》报道称,人工智能公司在收集高质量训练数据方面遇到了困难。
今天,《纽约时报》详细介绍了一些公司处理此问题的一些方法。毫不奇怪,它涉及到属于人工智能版权法模糊灰色区域的事情。
故事从 OpenAI 开始,该公司迫切需要训练数据,据报道开发了Whisper 音频转录模型来克服困难,转录了超过 100 万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。
据《纽约时报》报道,该公司知道这在法律上存在问题,但相信这是合理使用。 OpenAI 总裁格雷格·布罗克曼 (Greg Brockman) 亲自参与了所使用视频的收集。
OpenAI 发言人 Lindsay Held 在一封电子邮件中告诉The Verge,该公司为其每个模型策划了独特的数据集,以帮助他们了解世界并保持其全球研究竞争力。
赫尔德补充说,该公司使用众多来源,包括公开数据和非公开数据的合作伙伴,并且正在考虑生成自己的合成数据。
《纽约时报》的文章称,该公司在 2021 年耗尽了有用的数据供应,并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物。那时,它已经用数据训练了模型,这些数据包括来自 Github 的计算机代码、国际象棋走棋数据库和来自 Quizlet 的作业内容。
谷歌发言人 Matt Bryant 在一封电子邮件中告诉The Verge,该公司看到了有关 OpenAI 活动的未经证实的报告,并补充说「我们的 robots.txt 文件和服务条款都禁止未经授权的抓取或下载 YouTube 内容」,这与该公司的条款相呼应。
YouTube 首席执行官尼尔·莫汉 (Neal Mohan)本周就 OpenAI 使用 YouTube 训练其 Sora 视频生成模型的可能性发表了类似的言论。
布莱恩特表示,当我们有明确的法律或技术依据时,谷歌会采取技术和法律措施来防止此类未经授权的使用。
据《纽约时报》消息人士透露,谷歌还从 YouTube 收集了文字记录。布莱恩特表示,该公司根据我们与 YouTube 创作者的协议,在一些 YouTube 内容上训练了模型。
《纽约时报》写道,谷歌的法律部门要求该公司的隐私团队调整其政策语言,以扩大其对消费者数据的处理范围,例如谷歌文档等办公工具。
据报道,新政策是在 7 月 1 日特意发布的,目的是利用独立日假期周末的分散注意力。
Meta 同样也遇到了良好训练数据可用性的限制,在《纽约时报》听到的录音中,其 AI 团队讨论了在努力追赶 OpenAI 的过程中未经许可使用版权作品的情况。
该公司在浏览了互联网上几乎可用的英语书籍、散文、诗歌和新闻文章后,显然考虑采取一些措施,例如支付图书许可费用,甚至直接收购一家大型出版商。
在剑桥分析丑闻发生后,该公司做出了以隐私为中心的变革,因此它使用消费者数据的方式显然也受到了限制。
谷歌、OpenAI 和更广泛的人工智能训练界正在努力应对模型训练数据快速蒸发的问题,吸收的数据越多,模型就会变得越好。
《华尔街日报》本周撰文称,到 2028 年,公司可能会超越新内容。
《华尔街日报》周一提到的这个问题的可能解决方案包括对模型创建的“合成”数据进行训练,或者所谓的课程学习,其中包括以有序的方式向模型提供高质量的数据,希望它们能够使用更少的信息来建立概念之间更智能的联系,但这两种方法都尚未得到证实。
但这些公司的另一个选择是使用他们能找到的任何东西,无论他们是否获得许可,并且基于去年左右提起的多起 诉讼 ,可以说,这种方式有点令人担忧。