近日,《华尔街日报》和《纽约时报》相继报道了AI公司在收集高质量训练数据方面所面临的挑战及应对策略。其中,《纽约时报》深入探讨了AI公司如何处理数据收集的难题,尤其关注了涉及AI版权法的模糊灰色地带。
据报道,为了克服数据收集的困难,领先的AI公司OpenAI开发了一种名为Whisper的音频转录模型。该模型被用于转录超过100万小时的YouTube视频,以便训练其最新的大型语言模型GPT-4。这一策略显示了OpenAI对训练数据的迫切需求,以及其在数据收集方面的创新思维。
然而,这种数据收集方式在法律上存在一定的争议。尽管OpenAI认为其对YouTube视频的转录行为属于合理使用,但这一做法已经引起了版权法的关注。YouTube首席执行官Neal Mohan在近日的一次采访中表示,尽管没有直接证据显示OpenAI使用了YouTube视频来训练其文本生成视频的AI模型Sora,但他警告说,此类行为违反了YouTube的平台服务条款。
据了解,OpenAI的数据收集策略并不仅限于YouTube视频。该公司还从Github的计算机代码、国际象棋走棋数据库以及Quizlet的作业内容中获取数据。OpenAI发言人Lindsay Held在一封电子邮件中透露,公司为其每个模型都策划了独特的数据集,以保持其全球研究竞争力。同时,该公司也正在考虑生成自己的合成数据。
此外,谷歌和Meta等科技巨头也在数据收集方面面临着类似的挑战。谷歌发言人Matt Bryant指出,谷歌的服务条款禁止未经授权的抓取或下载YouTube内容。而Meta的AI团队则在努力追赶OpenAI的过程中,讨论了未经许可使用版权作品的可能性,甚至考虑支付图书许可费用或收购大型出版商来获取更多数据。