日前,纽约时报的一篇报道称,人工智能公司 OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也就是将 YouTube 视频中的音频内容转录文字,然后再拿去训练 GPT-4。这个项目得到OpenAI 总裁 Greg Brockman的支持,甚至于Greg Brockman还亲自参与了视频的收集工作。
虽然OpenAI 认为这是对数据的合理利用,但谷歌显然并不这么认为,并公开称:谷歌会采取技术和法律措施来防止此类未经授权的使用。
在人工智能领域,数据是构建智能模型的基石。没有高质量的数据,AI的发展就会受到严重限制。怎么合法获取高质量数据?可能有望在OpenAI和谷歌的纷争中给业界指明一条更为明确的道路。
AI公司为了提升模型的性能,往往需要大量的数据作为训练材料。然而,这些数据往往受到版权法的保护,未经授权的使用可能会触犯法律。这不仅对AI公司构成挑战,也对内容创作者的权利保护提出了问题。
目前OpenAI的训练数据获取大多是来自以下几方面:
一是互联网内容。OpenAI从互联网上抓取大量的网页内容,包括文本、图片、视频等多种形式的数据。这些数据不仅用于训练自然语言处理模型,如GPT系列,还可能用于图像识别、多模态模型等其他类型的AI模型。
二是图书资料。OpenAI还利用大量的图书资料作为训练数据。这些书籍内容涵盖了各种领域和主题,有助于模型更好地理解长篇、结构化和正式英语。
三是学术论文。为了提升模型在科学和技术领域的理解能力,OpenAI还收集了大量的学术论文作为训练数据。
四是社交媒体数据。随着社交媒体的发展,OpenAI也开始与各大社交媒体合作,探索利用社交媒体上的公共信息来训练模型。这些数据包括用户发布的文本、图片、视频等,有助于模型更好地理解人类的语言和行为。
五是特定领域数据。针对特定任务或领域,OpenAI还可能收集特定领域的数据进行训练。例如,对于医疗领域的模型,可能需要收集医学文献、病例报告等数据;对于金融领域的模型,可能需要收集市场数据、财务报告等。
这些内容不仅OpenAI在用,其他无数AI公司也在用这些内容进行人工智能的训练,要保证OpenAI的领先性,就必须为其AI模型加入更加丰富的高质量训练数据。这是OpenAI转录YouTube视频进行训练的关键所在。
2020年初,约翰霍普金斯大学的理论物理学家(现Anthropic首席科学官)Jared Kaplan发布了一篇论文,明确表示训练大语言模型用的数据越多,表现就会越好。自那以后,“规模就是一切”成为了人工智能行业的信条。
研究机构Epoch直白地表示,现在科技公司使用数据的速度已经超过数据生产的速度,这些公司最快会在2026年就耗尽互联网上的高质量数据。
高质量数据已经成为AI公司发展壮大的“石油”,在竞争的压力下,让它们对石油的获取变得更为无所顾忌。对YouTube视频的转录存在法律争议,OpenAI是知道的,但对数据的贪婪还是让他们义无反顾的坚信这是对数据的合理使用。
AI公司要发展,获取训练数据要合法合规。 一方面,可以通过与内容提供商建立合作关系,获取合法授权的数据。另一方面,AI公司也可以考虑自行生成合成数据,以满足训练需求。这不仅能够避免法律风险,还能够确保数据的多样性和质量。
AI的发展不仅仅是技术问题,更是社会问题。AI技术的应用需要在尊重版权、保护隐私的前提下进行。只有这样,AI技术才能够得到健康、可持续的发展。
AI的尽头是内容,但内容的获取必须建立在合法合规的基础之上。AI公司、内容创作者、法律机构等各方需要共同努力,找到平衡技术发展与法律伦理的解决方案,以确保AI技术能够造福人类社会,而不是成为争议的焦点。