在大模型竞赛中,数据短缺危机正越来越严峻。
最近《纽约时报》的一项调查显示,为了获得大量且高质量的训练数据,包括OpenAI、Google和Meta在内的科技公司纷纷走捷径,忽视平台政策,在违法边缘疯狂试探。
其中OpenAI通过语音转录工具Whisper,收集了超100万小时的YouTube视频文本,作为GPT-4的训练数据。
《纽约时报》报道封面
AI公司正疯狂从互联网上获取各类数据以训练AI大模型,但这是否合法、符合平台政策呢?
一场围绕数据资源的权益争夺战已在创作者、内容平台和AI公司之间展开。
据《纽约时报》报道,OpenAI多年来一直在收集数据、清理数据,并将其输入到一个庞大的文本池中,以训练大型语言模型。
这些数据包括来自Github的计算机代码、国际象棋数据库、来自Quizlet的高中考试题和作业内容等。
到了2021年底,OpenAI已经耗尽了互联网上所有可靠的英文文本资源,急需更多数据来训练下一代模型GPT-4。
为此,OpenAI内部商量了几个方案:转录播客、有声读物和YouTube视频;用AI系统从头开始创建数据;收购已经收集了大量数字数据的初创公司。
OpenAI的研究团队后来创建了一个名为Whisper的语音识别工具,用于转录YouTube视频和播客,生成新的对话文本,以进一步提高AI的智能程度。
Whisper博客:https://openai.com/research/whisper
三名知情人士表示,OpenAI员工知道这样做会涉足法律灰色地带,可能违反YouTube的规则。Google旗下的YouTube禁止将其视频用于“独立”的应用程序,还禁止通过“任何自动化手段(如机器人或爬虫)”访问其视频。
但OpenAI团队认为用视频训练AI是合理使用,最终还是转录了超过100万小时的YouTube视频。
知情人士称,OpenAI总裁Greg Brockman领导了开发GPT-4的团队,他亲自参与收集了这些YouTube视频,然后将其输入至GPT-4。
除了OpenAI,Meta、Google等科技公司也采取了类似的措施。
据Meta去年初的内部会议录音,Meta的生成式AI副总裁Ahmad Al-Dahle称,团队已经使用了互联网上几乎所有可用的英文书籍、论文、诗歌和新闻文章来开发模型,除非Meta获得更多数据,否则无法匹敌ChatGPT。
2023年3月和4月,Meta团队考虑收购出版社Simon & Schuster以获取其长篇作品的授权,以及讨论了如何在未经许可的情况下,从互联网上收集受版权保护的数据,即使这将带来诉讼。
他们提到,如果与出版商、艺术家、音乐家和新闻行业谈判授权的话,会耗费太长时间。
Meta曾表示,已经从Instagram和Facebook获取了数十亿公开共享的图像和视频来训练其模型。
有知情人士称,Google也转录了YouTube视频来训练自家的AI模型,并在去年扩大了其服务条款。
此前的隐私政策称,Google只能使用公开信息来“帮助训练Google的语言模型并构建Google翻译等功能”,更改后的条款扩大了AI技术适用范围,Google可以利用数据“训练AI模型并构建Google翻译、Bard和Cloud AI等产品和功能”。
Google隐私政策修改
Google的内部消息显示,这一变化的目的之一是为了让Google能利用公开的Google文档、Google地图上的餐厅评论等其他在线数据,来完善其AI产品。
开发更大更强的AI,意味着需要看似无尽的数据资源。从新闻报道、出版作品,到网络留言、博客文章、社交平台上的照片和视频等等,互联网上的各类数据正成为AI行业发展的重要基石。
而对于创作者来说,AI公司使用他们的作品来训练模型,存在侵犯版权和道德问题。
《纽约时报》去年底起诉OpenAI和微软,称其在未经许可的情况下使用受版权保护的新闻文章来训练AI聊天机器人。OpenAI和微软回应称这是“合理使用”,或者说受版权法保护的。
去年好莱坞罢工也涉及AI相关权利的争议。电影制作人、演员Justine Bateman是美国演员工会(SAG-AFTRA)的AI顾问,她认为AI模型在未经许可或付费的情况下获取内容(包括她的作品和电影),“这是美国最大的盗窃案”。
近期,包括知名歌手Billie Eilish、Nicki Minaj等在内的200多名艺术家签署了一封公开信,要求科技公司承诺不开发破坏或取代人类创意的AI工具,“我们必须防止AI被掠夺性地用来窃取专业创作者的声音和肖像,侵犯创作者的权利,并破坏音乐生态系统”。
面对创作者的抗议,内容平台也亮明了态度。
YouTube首席执行官Neal Mohan近日在接受彭博社采访时强调,下载YouTube视频,然后用于训练Sora等AI模型显然违反了YouTube现行的相关条款。
他承认Google在训练Gemini模型时“使用了YouTube上的一些内容”,但在使用前已得到创作者的授权,这是YouTube与创作者之间的协议所允许的。
Google发言人Matt Bryant针对隐私政策的变更回应称,Google没有在未经用户“明确许可”的情况下使用Google文档或相关应用的信息来训练AI,条款中指的是一个允许用户测试实验性功能的自愿计划。
回顾AI大模型的进程,2020年之前,大多数AI模型使用的训练数据比现在小得多。
AI大模型训练数据量变化,图源《纽约时报》
直到约翰·霍普金斯大学理论物理学家Jared Kaplan发表了一篇关于AI的开创性论文,发现训练大型语言模型所需的数据越多,它的性能就越好。
此后,“规模即一切(Scale Is All You Need)”很快成为AI研究的口号。
论文地址:https://arxiv.org/pdf/2001.08361.pdf
OpenAI在2020年11月推出了GPT-3,它是当时训练数据量最大的模型——约3000亿个token。Google旗下的AI实验室DeepMind更进一步,在2022年测试了400个AI模型,其中一个模型Chinchilla接受了1.4万亿token的训练。
不过这一纪录没有维持多久。去年,中国的研究人员发布了一个AI模型Skywork,中英文文本训练数据量达3.2万亿token。Google的PaLM 2更是超过3.6万亿token。
研究机构Epoch表示,AI公司使用数据的速度比产生数据的速度更快,最早到2026年,互联网上的高质量数据可能被使用殆尽。
如何解决“数据荒”以及一系列产业问题,成了当下AI发展的焦点。
面对数据短缺危机,科技公司正在开发“合成数据”(Synthetic data),即使用AI生成的文本、图像和代码,让AI从自己生成的内容中进行学习。
OpenAI发言人Lindsay Held告诉The Verge,OpenAI的每个模型都拥有独特的数据集,他们的数据来源众多,包括公开数据和非公开数据的合作伙伴,并且正在考虑生成自己的合成数据。
Sam Altman曾表示,未来所有数据都将变成合成数据。既然AI模型可以产生类似人类的文本,那么也可以创建额外的数据来开发更好的AI,这将减少团队对版权数据的依赖。
不少业内人士推测,Sora可能已经通过使用了基于数据驱动的Unreal Engine5大量生成了合成数据作为训练集。
但构建一个可以自我训练的AI系统说起来容易,做起来难。从自己的输出中学习的AI模型可能会陷入一个死循环,不断强化自己的怪癖、错误和局限。
“这些AI系统需要的数据就像在丛林中寻找出路,”前OpenAI研究员Jeff Clune说,“如果它们只在合成数据上训练,很可能会在丛林中迷路。”
为了对抗这一点,OpenAI和其他公司正在研究两个不同的AI模型如何合作生成更有用、更可靠的合成数据。一个AI产生数据,另一个评估信息以分离好的数据和坏的。不过这种方法是否有效仍未得到研究证实。
此外,目前海外已有Scale AI、Gretel.ai等企业开始给外界提供合成数据服务。
国内方面,清华大学苏世民书院院长、人工智能国际治理研究院院长薛澜在近期的公开演讲中谈到,中国的数据量很大,但没有真正产业化,相对标准化的数据服务商还比较少,因为大数据服务不赚钱,公共数据企业没有意愿去清洗,定制化服务又一般收费比较高。因此,数据市场如何构建也是需要解决的问题。