编译 | 张奥林
编辑 | 程茜
智东西1月9日消息,今天凌晨,全球生成式AI明星OpenAI在官网发布公告称,《纽约时报》的诉讼毫无根据。OpenAI认为其没有表述完整的事实,但仍提供退出机制。
此前,《纽约时报》向OpenAI及其投资人微软公司提起侵犯版权诉讼,指控这两家机构未经许可就采集该报数百万篇文章以训练大语言模型。《纽约时报》在诉讼中提到,OpenAI和微软进行的非法知识数据采集和传播行为损害了该报获得订阅、版权许可、广告和其他附带收入的能力,这造成的损失高达数十亿美元,《纽约时报》虽然没有透露索赔金额,但明确要求OpenAI和微软销毁任何相关的AI模型和训练数据。
公告中OpenAI陈述了自己的立场,总结为以下四点:
1、OpenAI正在与新闻机构合作,以创造新的机会。
2、大模型训练中可以合理使用数据,同时OpenAI也为新闻媒体提供退出机制。
3、“反刍”是一个罕见的漏洞,OpenAI正在努力消除。
4、OpenAI认为《纽约时报》没有将事实表述完整。
一、OpenAI正与多家媒体合作
OpenAI首先指出,自己正与多家新闻媒体合作。公告中提到“我们已经会见了数十家新闻/媒体领域领先的行业组织以探索机会,讨论他关切的话题,并提供解决方案。” OpenAI寻求与新闻机构建立合作伙伴关系,以实现三大目标:
1、为这些组织部署OpenAI的产品,通过协助记者和编辑完成耗时的任务,如分析大量公共记录和翻译内容等。
2、让大模型接受额外、历史性、非公开内容数据的训练以更好地了解世界。
3、在ChatGPT中显示带有来源的实时内容,为新闻发布者与读者提供新的联系。
OpenAI在与美联社、德国出版商Axel Springer、美国新闻计划和纽约大学等媒体机构的早期合作中已经积累了一些经验。
二、OpenAI认为训练可使用公开互联网材料,单一来源内容对训练效果不重要
OpenAI在回应公告中提到,使用公开的互联网材料训练大语言模型是合理的,这得到了过去许多先例的支持。该原则得到了许多学者、图书馆协会、民间社会团体、初创公司、领先的美国公司、创作者、作者和其他一些最近向美国版权办公室提交了意见的人的支持。
欧盟、日本、新加坡和以色列等其他地区和国家,也有法律允许在受版权保护的内容上训练模型,这是AI创新、进步和投资的优势。
但同时OpenAI也提供退出机制,即内容发布者的网站禁止OpenAI的工具访问,原因是“法律权利不如做一个好公民重要”。
OpenAI还提到,像《纽约时报》这样的任何单一来源的内容对现有模型的训练没有意义,对未来的训练也没有很大的影响。因为大模型的训练数据来自从人类知识的巨大集合,任何一个行业(包括新闻)都只是整体训练数据的一小部分,任何单个数据源(包括《纽约时报》)对于模型的训练都不重要。
三、OpenAI指责《纽约时报》操纵提示
反刍(Regurgitation)是指特定内容在大模型的训练数据中多次出现。OpenAI认为反刍是一个罕见的bug,其正在努力的去解决。OpenAI称只有当特定内容不止一次地出现在训练数据中,这种情况才变得常见。例如相同的片段出现在多个不同的网站上。
因此,OpenAI采取了一些措施来限制无意中的记忆,防止模型输出中的重复。OpenAI在公告中提到希望用户负责任地行事,故意操纵模型进行反刍不是对技术的适当使用,也违反了使用条款。
OpenAI也指责《纽约时报》故意操纵提示来使模型反刍,其指出《纽约时报》引发的反刍似乎来自数年前在多个第三方网站扩散的文章,这些文章通常包括冗长的文章摘录。
同时OpenAI在回应中也说,即使使用这样的提示,模型通常也不会像《纽约时报》暗示的那样行事,这表明他们要么指示模型反刍,要么从许多尝试中挑选出他们需要的例子。最后,OpenAI透露正在使自己的模型更能抵抗反刍训练的对抗式攻击,并且已在最近的研究中取得进展。
结语:大模型需保证训练数据来源合法
有分析认为,作为第一家起诉科技巨头侵犯其版权的美国大型媒体,《纽约时报》的这场官司将会对AI新兴法律框架带来深远影响。消息人士称,OpenAI每年向一些媒体公司提供100万至500万美元的费用以获得受版权保护的新闻文章,训练其大语言模型。
再结合苹果公司宣布,为保证其AI业务的合法性,其支付高达5000万美元与NBC(美国全国广播公司)等多家传媒集团达成数据采集授权协议,数据采集或许要成为大模型训练的又一巨大成本。这会使得一部分资金匮乏的公司被淘汰,也会倒逼大模型更加高效的利用数据。
来源:OpenAI官网