法院正在探讨并决定生成式人工智能是否侵犯版权。本文中,让我们来谈谈这到底意味着什么。
美国的版权法是一件复杂的事情。我们这些不是律师的人很难弄清楚它的真正含义,以及它能保护什么和不能保护什么,这是可以理解的。数据科学家不会花很多时间考虑版权问题,除非我们为开源项目选择许可证。即便如此,有时我们只是跳过这一点,并没有真正处理它,尽管我们知道我们应该这样做。
但法律界开始密切关注生成式人工智能领域对于版权的影响,这可能会对我们的工作产生真正的影响。在我们具体讨论版权如何影响生成式人工智能领域之前,让我们首先来回顾一下版权相关的事实问题。
版权
为什么存在版权呢?最新的法律解释认为,重点不仅仅是让创作者致富,而是鼓励创作,让我们拥有一个包含艺术和文化创造力的社会。基本上,我们与创作者交换金钱,这样他们就有动力为我们创造伟大的作品。这意味着,许多法院在审理版权案件时会问,“这种复制品是否有助于一个创造性的、艺术性的和富有创新的社会?”在做出判决时也会考虑到这一点。
合理使用
此外,“合理使用”并不是无视版权的免费通行证。有四项测试可以决定内容的使用是否为“合理使用”:
你必须满足所有上述这些测试才能得到公平使用,而不仅仅是一两项测试。当然,所有这些都要接受法律解释。(显然,本篇文章不是法律建议相关的!)但现在,有了这些事实,让我们想想生成式人工智能的作用,以及为什么上面的概念会冲击生成式人工智能。
生成式人工智能综述
对我写的专栏非常熟悉的读者会非常清楚地了解生成式人工智能是如何训练的。尽管如此,还是先让我们来快速回顾一下有关内容。
这些模型的输入(训练数据)和输出对版权法都有重要影响;所以,接下来让我们作进一步的分析。
训练数据和模型输出
训练数据对于创建生成性人工智能模型至关重要。其目的是教一个模型复制人类的创造力,因此该模型需要看到大量人类创造力的作品,才能了解其外观/声音。但是,正如我们之前所了解到的,人类创作的作品属于创作作品的这些人(即使它们被记在餐巾纸上)。对于我们训练哪怕是一个小的生成式人工智能模型所需的数据量,向每一位创作者支付他们作品的版权从财务角度上看都是不可行的。那么,我们将他人的工作输入训练数据集并创建生成式人工智能模型是否合理呢?现在,不妨让我们再复习一下公平使用的测试,来看看我们在哪里能找到立足点。
1.第二次使用的目的和特点
我们可以争辩说,使用数据来训练模型并不能真正算作创造衍生作品。例如,这与教孩子用书或音乐不同吗?相反的论点是,首先,教一个孩子并不等同于使用数百万本书来生成一个产品牟利;其次,生成性人工智能能够敏锐地复制它所训练的内容,因此它基本上是一个几乎逐字逐句复制作品的大工具。生成式人工智能的结果有时是创新的,与输入完全不同吗?如果是的话,那可能是因为非常有创意的提示工程,但这是否意味着底层工具是合法的呢?
然而,从哲学上讲,机器学习正试图尽可能准确地再现它从训练数据中学习到的模式。它从原作中学习到的模式是否与原作的“核心”相同呢?
2.原作的性质
这一方面在现有的不同类型的生成式人工智能中差异很大,但由于训练任何模型都需要大量的数据,因此似乎至少有一部分符合创造力的法律标准。在许多情况下,使用人工内容作为训练数据的全部原因是试图将创新(高度多样化)的输入输入到模型中。除非有人要仔细阅读GPT-4的全部1万亿个单词,并决定哪些单词有创意或没有创意;否则,我认为这一标准不属于合理使用。
3.使用金额
这是一个类似于#2的问题。因为,几乎从定义上讲,生成式人工智能训练数据集使用了他们所能掌握的一切,而且数量需要庞大而全面;实际上并不存在“最低限度的必需的”内容数量。
4.效果
最后,效果问题是生成式人工智能的一大症结。我想,我们都知道有人会不时使用ChatGPT或类似工具,而不是在百科全书或报纸上搜索问题的答案。有强有力的证据表明,尽管这些服务机构做出了一些明显的努力来阻止这种情况,但人们使用Dall-E等服务来请求“以[此处艺术家姓名]的风格”的视觉作品。如果问题是人们是否会使用生成式人工智能,而不是支付原始创作者的费用,那么在某些领域似乎肯定会发生这种情况。我们可以看到,像微软、谷歌、Meta和OpenAI这样的公司正在从生成式人工智能中获得数十亿的估值和收入,所以他们肯定不会轻易通过这一点。
复制作为计算中的一个概念
我想稍停一下来谈谈一个有一定相关性但是很重要的问题。版权法并不能很好地处理一般的计算,特别是软件和数字制品。版权法主要是在早期世界制定的,在那个时代复制黑胶唱片或重新出版一本书是一项专业且昂贵的任务。但今天,当任何计算机上的任何东西基本上只需点击鼠标就可以在几秒钟内复制时,复制东西的整个想法与过去不同了。
此外,请记住,安装任何软件都算作复制。数字拷贝在我们的文化中意味着与计算机之前的拷贝不同。关于版权在数字时代应该如何运作,人们有很多疑问,因为其中很多似乎不再那么重要。你有没有从GitHub或StackOverflow复制过一些代码?我当然有!您是否仔细审查了内容许可证,以确保其可用于您的场景中?你应该这样做,但你做了吗?
《纽约时报》控诉OpenAI的案子
通过上面介绍,我们已经对人工智能版权困境形式有了大致的了解;那么,创作者和法律是如何处理这些问题的呢?我认为最有趣的此类案件(有很多)是《纽约时报》提出的案件,因为其中一部分正好涉及复制的含义,而其他案件可能没有做到这一点。
正如我上面提到的,复制数字文件的行为是如此普遍和正常,以至于很难想象强制复制数字文件(至少,在没有违反其他合理使用测试向全球公众分发确切文件的意图的情况下)是侵犯版权。我认为这就是我们需要关注生成式人工智能问题的地方 — 不仅仅是复制,还有对文化和市场的影响。
生成式人工智能真的在复制内容吗?例如训练数据输入,训练数据输出?《纽约时报》在其文件中显示,你可以从ChatGPT中获得《纽约时报》文章的逐字文本,并有非常具体的提示。因为《纽约时报》有付费墙(译者注:一种阻止非付费用户浏览网页内容的屏蔽系统),所以如果这种情况是真实的,那么这似乎明显违反了公平使用的效果测试。到目前为止,OpenAI的回应是“是的,因为你对ChatGPT使用了许多复杂的提示,就可以获得这样的逐字逐句的结果”。这让我感到诧异:他们的论点就是生成式人工智能有时会生成其训练内容的逐字副本。但是,这就不违法吗?(环球音乐集团(Universal Music Group)也提起过与音乐相关的类似案件,认为生成式人工智能模型Claude可以几乎逐字逐句地复制受版权保护的歌曲的歌词。)
我们要求法院决定受版权保护的材料的确切使用量和使用方式,在这种情况下,这将是一个挑战! 我倾向于认为,使用数据进行训练不应该是固有的问题,但重要的问题是如何使用模型以及它会产生什么影响。
我们倾向于将合理使用视为一个步骤,就像引用你文章中的一段话。我们的系统有一套法律思想,为这种情况做好了充分准备。但在生成式人工智能中,这更像是两个步骤。要说版权受到侵犯,在我看来,如果内容被用于训练,那么,这些内容也必须应该以篡夺原始材料市场的方式从最终模型中检索出来。我认为人工智能系统还不能够将使用的输入内容的数量与可以逐字提取作为输出的数量区分开来。然而,ChatGPT真的是这样吗?我们很想看看法院对这些问题是怎么想的。
DMCA
上述这些问题还有另一个有趣的角度,那就是DMCA(数字千年版权法)是否与此相关。你可能熟悉这项法律,因为几十年来,它一直被用来迫使社交媒体平台删除未经版权持有人授权发布的音乐和电影文件。这项法律是基于这样一种想法,即你可以对侵犯版权的人进行“打击”,一次删除一条内容。然而,当涉及到训练数据集时,这显然是行不通的——你需要重新训练整个模型,在大多数生成式人工智能的情况下,这需要付出高昂的代价,从训练数据中删除一个或多个有问题的文件。理论上,你仍然可以使用DMCA来强制从网站上删除有问题的模型的输出,但证明是哪个模型产生了这个项目将是一个挑战。但是,另一方面这并没有像我所描述的那样,将输入+输出视为侵权的关键。
权力问题
如果上述这些行为实际上侵犯了版权,法院仍然必须决定该怎么办。从某种意义上说,很多人认为生成式人工智能“太大了,不能失败”——他们不能废除让我们走到这一步的做法,因为每个人都喜欢ChatGPT,对吧?生成式人工智能(我们被告知)将彻底改变几乎所有行业!
虽然版权是否受到侵犯的问题仍有待决定,但我确实觉得如果受到侵犯,应该会有后果。假设请求原谅比许可更容易,我们在什么时候才能停止原谅那些绕过法律或公然违反法律的有权势的人和机构呢?这并不完全显而易见。如果没有一些人以这种方式行事,我们今天就不会有很多创新,但这并不一定意味着这是值得的。另一方面,让这些情况过去会导致法治贬值吗?
像现在网站99percentinvisible.org的许多听众一样,我正在读罗伯特·卡罗的《权力经纪人》(https://99percentinvisible.org/episode/the-power-broker-03-david-sims/)。听到罗伯特·摩西(Robert Moses)在20世纪之交如何处理纽约的法律问题令人着迷,因为他处理分区法的风格似乎让人想起了2010年初旧金山优步(Uber)处理快递司机相关法律的方式,以及构建生成式人工智能的大公司现在处理版权的方式。他们没有遵守法律,而是采取了法律限制不适用于他们的态度,因为他们正在建造的规则是如此重要和有价值。
然而,我只是不相信这是真的。当然,每种情况在某些方面都是不同的,但一个有权势的人可以决定他认为什么是好主意,这一概念不可避免地比其他人认为的更重要,这让我感到困惑。生成式人工智能可能有用,但认为它比拥有一个文化上充满活力和创造力的社会更重要似乎是虚伪的。法院仍需决定生成性人工智能是否对艺术家和创作者产生了寒蝉效应。但是,这些创作者提起的法庭案件认为确实如此。
未来
美国版权局并没有忽视这些具有挑战性的问题,尽管他们可能对这些问题反应稍迟一些。最近,他们发布了一篇博客文章,谈论他们对生成式人工智能相关内容的计划。然而,这篇文章非常缺乏具体的内容,只是告诉我们未来会有相关报告。该部门的工作重点有三个方面:
这些都是重要的话题,我希望结果会是经过深思熟虑的。(一旦这些报告出来,我会写下这些报告。)我希望从事这项工作的政策制定者了解情况,技术娴熟,因为官僚主义者很容易用不明智的新规则使整个情况变得更糟。
未来的另一种可能性是,将开发和训练合乎职业道德标准的数据集。这是HuggingFace的一些人已经以名为the Stack的代码数据集(https://www.bigcode-project.org/docs/about/the-stack/)的形式完成的。我们能为其他形式的内容做这样的事情吗?
结论
不管政府或行业提出了什么,法院都正在着手解决上述问题。如果法庭上的一个案件中生成式人工智能方败诉,会发生什么呢?
这可能至少意味着,生成式人工智能产生的部分资金将返还给创作者。我不太相信生成式人工智能的整个想法会消失,尽管我们确实看到了Napster音频共享时代许多公司的终结。法院可能会让生产生成性人工智能的公司破产,或者禁止生产生成性的人工智能模型——这并非不可能!然而,我不认为这是最有可能的结果——相反,我认为我们会看到一些惩罚和围绕这一点的法律碎片化(这种模式可以,那种模式不可以,等等),这可能会也可能不会使情况在法律上变得更清楚。
我真的很希望法院能处理生成式人工智能模型何时以及如何被视为侵权的问题,不将输入和输出问题分开,而是将它们作为一个整体进行审查,因为我认为这是理解情况的关键。
如果他们这样做了,我们也许能够为我们正在处理的新技术提出有意义的法律框架。如果不这样做,我担心我们最终会进一步陷入法律的泥潭,而法律对指导我们的数字创新毫无准备。我们需要在我们的数字世界中更有意义的版权法。但是,我们也需要智能地保护各种形式的人类艺术、科学和创造力,我认为人工智能生成的内容不值得用它来交换。