ChatGPT大火,带来了AIGC相关应用的“强势出圈”。
像微软、Adobe和GitHub这样的公司,正在将这项技术集成到他们的产品中。无独有偶,创业公司也正在筹集数亿美元与之竞争。从文本到图像,除了感慨AI超强的内容生成输出能力之外,各界也开始思考AIGC可能产生的潜在风险。
最近,任何关于AIGC的行业讨论,你会听到支持者和批评者,都在以越来越关切的语气,小声地问同一个问题:这些真的合法吗?
这个问题的出现,是因为生成式人工智能系统的训练方式。像大多数机器学习软件一样,它们通过识别和复制数据中的模式来工作。但是因为这些被用来生成代码、文本、音乐和艺术的数据,本身是由人类创造的,是从网上搜来的,并未以某种方式受到版权保护。
对于遥远的2010年代的人工智能研究人员来说,这不是什么大问题。当时,最先进的模型只能产生模糊的、指甲大小的黑白人脸图像,这对人类没有明显的威胁。但在2022年,当一个业余爱好者可以使用Stable Diffusion等软件在几小时内复制艺术家的风格时,或者直接去销售AI生成的版画和滤镜时,合法性和道德问题变得更加紧迫。
以迪士尼插画家Hollie Mengert为例,她发现自己的艺术风格被加拿大的一名机械工程学生克隆为人工智能实验。这位学生下载了Mengert的32篇作品,花了几个小时训练了一个可以重现她的风格的机器学习模型。正如Mengert告诉报告此案的技术专家Andy Baio的那样:“就我个人而言,感觉就像有人在拿走我所做的工作,你知道,我所学到的东西——我自2011年从艺术学校毕业以来一直是一名在职艺术家——并用它来创作我不同意也不允许的艺术。”
这公平吗?Mengert对此能做什么呢?
为了回答这些问题并了解生成人工智能的法律环境,The Verge采访了一系列专家,包括律师、分析师和人工智能初创公司的员工。
一些人满怀信心地表示,这些系统肯定有能力侵犯版权,并可能在不久的将来面临严重的法律挑战。其他人同样自信地表示,事实恰恰相反:目前在AIGC领域发生的一切都是合法的,任何诉讼都注定会失败。
Baio一直在密切关注生成人工智能场景,他告诉The Verge:“我看到双方的人对自己的立场都非常自信,但事实是没有人知道。任何一个自信地说自己知道这件事在法庭上会如何发展的人,都是错误的。”
英国苏塞克斯大学专门研究人工智能和知识产权法的学者Andres Guadamuz表示,虽然有很多未知因素,但也只有几个关键问题,许多不确定性都从这里生出的:
首先,你能让AIGC模型获得版权吗?如果是,谁拥有它?
第二,如果你拥有用于训练人工智能的版权,这会给你对模型或它创建的内容提出任何法律要求吗?
一旦这些问题得到回答,就会出现一个更大的问题:你如何处理这项技术的后果?对数据收集,应该实施什么样的法律约束?构建这些系统的人,和那些需要数据来创建系统的人们,之间能和平相处吗?
让我们逐一回答这些问题。
第一个问题,你能让人工智能创造的内容获得版权吗?
答案并不太难回答。
在美国,仅由机器生成的作品没有版权保护。然而,在创作者能够证明有大量人力投入的情况下,版权似乎是可能的。
9月,美国版权局首次批准了一本借助AI 生成的漫画书版权注册。这部漫画是一部完整的作品:18页的叙事里,有人物、对话和传统的漫画布局。尽管有报道称,南加州大学正在审查其决定,但该漫画的版权注册实际上尚未被撤销。
一个重要因素,就是制作漫画所涉及的人力投入程度。创作这幅作品的艺术家Kristina Kashtanova讲述,南加州大学要求她提供创作过程的细节,以表明这部平面小说的创作过程中有大量的人类参与。
Guadamuz表示,在授予人工智能帮助下创作的作品版权时,这将是一个持续存在的问题。“如果你只输入梵高的猫,我认为这不足以在美国获得版权,”他说,“但如果你有更多的提示,比如制作几张图像、如何微调图像、使用更多的工具,我完全相信这能受到版权的保护。”
考虑到这一准则,AIGC输出的绝大多数内容很可能无法受到版权保护。它们通常只需使用几个关键词作为提示,就能粗制滥造地批量生产。当然有些AI画作经过了更复杂的创作过程,其中包括之前引起争议的作品,一副AI生成的印刷画作赢得了国家艺术博览会的竞争。
在这种情况下,创作者表示他花了数周时间完善提示,并手动编辑完成的作品,这表明他有相对较高的智力参与度,能在一定程度上避免对原版权作品的侵权。
一位计算机科学家Giorgio Franceschelli,撰写了关于人工智能版权问题的文章,表示在欧盟衡量人类的投入,对于这类案件的裁决尤其重要。
而在英国,法律又有所不同。英国是为数不多的几个为AI生成的作品提供版权的国家之一,但它认为作者是为作品能被创作出,必须存在的人。同样,这里有多重含义,比如这个“人”是模型的开发者还是它的操作者,但无论如何它为某种版权保护的授予提供了优先权。
然而,Guadamuz提醒道,注册版权只是第一步,“美国版权局不是法院,如果你要起诉某人侵犯版权,你需要注册,但这将由法院决定在法律上是否可行。”
这时,第二个问题来了,你能使用受版权保护的数据,来训练人工智能模型吗?
对于大多数专家来说,有关人工智能和版权的最大问题,与用于训练这些模型的数据有关。大多数系统都是根据从网络上抓取的大量内容进行训练的,无论是文本、代码还是图像。
例如,AIGC模型领域最有影响力的Stable Diffusion,它的训练数据集包含了从数百个领域抓取的数十亿张图像。包括WordPress和Blogspot上的个人博客、DeviantArt等艺术平台以及Shutterstock和Getty Images等图像网站。事实上,生成式人工智能的训练数据集非常庞大,屏幕前的你也很有可能成为其中的数据了。
人工智能研究人员、初创公司和价值数十亿美元的科技公司,共同使用的理由是,至少在美国使用这些图像是受到公平使用原则的保护,该原则旨在鼓励使用受版权保护的作品,来促进言论自由。
范德比尔特法学院里专门研究知识产权法的教授Daniel Gervais,解释说,在决定某种东西是否合理使用时,有很多考虑因素。其中有两个因素“更加突出,一个是“使用的目的或性质是什么”,另一个是“对市场有什么影响”。
换句话说,这种变革是否以某种方式,通过与原创作者的作品竞争,威胁到他们的生计了?
考虑到这些因素的责任,Gervais表示很有可能培训系统合理使用受版权保护的数据。但对于生成内容来说,情况未必如此。换言之:你可以使用他人的数据训练人工智能模型,但你对该模型的处理可能是侵权的。
可以这么理解,如果该模型是在数百万张图像上训练的,并用于生成新颖的图片,那么这极不可能构成侵犯版权。在这个过程中,输出的结果不太会威胁到原作者的市场竞争力。但是,如果你对某位艺术家的100张作品进行微调,并生成符合其风格的照片,这个艺术家一个不高兴,就会将你告上法庭。
左图:画家Erin Hanson在2021年创作的作品;右图:在Stable Diffusion中以“style of Erin Hanson”等作为提示生成的结果
Gervais举了个例子:“如果你给AI看了10部斯蒂芬·金的小说,然后让它写一部斯蒂芬·金风格的小说,那么你就是在直接与斯蒂芬·金竞争。这显然不算是合适使用。”
至关重要的是,在公平和不公平使用的两极间,有无数种情况下,无法影响法律裁决。
生成人工智能公司Wombo的高层Ryan Khurana表示,大多数销售这些服务的公司都意识到了这些差异。他在电子邮件中告诉The Verge:“故意使用基于版权作品的提示来生成内容,违反玩家的服务条款。”但他补充道,“执法很困难”,公司往往更感兴趣的是“想出防止以侵犯版权的方式使用模型的方法,而不是限制训练数据。”
对于开源的AI模型来说更是如此,它可以在零监督的情况下进行训练和使用。公司可能因此掩盖了自己的行为,但也可能为侵犯版权的使用提供便利。
判断是否合理使用的另一个变量,是该AI模型是否由学术研究人员和非营利组织创建。这通常会加强合理使用的防御极致,初创公司也知道这一点。因此,例如,Stable Diffusion的开发商Stability AI,并没有直接收集模型的训练数据。相反,它还得到了德国一所大学的许可,这使得Stability AI可以将该模型转化为商业服务,同时与“犯法”保持距离。
Baio将这种做法称为“人工智能数据清洗”。他指出,这种方法以前曾被用于创建面部识别人工智能软件,并举了MegaFace的例子。这是华盛顿大学的研究人员通过从Flickr中抓取照片汇编的数据集。
Baio说:“学术研究人员获取了这些数据,并对其进行了清洗,让这些数据可以安全地被商业公司使用。”他补充说,现在这些包括数百万张个人照片掌握在面部识别公司Clearview AI、执法部门和中国政府手中。这样一个“人工智能数据清洗”过程,可能也有助于保护生成式人工智能模型的创造者,免受责任。
然而,这一切还有最后一个转折点,Gervais指出,最高法院涉及安迪·沃霍尔和普林斯的未决案件,目前对合理使用的解释实际上可能在未来几个月发生变化。此案涉及沃霍尔利用普林斯的照片创作艺术品,是合理使用,还是侵犯了版权?
Gervais说,在等待最高法院修改法律时,说任何事情都是会有风险。
第三个问题是,艺术家和人工智能公司如何和平相处?
即使AIGC的训练,被证明在合理使用范围内,这也很难解决该领域的问题。这不会平息艺术家们对他们的作品被用来训练商业模型的愤怒,也不一定适用于其他AIGC领域,如代码和音乐。
考虑到这一点,那可以引入什么补救措施,无论是技术上的还是其他方面的,让AIGC蓬勃发展的同时,为创作者提补偿?
最显而易见的建议是向授权数据的创作建者付费。然而,对一些人来说,这将扼杀这个行业。《公平学习》一书的作者Bryan Casey和Mark Lemley的观点,已成为鼓吹AIGC能被公平使用论点的支柱。他们表示训练数据集太大了,“不能简单地许可所有照片、视频、音频或文本,用于新的用途。”他们认为,允许“公平学习”不仅鼓励创新,而且可以开发更好的人工智能系统。
然而,其他人指出,我们之前已经解决过复杂性相当的版权问题,并且可以再次解决。The Verge采访过的几位专家将AIGC时代与音乐盗版时代,进行了比较。当时文件共享程序建立在大规模侵犯版权的基础上,直到出现法律约束,尊重版权的新协议后才蓬勃发展。
像21世纪初的Napster,虽然每个人都喜欢它,但它是完全非法的。随着法律的发展,今天我们才有了Spotify和iTunes这样的产品。律师Matthew Butterick告诉记者,他目前正在起诉那些为训练人工智能模型而收集数据的公司。
Wombo的高层Ryan Khurana也预测了类似的结果。他告诉The Verge:“由于许可类型不同、权利持有人种类繁多,以及涉及的各种中介机构,音乐的版权规则是迄今为止最复杂的。考虑到围绕AIGC法律问题的细微差别,我认为整个生成式人工智能领域,将演变为拥有类似于音乐的许可制度。”
当然,还有其它补偿方案也在试验中。
例如,Shutterstock网站正计划设立一个基金,对那些将其作品出售给人工智能公司训练的个人,进行补偿。而DeviantArt则为网络上共享的图像创建了一个元数据标签,警告人工智能研究人员不要抓取他们的内容。
目前有一家小型社交网络Cohost已经在其网站上采用了这个标签,并表示如果被发现抓取它的图像,它不排除采取法律行动。
然而,这些方法都遭到了艺术界的不同回应。一次性许可费能补偿失去的生计吗?现在已经部署的无抓取标签的数据,如何帮助那些作品已经被用于训练商业人工智能系统的艺术家?对于许多创作者来说,伤害已经造成。
随着AI初创企业带来的新的解决方案,一个明显的进步是,授权许可模式在实操层面开始落地。其中一个例子是The Stack,这是一个用于训练人工智能的数据集,专门用来避免侵犯版权的指控。它只包括具有最宽松的开源许可的代码,并为开发人员提供了一种根据请求删除数据的简单方法。其创建者表示,他们的模型可以在整个行业中使用。
“The Stack的方法绝对可以适应其他媒体,”Hugging Face负责机器学习的Yacine Jernite告诉The Verge,该公司与合作伙伴ServiceNow合作创建了The Stack。“这是探索广泛的同意机制的重要第一步,当他们考虑到人工智能训练数据提取的平台规则时,这些机制会发挥最佳作用。”
接下来会发生什么?
在面临版权作品高昂的授权许可费用时,AIGC研发主体往往面临两种选择:一是,放弃AIGC领域,进而转向其他行业;
二是,坚守AIGC领域,但使用免费数据进行训练。然而,前者无疑阻碍了人工智能技术和产业发展的趋势,与科技进步规律相违背;后者则可能因训练数据的不足,而引发算法模型偏见等不良后果。
然而,随着上周对微软、GitHub和OpenAI提起集体诉讼,人工智能版权战争的第一枪已经打响。该案指控这三家公司通过人工智能编码助理Copilot故意复制开源代码,但没有适当的许可证。上周,该诉讼背后的律师在接受The Verge采访时表示,这可能会为整个生成人工智能领域开创先例。
与此同时,Guadamuz和Baio都表示,他们很惊讶还没有出现更多的法律挑战。Guadamuz认为这在一定程度上,是因为大家害怕成为第一个因起诉而失去决定的人。不过,一旦有人打破了掩护,我认为诉讼将开始左右摇摆。
Baio表示,许多受这项技术影响最大的人,比如艺术家根本无法发起法律挑战。“他们没有资源,”他说,“这类诉讼非常昂贵和耗时,只有当你知道自己会赢的时候,你才会这么做。这就是为什么我一段时间以来一直认为,围绕人工智能艺术的第一批诉讼将来自图像网站。他们似乎准备从这项技术中损失最大,他们可以清楚地证明,他们的大量语料库被用来训练这些模型,他们有资金将其告上法庭。”
Guadamuz对此表示赞同,“每个人都知道它会有多贵,”他说。“无论谁起诉,都会在下级法院做出裁决,然后他们会上诉,然后他们还会再次上诉,最终可能会一直上诉到最高法院。”
不可否认,当前AIGC模型生成的结果存在侵权风险。但可以预见的是,随着AI算法的不断改进优化与训练数据的倍数增长,单个版权作品在这一过程中的价值将被“冲淡”,生成结果的侵权概率也将随之进一步降低。
本文来自微信公众号“元一资本YoneCapital”(ID:yonecapital),作者:JAMES VINCENT、编译:可达怡,36氪经授权发布。