当前位置:首页|资讯|生成式AI|人工智能

生成式AI对创作者公平吗

作者:未尽研究发布时间:2023-04-12

人工智能(AI)领域最显著的进步之一是生成式人工智能(以下简称“生成式AI”)系统的发展,该系统可以根据用户的提示生成新的图像、音乐或文本。人们已经在使用生成式AI工具来起草新闻稿和社交媒体帖子,创建高质量的图像、视频和音乐,甚至编写代码。医学、娱乐和教育等领域的应用即将出现。

然而,一些批评人士认为,生成式AI对内容创作者构成了严重威胁。例如,一些视觉艺术家在网上发起抗议活动,呼吁在线平台屏蔽人工智能生成的艺术。他们的主要抱怨之一是,当开发者在公开可访问的版权内容上训练生成式AI系统时,他们是在不公平地利用创作者的作品。

但是这些批评是错误的。生成式AI系统当然不应该获得知识产权(IP)法律的豁免权,但也不应该遵循比人类创作者更高的标准。

本文驳斥了关于生成式AI对创作者“不公平”的五个最常见论点,同时也承认,确实有一些合法的知识产权正在受到威胁,最后讨论了生成式AI对这些有害活动的影响,建议决策者加强执法、为如何使用此类工具提供指引、立法打击网络盗版。

生成式AI对创作者不公平?

生成式AI应用程序的列表还在继续增长(见表1)。  

表1:流行的生成式AI应用程序列表

最大的争论点是,是否应该允许生成式AI系统在文本、音频、图像和视频上训练其模型。一些创作者认为,在没有得到同意、授权或作出相应补偿的情况下,开发者让人工智能系统利用互联网上发布的内容进行训练的做法是不公平的。

1. 拿版权内容训练生成式AI系统算盗窃行为吗?

一些人认为,拿版权内容训练人工智能系统无疑就是盗窃。窃取数字内容是一个严重的问题——包括电影、电视、音乐、游戏在内的在线盗版每年造成数十亿美元的损失。

网络盗版是盗窃,但向他人寻求灵感和学习并不是盗窃。如果合法地观看视频,而视频激发观众去拍摄自己独特的作品,这不是盗窃。事实上,抖音和其他社交媒体平台上到处都是基于相关内容的视频。

同样地,作家、音乐家和其他艺术家通过观察过去的创作来学习技艺。事实上,所有的创造性作品都是由过去的作品塑造的。称这种过程为盗窃显然是不准确的,用来描述生成式AI系统的训练也同样不准确。

2. 尚未获得版权所有者的明确许可,是否应该允许生成式AI系统对内容进行训练?

一些人认为,在没有首先获得版权所有者同意的情况下,就版权内容训练人工智能系统是错误的。事实上,法律确实赋予了版权所有者某些权利,如复制作品的权利,准备衍生作品的权利,公开表演作品的权利,以及公开展示作品的权利。这些批评者认为,即使训练人工智能系统并不等于盗窃,版权所有者仍然应该有权决定其他人如何使用自己的作品。

然而,仔细想想,这个论点不成立。

版权所有人有权决定是否公开展示或表演其作品。如果他们选择在公共场合展示作品,其他人可以在未经他们允许的情况下以某些方式使用他们的作品。例如,摄影师可以在公共场所拍摄雕塑或涂鸦的照片,即使这些作品受到版权保护。版权禁止摄影师出售这些照片,但并不要求他们获得版权所有者的许可才能拍照。

同样地,个人不需要获得版权所有者的许可就可以研究在画廊里看到的画作或在收音机里听到的歌曲。人们可以自由地观察这些作品,并利用他们从其中学到的东西,在未经版权所有者的明确许可下创造未来的内容。

同样地,生成式AI系统的用户需要获得许可才能对他们可以合法访问的版权内容进行训练,这个论点不成立。

音乐家可能会练习他们在Spotify上听过的数百首的版权歌曲,学习演奏乐器,或者用他们精心磨练的听觉记忆来回忆他们以前听过的乐曲元素。从合法获取的作品中学习并不侵犯版权所有人的独家复制和发行权。除非人类创作者在研究他人的作品之前必须获得许可,否则这一要求不应适用于人工智能。

3. 生成式AI系统应该为使用版权内容而补偿版权所有者吗?

一些人认为,应该付钱给版权所有者以训练生成式AI系统的内容,因为他们正在从这个过程中获得价值。

然而,当其他人类创作者从他们的作品中学习时,版权所有者并没有同样的期望。崭露头角的音乐家听几个小时的音乐,年轻的作家研究他们喜欢的小说,业余画家花几个小时看画廊的作品——他们不必向版权所有者支付费用来获得学习他人的技术、风格和艺术的权利。

生成式AI的批评者也可能高估了个人的贡献。生成式AI系统会对大量的数据进行训练。例如,Stable Diffusion在一个包含6亿张图像的数据集上进行训练。其中,在1200万张最具美感的图片”(可能更倾向于艺术作品,而不是互联网上的其他随机图片)中,最受欢迎的艺术家(托马斯·金卡德)出现了9268次。

换句话说,数据集中最受欢迎的艺术家只代表了数据集中所有图像的0.0015%。换个例子,LaMDA是由谷歌创建的一个大型语言模型,它对从互联网上提取的1.56万亿个单词进行训练。考虑到这些模型的规模,任何一个人的贡献都是微乎其微的。

4.  在未取得艺术家许可的情况下,是否应禁止生成式AI系统生产基于该艺术家风格的内容?

生成式AI系统允许用户请求匹配特定风格的输出。例如,DALL-E的用户可使用诸如“梵高风格的大象”或“毕加索风格的泰姬陵”这样的提示来生成图像。

图1:DALL-E分别根据“梵高风格的大象”和“毕加索风格的泰姬陵”的提示生成的图像

一些人认为,生成式AI系统不应该在未经允许的情况下制作出模仿特定艺术家独特风格的内容。然而,这依然是一个人工智能系统与人类是否遵循相同标准的问题。艺术家可以以另一个艺术家的风格创造一个形象,因为版权不赋予某人某种风格的独家权利。

例如,许多艺术家出售皮克斯风格的个人卡通肖像。委托别人以苏斯博士的风格写一首原创诗,或路易斯·阿姆斯特朗风格的原创歌曲,这样做是完全合法的。

生成式AI系统的用户也应该有同样的自由。

5.  生成式AI系统是否在输出的内容中使用了受版权保护的内容片段?

一些人认为,生成式AI系统是“21世纪的拼贴工具,它可以混合数百万艺术家的版权作品”。这些批评者声称,生成式AI系统仅仅是将其算法吸收的受版权保护的内容的片段拼接在一起,而不是产生独特的输出。

这一论点反映出,人们对生成式AI系统工作原理的理解不够充分。

生成式AI系统不会将现有内容简单混合在一起。它们不会像一些人想象的那样,从各种作品中提取小样本,做一些改变,然后按照新的顺序重新组合。相反,生成式AI系统使用大量的训练数据来创建非常复杂的预测模型,它们能够根据特定的提示生成真实的内容。

例如,OpenAI的GPT-3大型语言模型在45Tb的文本和1750亿个参数上进行训练。DALL-E 2图像模型对2.5亿张图像在35亿个参数上进行训练。

当输入“写一个关于鸭子在月球上的故事”或“创建一张鸭子在月球上的照片”的提示后,模型不是搜索现有数据找到最近的匹配,而是基于其在训练数据集中观察到的统计模式生成符合某些特定参数的新内容。

例如,一只“鸭子”由某些基本元素组成,比如一只有短脖子、粗壮身体和带蹼的脚的鸟类。每一个元素都有其可接受的参数范围:颜色、比例等。人工智能模型并不理解这些参数(实际上,这些参数可能比这个示例要抽象得多),但它能使用这些参数来生成高质量的输出。

生成式AI也不能成为法外之地

以下讨论人们可能侵犯知识产权的一些方式,以及对生成式AI的政策影响。

1.  侵犯人工智能生成作品的版权

使用人工智能创作内容的个人,他们的作品应该受到版权保护。在美国,美国版权局已经为使用人工智能工具创建的作品制定了初步指南。

人工智能生成内容的版权保护应该类似于照片,其中机器(即相机)在制作初始图像时做了大量的机械工作,由人类摄影师做出的各种决定(主题、构图、布光、后期等)才决定了最终的结果。

同样地,使用人工智能工具来创建内容的人也不仅仅是点击一个按钮,而是尝试不同的提示,做出多种变化,以及编辑和组合最终的作品。随着生成式AI成为内容创作者广泛使用的主流工具,政策制定者应确保版权法充分保护其权利,特别是,随着这些技术的愈发成熟,定期为那些使用人工智能工具的人提供最新指导、为其正名。

2.  分发版权内容

正如闯入艺术画廊或音乐工作室是违法的一样,非法获取私人数字文件也是违法的。许多艺术家选择不在互联网上公开发布他们的作品,例如,许多肖像摄影师和婚礼摄影师只会与客户分享作品。其他创作者,包括视觉艺术家、音乐家和作家,也会使用Patreon、Ko-fi或OnlyFans等服务来限制谁可以访问他们的作品。

如果有人破坏了访问控制以进入这些系统,他们就是在从事非法行为。同样地,如果有人未经许可分发受版权保护的内容,例如通过将其发布在公共互联网上或在点对点文件共享服务上分享,这也是在犯罪。

生成式AI系统的训练数据集中可能会包含盗版内容。对这个问题的应对措施应该是,减少在线侵权内容的可用性,而不是停止使用生成式AI。政策制定者应该采取措施来减少网络盗版。一旦侵权内容从公共互联网上移除,任何人都无法使用,包括生成式AI系统亦是如此。

但是,没有理由禁止使用可能无意中包含盗版内容的生成式AI系统,正如没有必要禁止艺术家在参观博物馆中展出的艺术品(后被发现为非法获取)后创作作品。

3. 创作赝品

虽然生成式AI允许用户创作出类似于某个艺术家风格的作品,但它不允许任何人歪曲创作者或作品的来源。就像艺术家不能将别人的作品伪装成自己的作品一样,使用生成式AI生成内容并将之歪曲为其他艺术家的作品也是违法的。

在艺术界,这是一个长期存在的问题。执法部门可以而且应该起诉制造欺诈行为的个人,买家应该在购买前进行尽职调查。

4. 创建侵犯版权的内容

生成式AI可能允许创作者创作出与现有版权作品风格相似的作品,但不允许创作者创作出相同或几乎相同的作品。版权所有人,包括文学、音乐和艺术作品,如果有人创作的作品与他们自己的衍生作品完全相似,就可以主张侵权。

虽然在大多数情况下,最新的生成式AI系统产生新的内容,但这些系统有可能从训练数据中复制内容。

当有人创作出几乎相同的作品,无论其是完全由人类创作的,还是使用生成人工智能系统生成的,艺术家都可以而且应该在法庭上申诉自己的权利。

5. 模仿个人

公开权是保护个人免受未经授权的商业使用的知识产权。这项权利对名人来说尤其重要,因为他们能够凭此控制其他人如何在商业上使用他们的肖像,比如在广告或电影和电视中。

虽然生成式AI——特别是深度伪造技术——让创建模仿他人的内容变得更容易,但其潜在的问题本身并不新鲜。生成式AI并没有改变这样一个事实,即个人应该通过起诉那些侵犯其权利的人来继续执行他们的宣传权利。

生成式AI也提出了关于谁拥有某些角色元素的权利的问题。例如,如果一家电影制片厂想制作一部电影的续集,它是否可以使用生成式AI来数字再现一个角色(包括声音和图像),还是演员拥有这些权利?电影如何描述角色重要吗?角色是否会参与可能对演员产生负面影响的活动或对话?这些类型的问题很可能会通过表演者签署合同来解决,解决谁拥有表演者的形象、声音等权利。

深度造假技术还使得在未经个人同意的情况下制作超真实的色情图片和视频变得更加容易。虽然这个问题并不是全新的,但这个问题的规模比过去要大得多。政策制定者应该更新和扩充这些法律,以更好地保护个人。

结论

生成式AI是一项重要的技术进步,它提供了新颖的应用,受到众多经济部门的欢迎。生成式AI如何影响知识产权,政策制定者如何保护权利所有者,这些问题有许多重要的考虑因素,但有一点是错误的:生成式AI模型不应该被允许对合法访问的版权内容进行训练。

此外,限制对合法访问的内容进行生成式AI模型的训练,从而限制其发展,完全是没有必要的。相反,政策制定者应该为那些使用这些工具的人提供指导,发出明确的信息,专注于强有力的知识产权执法,制定新的立法来打击网络盗版,并扩充法律以保护个人被“冒名顶替”。

作者丹尼尔·卡斯特罗系数据创新中心(Center for Data Innovation)总监、信息技术和创新基金会 (Information Technology and Innovation Foundation) 副总裁。

https://www2.datainnovation.org/2023-ai-art-ip.pdf


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1