【编者按】ChatGPT的火爆,拉开了2023年的数字经济新征程,也同时带来大量的法律问题,其中包括如何认定人工智能生成内容(AIGC生成物)的著作权。
《互联网法律评论》特约专家时萧楠律师指出,AIGC生成物的著作权问题不仅仅是目前ChatGPT将要面临的问题,更是整个AIGC产业需要面对的问题。
《互联网法律评论》今日获授权刊载时萧楠律师的分析文章,本文将从ChatGPT的相关技术本身入手讨论AIGC生成物的可版权性以及提出目前法律体系下的AIGC生成物知识产权归属条款的建议。
人工智能可以追溯至上个世纪50年代计算机之父提出的图灵测试[1],其是通过使机器与人类进行相同的对话来判断机器是否具备了与人类相同的智力水准。而这之后计算机行业就已经开始了对对话式人工智能的开发,以期通过图灵测试。此时的人工智能还在使用模式匹配(Pattern Matching)[2]方式设计对话式机器人,它只需要提前设置人类可能提出的关键词,并且按照预设答案进行输出,现在很多的智能客服都还是使用这样的算法模式。
但随着模式匹配式算法受阻(很难通过图灵测试),图灵当时提出的另一个概念“机器学习”开始得到了不断的延伸,发展出了“监督学习”“无监督学习”“强化学习”“深度学习”等不同类型的机器学习方式,最终以“人工神经网络”的架构下对不同类型的机器学习方式进行结合。
而机器学习的学习能力,也伴随着Google的研究者于2017年在《Attention Is All You Need》一文中提出的Transformer模型,得到了指数级的学习速度的提升,目前ChatGPT的“T”说的就是Transformer。
ChatGPT的开发公司OpenAI公司2018年在Transformer模型的基础上,进一步研发了GPT(Generative Pre-trained Transformer),并且以此为基础推出了GPT、GPT-2、GPT-3、ChatGPT:
ChatGPT的训练机制,来源:https://openai.com/blog/chatgpt/
我们从上述ChatGPT技术发展过程中可以看到,ChatGPT经历了基本无需人类干预,到需要一定的人工反馈机制的强化学习的变化过程,这种“人工反馈强化学习”通过上图可以看出是以如下方式进行的:
OpenAI雇佣的40名人工训练员(labeler)对使用OpenAI的PlayGround的
用户的随机prompt(就是指令或问题),给出指定prompt的高质量答案,然后利用这些高质量答案对GPT-3进行有监督的微调(Supervised FineTune,SFT);
人工训练员对第一阶段的模型自动生成的回复按照开发者既定的标准(例如相关性、富含信息性、有害信息等诸多标准)进行综合排序,训练奖励模型(RewordModel,RM);
使用RM作为强化学习的优化目标,利用PPO算法微调SFT模型。
因此我们可以看到,ChatGPT中的“人工反馈强化学习”需要人工训练员对ChatGPT生成的内容进行不断地干预,这种人工反馈机制就是Moss和图恒宇说的“人在回路”(Human-in-the-Loop)的一种方式,简而言之就是机器通过需要监督或者不需要监督的大量训练数据的自主学习后,需要人类给予它产生的结果进行反馈,这种不需要非常多的,但又十分必要的人类反馈(“人工反馈强化学习”),将使得人工智能更加像人类。这是GPT-3在已经拥有了海量(1750亿)参数后无法继续优化其生成结果,而OpenAI公司寻找到的使GPT生成结果更像人类的解决方法,这直接生成了目前在全球备受关注的ChatGPT。
目前基本大部分国家的著作权法都不认可除了人类以外其他的主体完成的创作可以适用著作权法获得保护,但人工智能的出现,以及其截止目前的不断发展,都使得各个国家的立法、司法在积极探讨AIGC生成物的著作权法项下的保护方式。其中的重要原因还在于,人类目前在人工智能中还起着非常重要的作用,以上面的ChatGPT技术发展过程为例:
人工智能训练过程中:人工智能开发过程中的“人工反馈强化学习”或者“人在回路”的人工干预的机器学习方式,使得AIGC生成物更像人类完成的创作,准确说更像进行了具体干预的那一个或者几个人类(人工训练员)完成的创作。例如现在ChatGPT的聊天回复风格,语言遣词造句都和人工反馈强化学习过程中的人工训练员的风格、遣词造句有着莫大的关联,那么这部分人类“创作”是否可以得到著作权法的认可?
用户使用过程中:用户在使用ChatGPT过程中,与ChatGPT的对话,促使它进行回复,所以ChatGPT的回复是用户与ChatGPT共同完成的结果,这部分真实人类用户的“提问”(创作),是否可以得到著作权法的认可?
用户使用AIGC生成物:除了ChatGPT以外,现在还有包括图形类、音乐类的AIGC产品,在AI完成“创作”之后,用户/使用者可以进一步对其生成物进行调整,这部分的人工干预的部分如何得到著作权法的认可?
由于上述人工智能存在的人工干预部分,因此存在着这部分人工创造以著作权法进行保护的讨论必要性,目前包括中国和美国都通过司法或者行政命令的方式在进行着这方面的探索:
1. 中国
对于AIGC生成物是否构成著作权法下的作品,中国法院存在下述两种截然相反的司法认定结论:北知案件中,法院认为,AI生成的文章不是自然人创作的,不构成有著作权的作品;在深圳南山案件中,法院认为,涉案AI生成文章产生的过程中,存在人工干预,构成有著作权的作品。
深圳南山案件的法院逻辑下,法官认为:涉案文章由原告深圳腾讯公司主创团队人员运用Dreamwriter软件生成,主创团队在数据输入、触发条件设定、模板和语料风格的取舍方面的安排与选择,属于与涉案文章的特定表现形式之间具有直接联系的智力活动,该文章的表现形式是由原告主创团队相关人员个性化的安排与选择所决定的,因此,涉案作品具有一定独创性,属于中国著作权法所保护的文字作品。也就是说,在该案中法院认定的AIGC生成物,并不是完全脱离了人类智力活动、纯粹由人工智能生成的文字内容,不是人工智能自主创造完成的,而仅仅是一种由人工智能辅助完成的人类智力活动成果。在这个意义上看,有人工智能参与形成的产物当然是可以受到著作权法保护的[4]。
当然我们理解,深圳南山案件中,法院对AIGC生成物的理解不仅包括了最终的生成文章,甚至包括了其前期训练过程,而使得在算法训练工程中的人工干预如果加入到生成物的著作权考量因素中,很难将人工干预从AIGC生成物中进行彻底排除,从而AIGC生成物将全方位获得著作权法保护。
笔者认为首先应当将AIGC生成物的人工干预过程与AIGC训练过程中的人工干预相分离,针对AI与用户互动、用户提供prompt,AI进行产生的内容、用户需要在AIGC生成内容后再行编辑调整的内容中人工干预的部分,需要给予著作权法上的肯定,而针对AIGC训练过程中的人工干预的部分可以通过其他权利/权益进行保护,除非训练过程中的确产生了人工训练员的创造性劳动,例如通过打标签等方式对大量数据进行了有独创性的整理、编辑,进而可以构成汇编作品。
2. 美国
目前除了中国以外其他大部分国家也都认为著作权应当是给予自然人完成创作后的作品的独占性权利,但近期通过美国版权局的答复,我们看到了美国在寻找方式对AIGC生成物给予一定形式的保护的努力,以及认定方式上的变化。
在美国版权局在Zarya of the Dawn图片的版权注册回复中,给予了作者Kristina Kashtanova有限版权的注册,对其自行进行的文字、视觉元素的协调和编排部分的部分注册了版权,但人工智能完成的部分未予以版权注册。美国版权局所尝试的“有限版权注册”或许可以判断人工智能如果仅是辅助完成创作时,对人类完成部分的著作权保护方式。但即使是“有限版权注册”的方式,未来也需要继续探索具体的保护范围以及保护界限划分点,同时还有新闻表示,美国版权局正在制定指南,用于注册部分使用人工智能生成的材料创作的作品[5]。
我们将继续关注各个国家对AIGC生成物的著作权法保护的尝试,期待可以早日找到AIGC生成物的权益保护与现行法律冲突的解决方案。
而目前囿于各个国家的法律基本上不认可AIGC生成物的可版权性,因此AIGC产品平台针对其AIGC生成物的知识产权归属通常是通过用户协议的方式进行明确的:
针对以上述各平台为例的类似用户协议中的知识产权归属(包括知识产权在内的输出物的所有权利/权益)约定,笔者认为,在这些用户协议不会因为构成格式合同而无效的前提下,基于意思自治原则,即使AIGC生成物不具有知识产权,但仍应当作为“数据”受到保护,此时这些“数据”的使用方式、使用范围、使用权利同样应当适用用户协议中的相关约定。因此在我国AIGC生成物是否具有著作权尚不明确的情况下,建议各家AIGC公司优化用户协议中针对AIGC生成物的知识产权、数据的归属条款约定。
脚注
[1]图灵测试(英语:Turing test)是英国电脑科学家艾伦·图灵于1950年提出的思想实验,目的是测试机器能否表现出与人一样的智力水准。测试时测试者透过电脑键盘输入文本并透过屏幕输出文本。
[2] 模式匹配是数据结构中字符串的一种基本运算,给定一个子串,要求在某个字符串中找出与该子串相同的所有子串,这就是模式匹配。也就是给定一个词,然后可以调取一个已经设置好的预案。例如现在很多的银行、电商平台的客服机器人都是基于模式匹配完成的问题回复,问它一个订单的退货方式,他可以发出预设好的退货方式的介绍。
[3]在著作权法项下探讨任何创作形式的“可版权性”,前提一定是其具有“独创性”,不能是简单机械的复制、拍摄等的结果。当然目前AIGC生成的无论诗歌、图片、音乐,甚至是短小的视频都已经与人类完成的具有独创性的作品无异,因此我们探讨的前提是这部分具有独创性的AIGC生成物。
[4]该案件的认定逻辑也得到了最高院的支持,以及将其在WIPO会议上进行了说明。最高院法官在WIPO的发言稿:https://www.wipo.int/export/sites/www/about-ip/en/artificial_intelligence/conversation_ip_ai/pdf/ms_china_1_zh.pdf
[5]https://news.bloomberglaw.com/ip-law/ai-comic-art-dispute-leaves-copyright-protections-open-ended
作者:时萧楠 《互联网法律评论》特约专家、植德律师事务所合伙人
【免责声明】此文仅代表作者个人观点,与本平台无关。本平台对文中陈述、观点判断保持中立,不对所包含内容的准确性、完整性或可靠性提供任何明示或暗示的保证。
本文来自微信公众号“Internet Law Review”(ID:Internet-law-review),作者:时萧楠,36氪经授权发布。