21世纪经济报道记者冯恋阁 见习记者肖潇 实习生林婉娜 赵灿畅 北京、广州报道
AI大模型的版权问题一直是生成式人工智能走向应用无法避免的问题。
就在最近,Sam Altman代表OpenAI交出了一份答卷:版权盾(Copyright Shield)。他在OpenAI第一届开发者大会上做出承诺,如果使用旗下产品ChatGPT的用户面临版权侵权的法律索赔,其公司承诺会介入辩护,并承担法律费用。此前,谷歌、Getty Images、Shutterstock 、Adobe等公司都曾向用户作出过明确的表态,承诺将支付大模型使用所涉版权纠纷的诉讼费用。
人工智能的版权困境下,类似侵权包赔模式可行吗?在规则体系尚未清晰的当下,AI企业如何顺利走向应用?
受访专家认为,在做好前期训练数据合规的情况下,侵权包赔的模式具备一定可行性。21世纪经济报道记者调查发现,除了提供版权包赔承诺,AIGC工具提供商还会通过事前合规、作者分成等方式平复版权风险的市场担忧。
OpenAI为用户“执盾”
根据OpenAI官网,版权盾是公司在系统中内置的版权保护措施的基础上提供的新服务,可以把它理解为软件许可协议中的一种赔偿条款。
具体到实际操作上,上海申伦律师事务所律师夏海龙告诉21记者,假如一家公司用ChatGPT为自己生成了一系列营销文章,当第三方起诉生成文章侵犯版权时,OpenAI可能会为公司提供素材来源、内容生成过程等证据来协助应诉,并承担判定侵权后的赔偿金。
“各大公司采取的‘侵权包赔’模式,在公司已经做好版权保障,比如获得了相关著作权人使用许可的情况下,是合理且可行的。”上海大邦律师事务所高级合伙人、知识产权律师游云庭如此评价道。
不过他也指出,如果著作权人未对训练数据授权的,人工智能公司在面对纠纷时,一方面需要支付侵权赔偿,另一方面还要承担停止侵权的法律责任,换言之,公司需要用未经授权训练素材训练出的结果进行审查,如果有涉嫌侵权的内容,还应该进行删除。
值得注意的是,目前版权盾仅针对ChatGPT Enterprise的用户和开发者平台的使用者,也就是说,公司并不为ChatGPT的过亿普通用户提供赔偿。
此外,21记者发现,类似赔偿条款通常会设定赔偿的上限金额、用户免责的前提条件等,但OpenAI目前没有公布版权盾的更多细节。“版权盾是否属于一种兜底承诺,还要看条款的具体约定。”夏海龙指出。
OpenAI为何要保证侵权包赔?在开发者大会现场,Sam Altman在“开发者请求”中数次提到版权保护这一关键词,可见推出版权盾的主要目的是回应市场担忧。
在Acrolinx最近对世界500 强公司的调查中,有近三分之一的人表示知识产权是他们使用生成式AI的最大担忧。另一项民意调查显示,在1001位受访的软件开发者中,90%的开发者在用AI开发软件时会认真考虑隐私和知识产权问题。
数百万到数十亿条的大模型训练数据多来自网络中抓取的电子书、艺术作品、电子邮件、歌曲,抓取时并未告知原作者,通常也难获得单独授权。因此训练AI和AI生成的数据,往往难以判断版权归属。
在版权成为生成式人工智能技术应用障碍的当下,不难理解,担忧版权侵权和缺乏兜底赔偿,都可能成为企业不选择供应商的理由。对于目前估值上升到800亿美元的OpenAI,回应大模型的核心版权问题,是关键且必要的一步。
AI版权“战火不断”
AI领域中关于版权侵权争议始终存在,检索发现,侵权指控主要分两类:一类诉讼提出作品被用于最初的模型训练,因而每一项AI输出都是侵权衍生品;一类诉讼集中在输出端,认为具体的AI生成作品复制、模仿了原作品的内容和风格。
输入端的训练数据库无疑是版权争议的焦点。据不完全统计,硅谷所处的美国加州地区法院,自2022年至今受理了起码10起关于大模型训练数据的版权起诉。今年9月,包括《权力的游戏》系列丛书的作者George R.R. Martin在内的17名作家向OpenAI发起集体诉讼,指控该公司在未经许可的情况下批量复制原告的作品,并将这些受版权保护的材料用以模型训练和响应。OpenAI等人工智能公司则用“合理使用”的豁免条款来支持自己的正当性。
所谓合理使用,是指美国最高法院确立的一种版权材料使用豁免原则。在侵权诉讼中,法院会考虑使用版权作品的数量、使用的影响等四个要素,并采用“转换性使用”的判定标准,即二次使用能不能为原作带来新的意义、新的美感等。尽管大模型训练是否构成合理使用,美国司法侧没有给出明显倾向,但灵活的认定原则和自由裁量空间或是OpenAI做出承诺的底气。
“在输入端,”游云庭指出,“如果使用了未经授权的素材,训练这一行为就涉嫌侵权,但部分人工智能公司也抗辩,说他们的训练行为使用素材属于合理使用,具体各国法律规定不同,所以还要让子弹飞一会儿,看看各国法院最终怎么判。”
而在输出端,也有多起版权诉讼剑指AI公司。比如今年年初,媒体报道美国三位视觉艺术家对Stability AI、Midjourney、DeviantArt三家AIGC商业应用公司提起集体诉讼,认为AI作图软件以他们的风格创建人工智能生成的图像,这些副本属于未经授权的衍生作品,侵犯其著作权。
夏海龙指出:“著作权侵权的判定要件之一是构成实质性相似。”在他看来,在使用他人的作品作为源素材的情况下,AI大模型输出端可能会产生两种结果——生成内容与其他权利作品构成实质性相似,法律上即可认定构成侵权;生成作品与源素材不构成实质性相似。“在这种情况下,权利人很难取证自己的作品是否被用作大模型素材,从法律上看,若权利人无证据则无法证明行为人侵权或行为不合理。”夏海龙指出。
游云庭认为,针对AI输出端的版权问题,“题眼”在于获得版权人授权。“如果人工智能的训练素材经过授权的,那么生成的作品版权风险就会比较小,至少不会侵权相应素材的著作权人。”
多举措应对“达摩克里斯之剑”
围绕人工智能产生的版权问题暂时没有明确的版权规定和权责划定,对簿公堂的案件也暂未迎来太多结果,诉讼这一“达摩克里斯之剑”悬在头顶,AIGC的应用成为一个尴尬的问题。
作为扩大商业市场的重要一步,侵权包赔承诺似乎已经成为人工智能公司“武器库”里的必备工具。在OpenAI之前,谷歌、微软、亚马逊、Getty Images、Shutterstock 、Adobe 等都曾向企业级用户作出过明确的表态——遇到问题,平台买单。
以微软为例,其承诺称第三方因使用微软的 Copilot 或其生成的输出而对商业客户提起版权侵权诉讼,只要客户使用了内置的安全防护和内容过滤器,微软将为客户辩护并支付任何不利判决或和解的金额。
在更垂直的领域,提供AI图像生成的公司也做出了侵权包赔的承诺。Photoshop的母公司Adobe于今年6月正式推出了Firefly(萤火虫)企业版,其数字媒体副总裁Claude Alexandre公开表示,企业用户若因使用Firefly生成内容而遭受任何法律诉讼,Adobe将赔偿损失并承担所有责任。商业图库网站Shutterstock也采用了类似做法,希望让客户免于版权纠纷困扰。
除了提供版权包赔承诺,AIGC工具提供商在探索更多机制以应对法律不确定性,回应商业市场的担忧。一些公司选择在训练伊始就强调合规,另外一些公司则表示向愿意将自己的作品用于AI模型训练的创作者提供经济报酬。
Adobe和Shutterstock从初始数据输入环节便具有较强的合规意识。作为美国知名图片库和编辑工具供应商,截至2023年3月,版权素材库中有超过4.44亿图片。而针对旗下AI应用Firefly的训练素材,Adobe官方表示,该生成式AI的训练数据集均来自公开许可的作品和版权已过期的公共领域内容。
在经济报酬方面,Shutterstock就曾推出收入分成补偿模型,提供训练数据的作者能凭借IP和贡献量提供补偿,并共享AI生成内容的未来收入。不过补偿金额和分配机制没有披露。
国内公司对AI版权担忧的回应,大致也遵循了补偿、分成的思路。
比如原创社区LOFTER推出的AI“头像生成器”功能就引发了侵权争议,事后LOFTER强调该功能无盈利目的,且表示“未使用LOFTER用户的作品,如确有侵犯,每张照片将赔偿原作者一万元。”而后视觉中国也上线对版权图片进行二次创作的AI创意工具,在上架初期就早早声明了原版权作者能获得分成收益。
对于没有素材版权优势的AIGC企业,如何发掘商业模式回应版权担忧,又如何保证AI训练数据、输出内容的版权合规性,目前依然没有出现清晰的方案。
就此次OpenAI发布的侵权盾工具及类似举措,夏海龙坦言,从侵权责任法的角度看,假如某一软件存在侵权,侵权责任本应由侵权软件的制作者、销售者、提供者承担。但具体到形式多样的人工智能服务上,则需要根据服务的具体形态来判断。“关键还是要看用户在内容生成过程中的参与情况,如果用户能够通过自行上传素材的方式来决定生成内容,平台的责任相对就会相对减小。”他指出。
更多内容请下载21财经APP