OpenAI微软被诉侵权，大模型时代下的版权风险

作者：蓝鲸财经发布时间：2023-12-26

文｜新火种小岩

编辑｜彩云

最近，OpenAI在自己的产品研发上开足马力，与Google的大模型之战进行得如火如荼。不过，令人颇感意外的是，此时的OpenAI竟然成为了被告，被投诉侵权，并且还连带着它背后的大股东微软一起。

多名普利策奖得主起诉 OpenAI与微软：滥用自己作品训练大模型。

根据路透社消息，当地时间12月21日，共计11位非虚构类书籍的作者在曼哈顿联邦法院提起诉讼，指控OpenAI 和微软滥用自己所著的书籍来训练ChatGPT以及其他AI 软件背后的大模型。

值得一提的是，这些作家包括普利策奖获得者凯.伯德；泰勒.布兰奇；史黛西.希夫。他们曾共同撰写奥本海默传记《美国的普罗米修斯》,这部作品在今年被改编成了大热电影《奥本海默》。

这些作家们声称，OpenAI和微软未经允许使用他们的作品来训练OpenAI的GPT大型语言模型（LLMs），这样的行为无疑是在“刮取”作家们的作品和其他受版权保护的材料。这种未经授权使用他人作品的行为构成了版权侵权。他们希望获得经济赔偿，并要求这些公司停止侵犯作家们的版权。

此次作家在曼哈顿联邦法院提起的诉讼可以看作是先前讼事件的延续和进展。早在11月份，作家和编辑朱利安·桑克顿就曾提起诉讼，也正因此，微软首次被列为OpenAI诉讼的被告。我们知道，微软已经向OpenAI投资了数十亿美元，并将微软系统整合到OpenAI的产品中去。在作家们的眼中，这意味着微软已经深度参与了训练和开发人工智能模型的研发，对于自己版权被侵权的行为是有责任的。而在今年早些的6月和7月，包括喜剧演员莎拉.西尔弗曼在内的3个人也分别针对ChatGPT的训练数据问题发起了类似的集体诉讼，起诉OpenAI和Meta侵权。

显然，OpenAI被控诉侵权的事件，并非个例。

这些作家普遍持有一种观点，认为ChatGPT不可能具有总结和分析这些作者内容的能力。所以，所谓“ChatGPT的输出”，实际上是对原作品侵权而产生的衍生作品。通过非法使用这些作品训练其GPT语言模型，OpenAI获得了利益和利润，这样是不合法的。此外，诉讼中提及，OpenAI明知训练数据中包含受版权保护内容，其行为有违使用条款，属于故意侵权。诉讼要求法院禁止OpenAI进行这种“非法商业行为”，同时判决OpenAI须就侵权行为支付相关赔偿和处罚。

目前，OpenAI和微软还没有对于这些诉讼给出回应。

AI大模型时代开启，但背后潜藏的版权问题却悬而未决。

OpenAI是否要为侵权负责，这一点我们还不得而知，仍旧需要等待法院的判决。但有一点需要引起我们的注意和警惕：AI大模型时代已然来临，但其中可能涉及到的版权问题却悬而未决。

AIGC大模型的快速崛起，的确在重塑内容行业创作逻辑，赋能人们工作生活的方面起到了极大的影响，可与此同时，也在版权制度层面引发了一系列新的挑战。大模型训练阶段究竟涉及哪些版权利用行为？这一过程可能存在哪些侵权风险？又该如何从产业发展的角度搭建科学的大模型训练和豁免机？这些都是应该被提上日程的重要议题。这些问题如果不能得到有效的解决，那么大模型产业的发展和技术的进步都会面临很大的不确定性。

目前各类生成式人工智能利用海量内容数据进行模型训练的方法大致可以分为“两步走”：第一步是通过购买数据库，公开爬取等方式获得海量内容数据，进行一定形式的转换之后，存储在相关服务器之中。第二步是对内容数据进行分析处理，以发现一定的模式，趋势以及相关性并转变为大模型参数，供后续内容生成时调取使用。而“调取内容”的过程，势必会涉及到版权问题。

需要说明的是，当我们谈及版权问题时，只会单纯的考虑AI公司是侵权了，还是没有侵权。但如果我们把这个问题拆解开，会发现这其中涉及到的，是3个行为：即作品获取，作品存储和作品分析。目前，整体来看，只有“作品存储”行为可以纳入版权法“复制权”规制范畴，而更为核心的“作品分析”行为能否受到版权法规制仍值得探讨。据不完全统计，自2022年11月至2023年10月，仅美国加州北区法院就已经受理了10起侵权案件，版权人所起诉的AI机构包括Stability AI，OpenAI，Meta，Alphabet等公司。

版权问题尚未解决，其实是“传统版权模式”在AI时代的失灵，乃至失效。

版权问题历来是我们关注的重心，尽管各式各样的侵权事件时有发生，但在传统版权模式控制之下，版权保护的问题始终有迹可循。但如今，AI时代来临，传统的“授权许可模式”似乎在失灵，乃至失效。

因为大模型领域的授权基础并不明确，它究竟要被授予版权法上的哪一种权利，这值得商榷。按照表面来理解，大模型训练行为是对作品的“思考吸收再创作”，但这显然无法和版权的专有权利对应。换句话说，版权人想要发现和举证模型侵权的问题，也十分困难。

其次，大模型训练涉及的作品数量众多，来源各异，权属不同。如果这些作品都按照传统授权的“实现许可”的方式寻求授权，工作量显然是巨大的。一方面，需要精准地将受保护的作品从海量数据中进行分离和提取；另一方面，还要找到每一部版权作品对应的权利人与之协商授权，并支付价格不一的授权费用。这一过程极其漫长复杂，且极难落地操作。

AI版权问题悬而未决，但不意味着大家对此没有任何的讨论和建议，只不过这讨论所呈现出来的观点也是多种多样的。有人认为，我们应该为信息技术和商业模式的演进，预留出一定的“复制自由”。但也有人认为，高科技产业不能成为“法外之地”，“避风港制度”不应该出现。

版权问题要如何适配全新崛起的AI大模型赛道？或许，只有实际中出现的问题能推进解决方案的出现。当AI发展的体量足够大，所产生的版权问题足够多时，相应的答案就会应运而生了。