当前位置:首页|资讯|生成式AI|Stable Diffusion

【花师小哲】鉴定网络热门(?)AI(15)——Science文章如何看待生成式AI的版权问题

作者:花师小哲-中二发布时间:2023-09-11

(因为我做封面的工具最近在维护,所以先不放封面了)

昨天看到这么一篇新闻:

毕竟关于生成式AI,公众最关注的问题可能就是版权问题了,不过我个人不是很懂版权法,所以一般不参与这方面的讨论

不过前不久Science上一篇文章谈论了,我们就来看看这篇文章的作者是如何看到生成式AI的版权问题的,论文主要讨论的是美国当前政策下的生成式AI,主要以Stable AI及其旗下的Stable Diffusion模型为例来讨论,我也不知道中美的版权法具体差别在哪里(问了下Bard和ChatGPT,应该是有些差别的,但毕竟大模型输出是存在幻觉的,不一定对),单纯阐述作者的观点。感兴趣的可以去看原文。

1.从历史的角度来看

实际上,新技术出现引发的类似的争议和诉讼一直没有停止过,例如有线电视、MP3都曾经被告过侵权,虽然每次都是败诉但最后都扩大了版权的保护范围,作者认为会出现这种现象的原因是因为技术的发展与法律相对滞后之间的矛盾所导致的。

当然,作者这样举例并不能直接类比说生成式AI一定是没问题的,最终还是要具体问题具体分析。

2.版权法的保护范围

这是作者的核心观点,即大众误解了版权法的保护范围是导致争议的一个主要原因。

(美国的)版权法保护的仅仅是作者所贡献的原创表达方式,而不扩展到作品中包含的任何思想、事实、方法,或者作品中普遍存在的元素以及只能以极少方式表达的元素

简单来说,一个摄像师拍摄了一只猫,他只能拥有这张照片的版权,但是无法获得猫的特征的版权,其他人照样可以用各种方式描述猫的特征。他们可以对同一只猫进行绘画、诗歌创作甚至尝试复刻这个摄像师拍摄的照片的环境和猫的姿势。

3.公平使用原则

这是美国对于版权保护的一个重要原则(Bard说中国的对于版权保护的主要原则是“实质性相似”,也不知道对不对),其中一条就是“变革性的使用”,这也是美国目前对Stable Diffusion亮绿灯的主要依据。作者还据此反驳了一些反对意见,这里就不放出来了。

4.来谈谈Stable Diffusion

这是我唯一擅长一点的东西了(所以基本只有这一块我做了点拓展),可是神经网络本身是个黑盒,实际上要讲清楚还是很麻烦的。关于Diffusion的一些知识可以见下面的链接,虽然和本文讨论的东西关系不大。

【花师小哲】当代炼金术(神经网络)前沿(8)——Diffusion

关于Stable Diffusion大众最多的说法当然是“Stable Diffusion是一个拼贴工具”,这种说法对大部分人来说可能确实是个能解释的通的说法,毕竟对于神经网络能获得的最基础的知识就是“神经网络需要大量的数据进行训练”。

不过这个说法的问题很大,某种程度上是把AI拟人化了,甚至是对AI的高估。因为实际上,Stable Diffusion它是不知道“手”是什么东西的,也不知道手是接在胳膊上的,它的做法也不是去识别人体的各部位然后拆解合并,这对现在的AI来说简直是一种奢求。

模型训练的本质还是通过大量的例子获取统计相关性。相关性不一定是因果性,例如我们发现冰淇淋销量随着空调销量的增加而增加,这两者就是有相关关系,而“空调销量增加”不是“冰淇淋销量增加”的原因,而是因为两者有一个共同的原因——天气变热了。

关于这部分仍然是一个争议话题,去学术引擎中搜索“随机鹦鹉”就能找到很多这方面的讨论,目前普遍是认为,虽然现有的模型确实能学到很多抽象的东西,但是还达不到因果性层面。

简单来说,用AI生成图像和预测一个彗星每多少年会造访地球本质上是一样的东西

5.训练数据的问题

关于Stable Diffusion另一个问题就是训练数据了(这里只谈Stable Diffusion,其他一些生成模型用版权数据训练那就是它们的事情了),作者说明Stable Diffusion所使用的数据在合法性上没有任何问题。用户可以自己上传数据微调自己的模型,但那也是用户自己的事情了,使用公众预训练版本一般来说是没有问题的。

另一方面,如果一个形象在训练数据中占比很高,那么生成的图像是很有可能与训练数据高度相似的,但讽刺的是,随着训练数据量和训练数据多样性的提高,这种情况只会越来越少

6.总结

总的来说,作者认为在现有情况下,对于Stable Diffusion侵犯版权的诉讼几乎不可能成功,并用比较科普性质的说法阐明了自己的理由。当然这不意味着生成式AI就能一路畅通无阻了,还是有很多社会问题需要研究的。

7.个人评论

最后说些我自己的体会吧。从Stable Diffusion引发争议开始,我看到了滥用生成式AI的人(例如毫无节制地用ChatGPT在论坛中生成低质量回答的情况)、极端反对生成式AI的人、因为对这件事发表看法而被炎上的人、我身边一些研究生成式AI的朋友收到这次事件的(负面)影响的人等等。

我个人是靠生成式AI(主要是ChatGPT的延伸方向)的研究吃饭的,我能做的就是把“现在AI的研究到底在做什么”告诉大家,然后大家可以据此来发表看法,我个人是不希望人们在对某一事情(几乎)完全不了解的情况下盲目跟风的,这也是做这两个(本系列和神经网络前沿系列)系列的初衷之一



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1