生成式AI爆火的现在,其背后模型用以训练的信息数据的版权问题一直是人们关注的焦点——到底怎样才算合法的训练数据?是否会在无意间侵犯他人版权?
对此,有外媒称,日本的政府人工智能战略委员会于5月26日提交了一份草案,表示不会强制人工智能训练中使用的数据符合版权法。而日本文部科学(相当于国内教育部)大臣永冈桂子在当地会议上证实了这一消息,称日本的法律不保护AI训练所用资料的版权。
永冈桂子 图源日本“文部科学省”官网
具体在4月24日,日本众议院定居点管理监督委员会第二小组委员会上,日本的一位名叫纪伊隆的议员与永冈桂子进行了直接讨论。
根据纪伊隆在会后整理的问答可以看到,永冈桂子在谈到日本关于使用AI进行信息分析的法律制度(版权法)时,表示“在日本,无论使用何种方法,无论是出于营利或非营利目的,无论用于复制以外的行为,还是从非法网站获得的内容,都可以使用信息分析作品。”
对此,纪伊隆则认为,从权利保护的角度来看,“违背版权所有者意愿使用”这一事实是有问题的,还是有必要制定保护版权所有者的新规定。
此外,两人也谈到了在学校使用ChatGPT等人工智能聊天机器人的教育指导方针。据外媒报道,该技术或工具最早将于2024年3月被日本教育系统采用。对此,永冈桂子并没有给出具体的时间,只是表示会“尽快”回复。
此事引起了极其广泛的讨论。AI三巨头之一,Meta首席科学家杨立昆(Yann LeCun)就发推表示:
日本已经成为机器学习的天堂。
但有网友指责他不应该将“能够窃取知识版权而不受影响”称之为“天堂”,杨立昆则在评论下方回复道:构成知识产权“财产”的本质是由政府定义和执行的。它也受到政府的限制。驱动原则是最大化公共利益,而不是最大化内容所有者的权利。
事实上,围绕AI训练资料是否应得到版权保护这一点,网友们展开了激烈的讨论。有人赞同日本大臣的这一立场,并提出,一批待训练的图像数据一定会经过层层处理,最终转换成为AI模型或者计算机能看懂的数据、代码或其他电子格式。也就是说,模型训练所使用的数据基本上都高度有损,因此,即使在最坏的情况下也只是在用“派生作品”,这当然是合理使用。只有当模型抄袭受版权保护的代码、制作版权图像的图像或者复制书籍,最后再分发输出,这才算是侵权。
对此,马上有人反对:无论是否有损,训练数据都提供了价值。如果各种各样的人没有花时间制作所有最终成为训练数据的东西,那么它训练的模型就不会存在。
还有网友提出,争论版权问题没有意义,人类总是通过研究已经存在、曾经发布过的东西来不断学习进化,所以更重要的是从监管层面讨论如何更便捷合理地使用、分享或组织控制这些“共享信息”。
采写:南都记者杨博雯