出品 | 搜狐科技
作者 | 潘琭玙
编辑 | 杨锦
“界定剽窃的唯一标准是生成后新信息的含量。” 2月16日,清华大学人工智能国际治理研究院副院长梁正教授在搜狐科技《AI十二谈》节目中,隔空回应了乔姆斯基教授提出的观点——“ChatGPT本质是高科技剽窃”。
围绕着“ChatGPT是否是高科技剽窃”的话题,梁正在直播间分享了他对于AI侵权界定、AI著作权以及AI在学术界应用的看法。
ChatGPT即生成式预训练转换器,基于预训练的大模型,能够通过通用的大模型解决文字、图形、图像等不同场景的问题。但基于大量的数据训练,以他人的内容作为原始数据提供答案,也意味着有侵权风险。针对此,梁正认为评判是否侵权需要回到监管本质上,评估主观故意的可能性以及客观上内容的重合性。
据学术期刊《自然》指出,已经有至少4篇学术论文将ChatGPT列为作者之一。但《自然》和《科学》期刊主编马格达莱娜·斯基普认为:“作者身份的归属感代表了对工作的责任。但这类大型语言模型,并不能意识到这一点。”
针对AI能否拥有著作权的问题,梁正教授在对谈中表示,现阶段法律上基本假定人是创意的来源,“我们现在不承认机器或是非生命体有著作权。”
论及著作权属于创作者还是AI开发者,梁正指出,“著作权的基本意图是为了繁荣创意和创作”,如何界定权利归属将直接影响创作者与开发者的积极性。
“基本上各国的著作权法律都提及,制订这样的法律,基本意图是为了繁荣创意和创作,激励创作者,这个创作者是人,基本假定人是创意的来源。”梁正说。
今年2月斯坦福大学学者发表的论文证明,GPT-3之后的AI模型同理心能力可能跟9岁小孩相当,意味着它或许也拥有创新能力。对此梁正直言,讨论AI是否拥有创造力是人类优越感(在作祟),而目前AI已能够发现人类没有发现的客观知识,“应该说是有创造的。”
破圈之后,ChatGPT写出了美国北密歇根大学哲学教授认为的“全班最好的论文”。因过于强大的信息处理能力,遭到学术圈“封杀”。梁正也表示,因语料丰富,ChatGPT在社科人文领域会有高质量的内容输出,人工智能将挑战现有的教育模式,“未来更应该考虑教育模式怎么去激发创造。”
以下为搜狐科技与梁正教授的对话精编:
一、ChatGPT类AI生成工具属于高科技剽窃吗?
搜狐科技:前不久国际知名的大语言学家乔姆斯基教授谈到ChatGPT时,称“ChatGPT本质上是高科技剽窃”。您认同这个说法吗?
梁正:我们要从不同角度去看,某种程度来看ChatGPT确实是一个新的技术手段使用人类已有的知识信息,但其生成的内容是否都能界定为剽窃,我个人还是持保留意见,要看内容生成的创新性,这是根本的判定标准。
我们对于什么叫做“新”应该有判断。ChatGPT这类生成式AI的工作机制是在学习语料信息后,发现其中的关联关系,甚至是之前没有被发现的关联关系,生成新的内容。所以界定是不是剽窃的唯一标准应当是生成后新信息的含量。
搜狐科技:这意味着新信息的含量不够可能会被判定侵权,那么侵权的是使用者还是技术的提供平台呢?
梁正:对于侵权的认定,回到监管本质上,是不是主观故意是非常重要的。如果目标就是为了剽窃,但是没有做明确的标识,这个肯定是条件之一。但生成式AI出现,带来的复杂问题是它并非主观侵犯权利,但是确实使用了已有的创作内容。因此,如果使用者只作为工具使用,对于ChatGPT的信息来源并不知情,责任或许不应认为归使用者。另外,也需要判断客观上是否生成了具有高度重合性的内容。
搜狐科技:这类工具需要喂大量的数据,那么数据在今天已经是核心的生产要素了,相当于是工业社会的石油,农业社会的土地,全国已经有39家数据交易所成立及获批成立,但是数据到底算谁的目前各界掰扯清楚了吗?
梁正:我认为数据产权不一定要做到100%的明晰,首先数据本身类似知识,可以被重复使用,在物理上是不排它的。另外如果产权明细到具体主体,会带来巨大的交易成本。在产权界定上,还是要考虑我们从数据当中可以获取什么样的价值,我们希望它发挥什么样的作用。目前我们有《个保法》《数据安全法》,欧洲在《通用数据保护条例》中也赋予了数据产生者相应的权利,但目前各国对于数据产权归属问题并没有公认的一致标准。
二、AI能拥有著作权吗?
搜狐科技:我们使用这样的工具生成了一幅画或者一篇文章,我或者工具背后的公司对这些作品拥有著作权吗?能不能用于商业用途?
梁正:有一种观点是我不管工具,只看内容是否有创新性。因为不同国家关于著作权的法律规定当中,新颖性、创造性是构成实体要求的基本条件。
如果你把生成内容的著作权给了使用者,有利于使用者创作优质内容,比如新闻、文学艺术创作。基本上各国的著作权法律都提及制订这样的法律,基本意图是为了繁荣创意和创作,激励创作者,这个创作者是人,基本假定人是创意的来源。
但如果大量内容都界定给使用者,对于优质工具的提供者而言激励不足,也会影响到此类工具开发者的积极性。
我们国家目前的著作权规定能够享有著作权的是自然人、法人、非法人,排除了机器和动物。我们现在不承认机器或是非生命体有著作权。
搜狐科技:阅文旗下的奇点中文网会用自己开发的AI程序写小说,在自己的平台上供用户观看下载,如果训练的时候也是主要使用自己的版权内容,这样自产自销,侵权的概率是否会更小?
梁正:涉及到版权,其实在AIGC这个领域,文本还不是最大的关切,大家之前更多关注图片、艺术创作,到底这个是人类创作,还是AI生成。现在已有公司在内容创作上全部采用机器生成,用内容团队的语料进行专门训练,所有内容的版权包括人类作者的创作都会转让给公司,因而不存在侵权的问题,这个也是在内容创作上未来会出现的商业模式。
搜狐科技:也有人认为AI生成的过程是二次创作的过程,甚至他认为AI是有意识的,现在有一个说法是ChatGPT已经像一个9岁的孩子,有意识就意味着有创作、创新的能力,对这个观点您怎么看?
梁正:不能认为生成式AI所做的工作都是抄袭,这个有点武断了。争论AI是否具有创意、创意是否是人类独有,背后其实是人类优越感。通过语料或者是信息,ChatGPT实际上还是基于人类的反馈机制,即利用了人类的一些创意和知识,但是同时在这么大的数量上去处理是之前没有过的,有了新的发现。像DeepMind的AlphaFold能够预测蛋白质的结构,可以发现人类没有发现的客观知识,应该说是有创造的。
搜狐科技:您相信AI有自主意识吗?
梁正:这个又涉及到如何理解意识。目前来讲,我们觉得意识只有人类独有,但有可能只是因为模型还不够大。当人工智能拥有一个世界知识,有更大的量级,甚至背后得到量子计算的支撑,意识可能会涌现出来。从逻辑上讲不能证伪未来没有这种可能。就ChatGPT而言,现在看不到这是意识,因为它背后的训练和学习机制还是非常清楚的。
三、AI对学术界的冲击
搜狐科技:在您研究的人工智能治理、公共政策领域,您觉得ChatGPT生成的内容具有建设性和参考性吗?
梁正:目前有两种观点,一种是认为ChatGPT出来以后,人文社科领域的很多论文都没有必要看了,因为它写的论文很像人写的。ChatGPT生成是因为它有语料,什么是文科,文科本身最重要的研究工具就是文字,研究成果也体现为文字的组合。因为语料丰富,所以作为社会科学、人文科学这方面,ChatGPT学习产生的内容看起来比较像模像样。
但是另外一方面我觉得作为专业研究来看,恰恰是人文社会科学,背后的思想,创新性的观点和认识这种是它很难通过训练模拟出来的。我反倒觉得AIGC用到自然科学这样的事实性领域去做科学发现,说不定效果会更好。但是在我们科研领域的日常写作中,如果不强调做综述训练,它可以解放大量的文书工作。
搜狐科技:目前我们研究生的这些作业会要求创造性吗?如果不要求的话,AI能满足吗?
梁正:实际上我们过去在大学研究生教育有一个很重要的能力就是提炼,抽象,总结,归纳,所以我们很多课上就是要求你要完成一个文献综述,并不要求你有创新的观点,而是看你是不是读了文献,这个问题其实在于科研的诚信。
对于学术研究而言,即然我们已经知道有先进的工具可以解决问题,为什么还要学高等数学?因为学习就是让我们获取认知的能力,了解知识背后的逻辑。但如果你是一个成熟的科研工作者,需要去做综述来找到真正有用的文献,我觉得ChatGPT是一个很好的工具,特别是加上引用的来源之后,就像我们常用的文献索引工具Endnote一样,对我们是很大的帮助。
搜狐科技:在我们现在的教育机制下,人工智能对学术领域的冲击大吗?
梁正:人工智能对我们现有的教育模式是很大的挑战,确实要高度重视。我们过去的教育强调记忆、归纳,强调基于现有素材分析整理,这些能力是你推理创造能力的基础。但未来更应该考虑教育模式怎么去激发创造,激发创意,激发对这种新的想法的探索和实践。