[ 相关资料显示,GPT-3训练一次的费用是460万美元,总训练成本达1200万美元。 ]
近年来,随着人工智能算法不断迭代升级,尤其是机器学习赋予人工智能强大的学习能力,使其不再局限于只能依据事先指定的模板或者规则,进行简单的内容输出和制作,而是能够根据用户提出的指令即可生成灵活且真实的内容,甚至能够实现高质量的内容创作,这类技术也被称为人工智能生成内容(AIGC)。
近期爆火的ChatGPT就是AIGC的典型代表,该技术是基于语言模型GPT-3.5的聊天机器人,ChatGPT模型使用一种称为人类反馈强化学习(RLHF)的机器学习进行训练,可以模拟对话、回答后续问题、承认错误、挑战不正确的前提并拒绝不适当的请求。虽然,此前不乏能够与人进行互动对话的聊天机器人,但并没有像ChatGPT一样受到广泛关注,是因为与其他聊天机器人相比,ChatGPT具有更强大的功能,借助其核心技术之一“Transformer神经网络架构”,利用从大型文本语料库中所学到的内容,能够生成具有更丰富细节和更长篇幅的内容,可以完成包括写邮件、写代码、写新闻报道以及写论文等多种任务,且任何人都可以轻松地使用,具有开放性、跨领域及通用性的特征,其本身可以构成网络信息技术领域的终端,成为支撑人工智能技术和产业发展的一种关键基础设施。由此,ChatGPT也引发了全球各界的广泛关注甚或担忧。
潜在风险
ChatGPT强大的功能以及较低的使用门槛,打破了人们对人工智能的固有印象,且让人们看到了AIGC技术在多领域应用的巨大潜力。然而,随着ChatGPT爆火掀起新一轮AIGC热潮,也让人们意识到其中潜在的诸如技术垄断、资本扩张、数据滥用、算法歧视、隐私侵权等法律风险,可能对市场竞争、企业创新、消费者福利甚或国家安全产生负面影响。为预防此类技术广泛适用带来的法律风险,需结合ChatGPT的技术特性以及其在不同领域应用的情况,分析存在的法律问题并做好相应对策。
其一,ChatGPT可能存在“技术+资本”的垄断风险。虽然,ChatGPT是由初创公司OpenAI开发,并非出自微软、谷歌等科技巨头,但是,OpenAI创始人表示,ChatGPT的开放成本和运行成本相当高,致使其开发和运维成本非一般初创型企业可以承担。相关资料显示,GPT-3训练一次的费用是460万美元,总训练成本达1200万美元。高昂的成本使得初创公司难以实现独立的开发和运营,必须与科技巨头合作,才能获得运营所需的极其昂贵的数据资源和云计算能力。
在此情况下,OpenAI选择与微软达成合作,得到了微软10亿美元的投资,并专门为微软新必应(New Bing)搜索引擎专门定制了下一代大型语言模型。这在很大程度上预示着该领域市场在未来存在着被微软、谷歌等科技巨头垄断数据、算法及技术要素资源的风险,因为初创企业在该领域难以独立生存,而科技巨头可凭借其拥有的数据、技术、资本、用户等优势,通过收购、签订协议等方式获得初创企业的技术,将其在原有市场的市场力量迅速传导至新的市场,还可能通过实施技术封锁、数据屏蔽等排除限制竞争的行为以维持垄断地位。
其二,ChatGPT可能存在算法偏见。目前,ChatGPT仍存在一定的技术缺陷,其依赖于训练数据中的统计规律,无法在网络上抓取实时信息,也无法识别核实数据来源,易导致算法歧视、滥用现象的出现,因为训练数据受限于数据的种类和内容的不足,使数据集可能存在某种价值偏见,则ChatGPT算法的输出结果可能会产生有害的指引或者有偏见的内容。这种算法偏见产生的负面影响会随着技术的广泛应用不断凸显。
譬如,ChatGPT给予的答复中存在性别歧视和种族歧视的问题,可能会误导使用者将具有歧视性的回答视为“正确答案”而作出错误的决断,从而可能会对社会认知和伦理产生负面影响,甚至涉及国家安全、文化安全的风险。特别是在处理算法包容性的问题上,由于中西文化的根源及演进路径不同,还会涉及对传统文化和现实观照之间的解读、评价及传播的问题,这些都可能会在ChatGPT的大规模语言模型训练中被忽视或者选择性忽略掉,亦有可能被特意地放大。为此,需要通过法律规则和科技伦理规则的融合,以稳妥地处理技术应用与技术规制之间的关系。
其三,ChatGPT可能引发著作权纠纷。ChatGPT作为人工智能技术驱动的自然语言处理工具,它能够通过学习和理解人类的语言来进行对话或写作,并不是简单地从某个模板中选择内容,可以根据使用者提出的问题或者要求,进行内容创作,甚至已有研究者和学生借助ChatGPT撰写论文,由此衍生出了关于著作权的两方面问题亟待解决。一是ChatGPT撰写论文的著作权归属问题,二是研究者使用ChatGPT撰写论文是否构成学术不端的问题。这些问题给学术圈带来了巨大的冲击,也引发了学者们对如何规范使用此类技术的探讨。这方面已经在有的国家和地区的现实反馈中予以体现,譬如,全球学术顶刊《自然》(Nature)杂志一周之内两次发布有关ChatGPT的分析文章,探讨诸如ChatGPT等大型语言模型(LLMs)给学术圈带来的潜在混乱,生成内容存在的潜在侵权,以及如何规范使用等问题。
其四,ChatGPT可能存在数据安全隐患。ChatGPT的运行需要大量数据的支持,其所采用的数据量多达上万亿,主要使用的是公共爬虫数据集和有着超过万亿单词的人类语言数据集。根据ChatGPT和OpenAI官网的《隐私政策》可以看到,用户在使用ChatGPT时,会被采集有关用户访问、使用或互动的信息,相关负责人也表示,ChatGPT会使用每个客户的一小部分数据样本来提高模型性能,用户若不希望数据用于提高性能,需要通过邮件向OpenAI发送申请。这意味着,包含用户隐私以及用户对话的数据可能会被OpenAI采集并存储在其数据中心,随着ChatGPT用户数量暴增,其采集和存储的用户数据量也将非常庞大。
虽然,ChatGPT表示,存储训练和运行模型所需的数据会严格遵守隐私和安全政策,但在未来可能出现的网络攻击和数据爬取等现象下,仍存在不可忽视的数据安全隐患。特别是对涉及国家核心数据、地方和行业重要数据以及个人隐私数据的抓取、处理以及合成使用等过程中的安全保护与流动共享的平衡处置,这不仅涉及数据安全,还涉及国家安全、行业安全及个人安全等。
正视背后问题,未雨绸缪
目前,虽然ChatGPT暂未向中国开放,但如腾讯、百度等众多国内科技巨头纷纷表示将研发类ChatGPT的产品,因此,当前ChatGPT潜在的法律风险在未来也同样可能会在我国出现,因此,必须正视ChatGPT产品爆火背后存在的问题,否则将可能引发对AIGC的信任危机,不利于我国AIGC相关产业的规范持续健康发展。
首先,需要完善AIGC领域的反垄断法监管。一方面,需进一步优化和明确AIGC领域的反垄断法相关监管规则,提高反垄断法律法规在相关应用场景的适用性。为此,仍然需要坚持且完善以替代分析法为主的相关市场界定方法,充分考量AIGC类产品的功能与技术特性,并在认定其市场支配地位的过程中,提高与支持AIGC相关的技术因素、硬件条件、场景因素,尤其是算法、数据、算力等要素优势的考量比重。在判定行为竞争效果时,需权衡行为的积极和消极影响,兼顾激励创新与保护竞争,在评估行为的负面影响的同时,也需考量行为对创新、经济效率以及消费者体验等积极影响。
另一方面,由于传统反垄断法的事后规制存在滞后性和局限性,难以有效应对动态变化和高技术性的AIGC领域的市场垄断问题,因此,有必要分类分级、科学审慎地引入反垄断事前监管方式,通过设置技术、资本、用户等条件,抓住具体要素治理的纲目,明确AIGC领域需承担特殊义务的平台企业,设置行为“红黄绿灯”,聚焦用户、数据、算力、资本等可计量指标,从事前层面规范和约束相关平台企业的行为,预防可能出现的扼杀式经营者集中、算法(垄断)协议以及滥用市场支配地位等反竞争风险。
其次,要健全预防算法歧视的法律法规体系及规制机制。一是要从源头上规范相关技术所使用训练数据样本的非歧视性,要求相关企业及时检查和更新数据库,并移除可能存在歧视性的特定数据内容。二是要建立AIGC技术的算法问责制度,当AIGC生成的歧视性内容对社会以及相关主体的权益产生实质损害时,有必要完善相应的归责体系,明确导致算法歧视的责任主体以及各主体应承担的法律责任。三是要完善算法解释与算法备案制度,提升人工智能算法透明度,并根据AIGC的应用场景对算法进行分级,加强对高风险算法和场景的审查,在可行的范围内使用可理解和可解释的方法,以便用户、监督者和公众酌情了解AIGC如何以及为何产生其输出内容。
再次,要规范AIGC技术在进行内容创作时的行为。一方面,要完善AIGC著作权归属相关规则。根据我国著作权法,人工智能暂不被视为著作权人,但可根据不同主体对生成内容价值的作用大小判定AIGC作品的著作权归属。这一点在司法实践中已有体现,譬如,在腾讯诉网贷之家案中,法院经过审理最终裁定,争诉的作品《午评:沪指小幅上涨0.11%报2671.93点通信运营、石油开采等板块领涨》确系AI所创作,涉及的内容判定为具有独创性,AI生成的作品具有著作权。虽然,AI尚不具有法律上的著作权人资格,但是,AI是由人设计创造,即其拥有者(AI copyright owner)可以享有其作品的相关著作权利,最后法院认定腾讯公司可享有相关信息网络传播权,这是国内首例有关AI作品著作权保护的案件。
进言之,ChatGTP生成内容的价值源于其设计者算法的巧妙设计,则设计者拥有ChatGTP生成著作的权利,工具使用者不得滥用或者非法使用ChatGTP生成内容。若ChatGPT的最终生成内容是经由工具使用者反复调适,输入变量等操作,使生成内容的价值远大于其在一般运行状态下生成的内容,则工具的使用者可以享有著作权。
另一方面,为避免学术不端问题的出现,需要制定AIGC技术在学术写作的使用规范,明确可使用范围和限度,并要求在文中规范标注ChatGPT技术生成的内容;在技术层面,需要基于ChatGPT技术生产内容的逻辑与特征,加强对ChatGPT生成内容的鉴别和识别。
最后,要从制度和技术层面加强AIGC领域的数据安全保护。在制度层面,需要结合AIGC底层技术所需数据的特性和作用,建立健全数据分类分级保护制度,譬如可根据数据主体、数据处理程度、数据权利属性等方面对训练数据集中的进行分类管理,根据数据对于数据权利主体的价值,以及数据一旦遭到篡改、破坏等对数据主体的危害程度进行分级。
在数据分类分级的基础上,建立与数据类型和安全级别相配套的数据保护标准与共享机制,同时,AIGC还涉及数据跨境流通问题,应当在考虑国际通行标准和做法的基础上,制定合理的跨境数据安全执法规则,加强与其他国家和地区规则的衔接,促进跨境执法合作。在技术层面,需要加快推动“隐私计算”技术在AIGC领域的应用,这类技术能够让多个数据拥有者在不暴露数据本身的前提下,通过共享SDK或者开放SDK权限的方式,在进行数据的共享、互通、计算、建模,在确保AIGC能够正常提供服务的同时,保证数据不泄露给其他参与方。
以ChatGPT为代表的AIGC领域具有巨大的发展前景,能够带来更多数字化创新的发展机遇,也已成为未来全球竞争与创新的重点方向,但我们也必须正视ChatGPT爆火背后潜在的法律风险,及时更新、科学完善AIGC领域的相关法律法规,建立健全相关行为规范和伦理指南,用系统观念和法治思维及方法来推动AIGC在我国规范健康持续发展。
(陈兵系南开大学法学院副院长、教授、博导,南开大学竞争法研究中心主任,中国新一代人工智能发展战略研究院特约研究员;林思宇系南开大学法学院博士生)