目前,我国生成式人工智能技术创新、产品开发与应用还处在早期阶段。虽然日常生活场景领域出现了譬如AI复活、AI音乐等,但也由于生成式人工智能训练中的数据瑕疵、数据滥用等问题,给数据安全保护和有序开发开放及流通带来了巨大挑战。
数据训练是保证人工智能应用高质量落地的核心。随着生成式人工智能大模型产品的广泛应用,数据训练过程关涉到用户基本数据、各主体行为轨迹及多元主体复杂的权益变动,这可能对市场竞争、企业创新甚或国家安全产生负面影响。
由此,需确保数据来源的合法性,提升数据质量的可信度,遵循“数据来源合法—数据质量可信—数据价值释放”的基本要求对标数据训练的不同阶段。在数据计算与应用阶段,应注意深度合成技术带来的训练数据污染和运行数据异常;在数据开放和共享阶段,应全面准确审视个人信息保护和知识产权侵权风险,遵循科技发展的规律,平衡技术可及性、实践可行性以及价值正当性之间的关系,在夯实安全发展的基础上为创新发展预留空间。生成式人工智能数据训练应在优化协同监管架构及方法的同时,促进创新发展,兼顾多元主体的正当权益。
以安全为底线,健全制度规则及标准
法律法规的制定不仅要注重科技发展的规律,还应当在夯实安全发展的基础上为创新发展预留空间。对生成式人工智能数据训练的治理不能固守以往惯用的数据控制安全保护模式,仅仅把住数据的闸口,而是应当以安全为底线,健全制度规则,在最大范围内提升数据使用的自由度,避免对合理的数据采集、获取行为施加不必要的限制,但对篡改、编造、非法储存、滥用数据以及恶意植入数据偏见等行为要加以规制。
第一,加快完善数据格式等标准体系,在降低数据流通使用成本的同时,更好保障数据流通安全。为更好地规范生成式人工智能数据训练,需要根据数据作为生产要素的特点,从数据定价、数据爬取、数据反垄断、数据流通技术保障等方面配置实现数据社会价值的新型产权规则。数据权利配置不是对数据控制的保护,而是旨在保护数据加工使用和流通利用之利益,以实现数据社会化流通利用为目标,促进数据等语料库的有效流通使用。因此,各业务系统需要依据国标、行标、企业内部数据标准等,在业务系统建设时准确落标,明确责任,保证数据质量实现全过程的管理。
第二,合理制定数据训练中知识产权利益分配规则,实现高质量语料跨平台调取和使用,依法依规避免侵权风险。科技的高速发展与迭代带来了语料库海量数据的累积与实时的数据更新,我国与人工智能、数据相关的法律制度主要有《民法典》《著作权法》《数据安全法》《个人信息保护法》以及《生成式人工智能服务管理暂行办法》,在此基础上需要继续完善相关的法律制度,在知识产权保护层面,还需要针对生成式人工智能数据训练形成体系化的法律规定,建构起贯穿数据训练全周期的保护体系。
第三,提升数据标注水平及人才培养,做好数据事前审查,有效保障生成式人工智能的高质量、高效率输出。《中国AIGC数据标注产业全景报告(2023)》显示,我国数据标注服务贯穿大模型全生命周期,数据标注朝着知识密集型转移,上下游合作关系紧密耦合,而且标注人才缺口较大。为此,在规范生成式人工智能数据训练,提升数据事前审查水平,注重数据标注的客观化的同时,还应加快培养高水平复合型数字人才,为生成式人工智能的高质量发展提供人才保障。
以规范为基线,优化协同监管架构及方法
规范是生成式人工智能数据训练的治理基线,发展是生成式人工智能数据训练的治理目标。社会结构中的不同治理主体应基于不同的价值追求和思维导向构建并优化生成式人工智能数据训练监管框架。当前生成式人工智能数据训练需在健康规范的秩序下开展,在法治框架下由多方主体协同合作促进其规范发展。政府、产业界和学术界在规范生成式人工智能开发和使用方面都扮演着至关重要的角色,生成式人工智能服务的提供者、相关行业组织以及中央和地方各级主管部门都应依法维护生成式人工智能的规范发展。
从政府层面出发,政府部门一方面应积极制定数据安全标准,确定违规行为。制定明确的数据安全标准是确保生成式人工智能系统的安全性的关键步骤,这些标准应该包括数据采集、存储、传输和处理的最佳实践,以及数据验证和过滤的要求。政府在制定数据安全标准方面应发挥领导作用,确保标准的制定具有权威性和可强制执行性。另一方面,政府还需要确保已制定的法律法规能够得到严格执行。《数据安全法》《个人信息保护法》《生成式人工智能服务管理暂行办法》等法律法规是维护生成式人工智能数据训练高效合规的主要规范。执法部门应以这些规范为治理基线,明确判断数据污染、恶意攻击以及其他危害AI系统和用户的行为是否违法,对违法行为依法处罚,切实将执法必严、违法必究落地落实。
从产业界和学术界的层间出发,产业界和学术界应该与政府部门加强合作,共同探索科学合理的监管边界。生成式人工智能加速和深化了跨部门的数据共享、流程再造和业务联动,面对数据训练运行场景的多维性、商业模式的多样性及行为的复杂性,全能政府思维下单一的强监管模式,难以适应生成式人工智能的发展趋势,甚至会遏制生成式人工智能产业的创新发展。因此,需要产业界和学术界进行优势整合,并与政府协同合作,共同助力生成式人工智能的数据训练。
通过政府、产业界和学术界的合作成立专业的数据治理机构,进行全面的数据治理,制定可行的数据管理制度及运营规则,创新数据安全监测预警技术,综合运用非现场、物联感知、穿透式等新型监管手段,形成具有实际效果的数据合规监管体系,为生成式人工智能的开发和使用提供良好的法治环境。同时,完善数据质量监测模型、健全数据备案制度和危机管理机制,对数据违规行为依法处理。
以发展为主线,兼顾多元主体正当权益
近年来,生成式人工智能不断进行颠覆式创新,在知识、技术与应用层面的发展势如破竹。在积极推进生成式人工智能数据训练创新发展的同时,应坚持科技以人为本,在科技创新活动中权衡效率与安全、利益与风险的价值冲突,兼顾维护多元主体权益。
第一,坚持以人为本,恪守生成式人工智能数据训练服务于人的需要。作为数据主体、决策主体、劳动主体的数据用户,在享受智慧便捷的数字生活中逐渐丧失了自主选择权。因此,应坚持科技以人为本的理念,维护数据用户的自主选择权,这是生成式人工智能数据训练治理的基本导向。
第二,坚持公平公正,避免生成式人工智能数据训练中的偏见、歧视或隐私侵权等问题。生成式人工智能始终是人类设计和控制的产品,尽管其数据训练过程已经从简单的计算演进为机器自学习编码,但其依然不具备自主自为性。基于此,在部署生成式人工智能数据训练时,要提高其透明性和可解释性,特别要尊重用户的隐私权、自决权等人格权利,保障用户的算法解释权充分实现,让用户知道生成式人工智能是如何收集和使用他们的数据的,以及用户应如何控制和保护自己的数据。在评估生成式人工智能数据训练时,要考虑其对不同群体和利益相关者的影响,并及时纠正或改进数据训练中存在的问题或缺陷。
第三,坚持公开透明,提高生成式人工智能数据训练行为的可解释性。生成式人工智能数据训练的提供方与接受方在信息和技术上处于明显的不对等地位,用户无法了解数据训练的运行规则,其中难免存在对接受方不公平的因素。自主学习与自我迭代使生成式人工智能数据训练成为难以解释的技术黑箱,由此引发问责的伦理难题。因此,应通过数据备案、数据风险评估、数据审查等方式使数据训练透明可释。
第四,坚持开放包容,加强生成式人工智能数据训练过程及产业的国际合作。目前,各国针对生成式人工智能数据训练仍未制定单独的成文法,生成式人工智能的跨国性意味着国际合作至关重要,基于制度衔接与法律秩序稳定性的考量,我国可以借鉴域外对文本与数据挖掘技术的法律规制。各国应加强数据训练协同合作,通过制定国际标准和协议,更好地应对生成式人工智能数据训练风险。
对生成式人工智能数据训练的治理是一项复杂且长期的工程。《生成式人工智能服务管理暂行办法》作为我国在新兴领域的立法成果,体现了我国对新技术新应用规制的持续推进。《生成式人工智能服务管理暂行办法》第七条虽然为生成式人工智能服务提供者数据训练指引了方向,但是仍存在制度设计上的不足,这就需要进一步明确生成式人工智能数据训练的定位、定向与定则,夯实基本原则,健全相关制度规则及标准,优化协同监管架构及方法,兼顾多元主体的正当权益,为生成式人工智能数据训练提供可靠可信可行的法治保障,着实有效提升生成式人工智能创新发展的质量。
(陈兵系南开大学竞争法研究中心主任、法学院副院长,傅小鸥系南开大学竞争法研究中心研究助理)