论坛现场,南都数字经济治理研究中心向首批专家顾问发放聘书。
姜伟
张平
刘明
回顾2023年,大模型和数据要素是绕不开的关键词。如今,一边“百模大战”仍在继续;另一边训练大模型离不开高质量数据的支撑,大模型走向多模态发展的同时,更多新型数据需求不断涌现。随着生成式人工智能(以下简称“生成式AI”)等新技术的应用与发展,数据在流通使用的过程中面临新的问题和挑战:如何应对生成式AI发展对数据安全、信息权利带来的风险?
12月19日下午,第七届啄木鸟数据治理论坛在京召开。此次论坛由南方都市报数字经济治理研究中心联合中国政法大学数据法治研究院举办,主题为“数据为本,AI向善”,来自AI产研一线的嘉宾,从多维度碰撞智慧火花,为AI治理合规发展建言献策。
值得一提的是,南都数字经济治理研究中心现场向首批专家顾问发放聘书,本次受聘的12位专家顾问来自学界、法律界、企业界、技术机构等,通过建立专家顾问团队,搭建起学界、业界间常态化沟通的桥梁,今后将为南都数字经济治理研究提供智力支持、专业支撑等。
圆桌对话
AI治理强调多元共治多方合作探索 专家呼吁留出创新空间
生成式AI的发展非常依赖数据质量——因为只有高质量的数据才能够让大模型训练出高质量的内容。可以说,优质数据是未来大模型的核心竞争力。但是数据从哪里来、高质量的中文语料数据稀缺难题,怎么破?
腾讯机器学习平台部专家工程师姚军认为,当前大模型处理数据的范式,对高精度高密度的人类知识框架进行融合缺乏有效办法,业界正在探索各种大模型的知识增强有效办法,如当下通过搜索增强生成技术强化知识库应用,也在探索通过的数据增强技术反哺AI训练的可行性,这些尝试均将加速大模型在产业端的大规模落地。
生成式AI的训练基于海量数据,其中包含了大量涉及知识产权的内容。“新技术浪潮下,传统知识产权的制度变不变、变多少,是核心真问题。”中国科学院大学知识产权学院副教授、中国科技法学会人工智能法专委会执行主任刘朝认为,眼下要耐心给整个社会以制度创新的空间。在她看来,“新技术新业态背景下的AI治理,之所以强调多元共治和多方合作探索,就是希望全社会耐心地给各类主体以足够的包容和空间,希望催生自下而上的新商业模式新制度。”
清华大学智库中心助理研究员、智能法治研究院院长助理刘云认为,提升透明度是彰显人工智能技术安全可控的试金石。谈及AI合规监管的必要性,他表示:“很多科技创新过程中的教训提醒我们,合规制度后置有可能会导致整个前期投资打水漂。”在AI领域目前这个发展阶段,透明度监管对于企业展示自己合规信心是很重要的方式,对助推企业内部的技术进步也能产生很好的自驱力。
至于AI合规水位高低怎么定?对外经济贸易大学数字经济与法律创新研究中心主任张欣认为,在未知AI能力边界的情况下,意味着AI风险的边界也未知。国内在借鉴全球AI监管制度举措的同时,应以动态平衡的视角看待AI企业的合规进程。尽管短期内,因为条件约束可能无法采用最佳合规实践,但从长远来看,仍然应该取法乎上。
大咖分享
姜伟 数据权分置从政策转为权利待立法解决
中国法学会副会长、最高人民法院咨询委员会副主任、最高法原副院长姜伟称,数据催生数字经济,已逐渐成为驱动经济发展的新型生产要素。人工智能技术是促进数字经济发展的核心引擎,为数字经济的持续发展注入了新动能。数字世界不是法外之地,数字经济也是法治经济,数字经济健康有序发展需要法治保驾护航。
姜伟关注到,对于数字经济的规范治理、特别是法律治理,数据产权制度与人工智能规制是世界各国面临的“两大难题”,一时难以破解。面对与日俱进的社会发展,特别是日新月异的技术创新,法律治理必然是滞后的,这是法治发展的客观规律决定的。因为立法者对数字技术的发展规律和治理规律需要一个充分认识的过程。鼓舞人心的消息是,一些国家在立法领域已经开始积极探索。
“数据产权制度是数据基础制度构建的逻辑起点。”姜伟介绍,2022年12月下旬,中共中央、国务院发布《关于构建数据基础制度更好发挥数据要素作用的意见》,在世界上率先提出探索“建立数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制”,形成中国特色的“数据产权结构性三权分置制度”。如何将《数据二十条》提出的数据三权分置制度从政策导向转化为法律权利,是一个亟待解决的立法问题。目前,北京、深圳等地正先行先试、积极探索,力争制度早日落地见效。
姜伟还提到,2022年ChatGPT的横空出世,使得人工智能的监管需求更为紧迫,各国政府都在寻找发展和安全的平衡。2023年12月8日欧盟就全球首个《人工智能法案》达成初步协议,旨在获得人工智能监管领域的先锋地位。
“这是世界上首次尝试以全面的、基于伦理的方式监管人工智能技术的法案,其监管思路是根据人工智能的风险等级实行不同的监管措施,可能为全球人工智能的监管方式定下基调。”姜伟表示,欧盟即使达成了初步协议,只是步入立法程序的关键一环,还需要举行更多的会议讨论法案的技术细节。有专家预测,该法案最早也要到2025年才能生效。
张平 AI治理要以人为本 应探索更多元的治理工具
北京大学法学院教授、中国科学技术法学会常务副会长兼秘书长张平介绍,从全球范围来看,美国、欧盟都相应制定了AI的治理框架,中国以《网络安全法》《数据安全法》《个人信息保护法》《民法典》构建基础的AI治理框架。今年以来也加快政策制定和立法步伐,如国务院明确将人工智能法纳入2023年立法工作计划,7月出台《生成式人工智能服务管理暂行办法》,近期以来《科技伦理审查办法(试行)》《全球人工智能治理倡议》等文件相继发布,上述系列文件对AI的治理聚焦以人为本的治理原则,同时要求伦理先行,以科技伦理审查确保AI技术不被滥用,尤其是《生成式人工智能服务管理暂行办法》对生成式人工智能提出更细致的要求,包括明确数据处理要合法合规。
她认为,中国对AI的主要治理理念也是国际社会的普遍共识。今年11月1日,全球首届人工智能安全峰会上,包括中国在内的28个国家以及欧盟共同发布《布莱奇利宣言》,明确要求治理两类关键风险即AI的滥用和失控,宣言指出,现阶段人工治理工作的重点包括以人为本,关注人权诸如生命权、隐私权、数据权,同时强调保护网络安全和预防生物技术风险等。
张平在会上还介绍和比较了美国、欧盟和中国当前对AI的治理原则,她认为,美国的监管目前更趋向事后监管,是先发展后立法,并要求监管在此领域保持绝对领先,是一种进攻思维。欧盟则是对抗思维,对AI的态度是先监管再发展,尤其强调对人权的保护,“《人工智能法案》明确对AI风险分级分类监管,一旦涉及危害人类要立即停止。”中国则更像防守思维,边发展边监管,尤其强调安全,“比如以个人信息为例,美国聚焦隐私保护,中国则兼顾隐私之外的数据安全。”
AI的数据处理合法性被纳入暂行规定,张平认为,这是一条相对严苛的条款,按照这一规定,绝大多数企业难以合规。比如来自公有领域的数据,尽管本身不存在著作权问题,但可能涉及署名权、修改权等人身权问题。再比如,使用爬虫技术获取数据是目前最常用的数据收集手段,但该内容受到网络爬虫协议条款的约束,一般商业产品开发使用还会受到限制。针对数据难以合规的困境,张平认为,立法仍然有商榷的空间,“如果要求数据合规和知识产权来源合法,万一做不到,我们怎么去监管?”
张平建议,基于目前官方对AI治理持有包容审慎的态度,需要再探索多样的监管工具解决数据合法性来源的问题。“比如AI服务商可以通过爬虫技术获得公共领域或者白名单数据。比如让AI服务商通过引用说明的方式表明来源,规避权属纠纷。再比如鼓励推动更多科学作品开放授权,推动生成式AI输出数据的开放许可。应当充分考虑发展,若AI更利于社会发展,那么它稍有一些瑕疵,通过民法里的填平原则,可以给相关权利人一些补偿,不能由于不合法,就要发禁令。如何通过立法和政策制定解决未来AI治理的困惑和难题,是我们要直面的问题。”张平说。
刘明 探索生成式AI数据治理元规则最好的办法是协同共治
阿里研究院人工智能研究中心主任刘明认为,生成AI治理需要针对全生命周期中各关键阶段的特点,建立健全包容审慎、动态敏捷的柔性治理机制,针对不同阶段、不同类型的风险进行针对性治理。
他建议探索生成式AI数据治理元规则,而探索元规则最好的办法是协同共治。
“具体到数据治理,也能拆分出不同的治理问题。”刘明总结了个人信息、内容安全、模型安全和知识产权四大类。
对于如何基于生成式AI的技术发展规律,探索数据治理元规则,刘明表示,在个人信息方面以匿名化规则,满足生成式AI对于个人信息数据的使用需求,在保护个人信息的同时,激发更多数据价值;进一步明确公开领域个人信息作为训练语料时的合法性基础。
在知识产权方面,通过扩大合理使用范围、创制科研例外等手段为大模型合法使用受著作权保护作品创设制度可能。区分开发者主动获取和用户输入的知识产权内容,因时而异调整避风港规则。
在数据质量方面,在预训练环节丰富数据多样性,避免从源头处做“一刀切”式的规定,提升监督微调和强化学习环节的风控能力;通过建设繁荣的开发者生态,创造更为丰富的高质量数据集,以多元化的标注结果数据集实现对齐目标。
在公共数据方面,优先开放科研属性公共数据,如基础科研数据共享,期刊论文、书籍开放等,让社会力量探索数据的应用场景;加强AI相关数据运营维护,在政府信息化项目中主动判断,或者响应社区要求,标识“AI相关”数据。
“目前探索元规则最好的方向是协同共治或敏捷的治理。”刘明说,这就需要政、企、学界、社会公众、媒体多方共同协调、共同探索,从不同角度探索生成式人工智能面临的各种规则问题。
刘明还指出,在协同共治中有几个重要的方向性原则。首先是治理价值的平衡性。既要预先客观评估重大风险点,有效管控科技进步带来的安全隐患;也要优先保护科技发展的需要,以技术进步来缓解治理难题。“到底是先发展还是先保障安全,这在很多时候不是取舍的问题,不仅要看技术本身,也要看我们所处的国际环境。”
其次,要考虑治理主体的协同性。集聚政产学研用等多方力量,在对话和合作中寻求社会共同认识,全面地、包容地优化治理方案,实现他律和自律的有效结合。
此外,要注意治理手段的灵活性。强调点刹式处理,根据新技术发展情况动态调整治理原则,主管部门及时明确治理目标与要求,监管举措反应快、下手准、力度轻,企业积极应对、快速调整、有效管控,降低技术路径和商业策略转变带来的损失。
本版统筹:程姝雯 李玲
采写: 南都记者 刘嫚 王玮 吕虹 蒋小天
设计:金国华 刘妍妍 李蓓 甘丹
出品:南都数字经济治理研究中心