南都数字经济治理研究中心出品的《生成式AI发展与治理观察报告(2023)》已发布,公众号后台发送【AI报告】,自动获取完整报告。
随着生成式人工智能(以下简称生成式AI)的发展取得了突破式的进展,如何治理也成了当前的难题。12月19日下午,南方都市报、南都数字经济治理研究中心联合中国政法大学数据法治研究院在北京举办“第七届啄木鸟数据治理论坛”。会上,阿里研究院人工智能研究中心主任刘明结合业界实践提出了生成式AI需要精细化治理等建议。
他表示,生成AI治理需要针对全生命周期中各关键阶段的特点,建立健全包容审慎、动态敏捷的柔性治理机制,针对不同阶段、不同类型的风险进行针对性治理。
此外,他建议探索生成式AI数据治理元规则,而探索元规则最好的办法是协同共治。
“如果处理不好技术与治理两者的关系,就会陷入‘科林格里奇困境’,即技术的发展过于超前,治理的跟进相对落后,可能会给未来带来无法挽回的风险。”刘明说。
文|王玮
生成式人工智能技术需要“精细化治理”
“今年生成AI的发展取得了突破式的进展,从行业角度来看,它给行业未来发展提供了无限的想象空间。”刘明说。
刘明表示,生成AI如云计算技术一样,它可以将产业数字和数字产业化两个板块连接起来,使两板块进一步形成相互促进发展的飞轮效应。
刘明进一步解释道,一方面,生成式AI通过产业上的转化应用提升原有的生产效率;另一方面,通过转化应用也可以积累更多智能化应用成果,包括信息、知识的沉淀,这些可以转化成生成式人工智能自身的发展。
今年12月11日至12日举行的中央经济工作会议中提到,要以科技创新引领现代化产业体系建设。要以科技创新推动产业创新,特别是以颠覆性技术和前沿技术催生新产业、新模式、新动能,发展新质生产力。
“生成式A更符合会议中提到的颠覆性技术和前沿性技术,它将在未来催生更多新产业、新模式、新动能,成为新质生产力的组成部分。”刘明说。
需要注意的是,在这一过程中,技术的发展一定会带来治理的变革,政策与科技步调不一致是必然的规律。刘明强调,如果处理不好两者的关系,就会陷入科林格里奇困境——技术的发展过于超前,治理的跟进相对落后,可能会给未来带来无法挽回的风险;反之,治理“抢跑”也会成为技术发展的阻碍。
不过,生成式AI的治理是非常庞杂的体系。“有一句古语,治大国若烹小鲜,对于生成式AI也是如此。”刘明表示,它在技术体系上从不同的标准切分出不同的维度,不同的阶段面临的风险不一样,采取的安全措施也对应有所区分。
“这种精细化的治理要求,对我们的监管和政策制定提出了非常大的挑战。”刘明指出,以前的立法、政策,包括现在出台的生成式人工智能服务管理办法,总体来看建立了整体的架构。但具体规则和标准的制定,还有赖于后续配套制度的制定。
刘明表示,生成式AI治理需要针对全生命周期中各关键阶段的特点,建立健全包容审慎、动态敏捷的柔性治理机制,针对不同阶段、不同类型的风险进行针对性治理。围绕模型训练、服务上线、内容生成、内容传播、用户使用管理等关键环节,创新研发治理技术体系,营造政产学研用多主体协同共治的外部环境。
需探索生成式人工智能数据治理元规则
“具体到数据治理,也能拆分出不同的治理问题。”刘明总结了个人信息、内容安全、模型安全和知识产权四大类。
个人信息保护的现有法律法规规范相对比较完备。刘明指出,“无论是《个人信息保护法》,还是各部门规章及相关国家标准,已经构建了完整的个人信息保护的体系。”
不过在个人信息保护中,刘明认为生成式人工智能治理与常规数据治理尤为不同的一点是,生成式AI除了收集和使用时要关注个人信息合规外,在内容输出阶段也要注意不要因为用户引导等原因而致使其输出个人信息。“我们可以用可控、安全、无害的方式对生成式人工智能进行训练,保证个人信息经过处理后不再与特定个人或群体相关。”
模型训练中数据使用量最大,用途最广。其又分为无监督预训练、监督微调、强化学习三个阶段。刘明介绍,其中数据运用最广泛,收集数据最宽泛的阶段是无监督预训练阶段,这个阶段需求的数据是世界海量知识,包括公开网页上的信息,书籍、报刊中的信息,百科问答类的信息等。“举个不恰当的例子,大模型训练的是准备高考、可适用大学不同专业学习任务的高中生,而非训练私人助理。”
此外,需要注意的一点是:生成式AI训练时采集的信息中包含了大量涉及知识产权的内容,如何减少侵权风险?刘明认为,关键是在训练数据集形成前进行防范,包括与真实权利人联系,购买具有知识产权权利的数据库;使用有合法授权的开源数据集;避免跨越技术措施的爬取。
不过刘明也指出,即使已经尽可能地与真实权利人联系,从权利人获得知识产权数据,但面对全网超大体量的数据,肯定也存在挂一漏万的情况。这反映出一个问题,即现有的法律制度在初设时并没有考虑生成式AI技术对数据的使用方式。而在法律尚无明确规定、司法态度亦未明确的情况下,实践中多以合同方式约定,用户享有生成内容的知识产权(若有),并授权服务提供方在必要范围内使用。
刘明表示,不只是个人信息和知识产权保护方面,在许多与数据治理有关的领域也都面临一个问题:是不是应该回到生成式AI自身的技术发展规律,去探索数据治理元规则?
探索元规则最好的方向是协同共治
如何基于生成式AI的技术发展规律,探索数据治理元规则?
刘明表示,在个人信息方面以匿名化规则,满足生成式AI对于个人信息数据的使用需求,在保护个人信息的同时,激发更多数据价值;进一步明确公开领域个人信息作为训练语料时的合法性基础。
在知识产权方面,通过扩大合理使用范围、创制科研例外等手段为大模型合法使用受著作权保护作品创设制度可能。区分开发者主动获取和用户输入的知识产权内容,因时而异调整避风港规则。
在数据质量方面,在预训练环节丰富数据多样性,避免从源头处做“一刀切”式的规定,提升监督微调和强化学习环节的风控能力;通过建设繁荣的开发者生态,创造更为丰富的高质量数据集,以多元化的标注结果数据集实现对齐目标。
在公共数据方面,优先开放科研属性公共数据,如基础科研数据共享,期刊论文、书籍开放等,让社会力量探索数据的应用场景;加强AI相关数据运营维护,在政府信息化项目中主动判断,或者响应社区要求,标识“AI相关”数据。
“目前探索元规则最好的方向是协同共治或敏捷的治理。”刘明说,这就需要政、企、学界、社会公众、媒体多方共同协调、共同探索,从不同角度探索生成式人工智能面临的各种规则问题。
刘明还指出,在协同共治中有几个重要的方向性原则。首先是治理价值的平衡性。既要预先客观评估重大风险点,有效管控科技进步带来的安全隐患;也要优先保护科技发展的需要,以技术进步来缓解治理难题。“到底是先发展还是先保障安全,这在很多时候不是取舍的问题,不仅要看技术本身,也要看我们所处的国际环境。”
其次,要考虑治理主体的协同性。集聚政产学研用等多方力量,在对话和合作中寻求社会共同认识,全面地、包容地优化治理方案,实现他律和自律的有效结合。
此外,要注意治理手段的灵活性。强调点刹式处理,根据新技术发展情况动态调整治理原则,主管部门及时明确治理目标与要求,监管举措反应快、下手准、力度轻,企业积极应对、快速调整、有效管控,降低技术路径和商业策略转变带来的损失。