近日,OpenAI发布声明称,与任何技术一样,ChatGPT会带来一定安全风险,并介绍了包括尊重隐私在内的六方面的安全部署。这份声明发出的不久前,ChatGPT被曝数据泄露——部分用户能够看到其他用户的姓名、邮箱、聊天记录标题以及信用卡最后四位数字等。
此后,意大利数据保护机构宣布“封禁”ChatGPT,并要求OpenAI在20天内按要求提供整改措施,否则将被处以最高2000万欧元或全球年营业额4%的罚款。不只意大利,德国联邦数据保护专员也称类似ChatGPT的产品有可能被封禁,加拿大隐私专员办公室则已因数据问题开始调查OpenAI。
有专家表示,在新一代以ChatGPT为代表的生成合成类应用中,用户对话的过程就是被收集信息的过程,尤其是用户在与机器对话的过程中更可能袒露隐私。个人信息的收集、使用和传输都面临着安全挑战。在制度层面,需要结合AIGC底层技术所需数据的特性和作用,建立健全数据分类分级保护制度,并建立与数据类型和安全级别相配套的数据保护标准与共享机制。
意大利封禁:缘起ChatGPT的数据泄露
当地时间4月5日,OpenAI发布声明宣布了一系列整改措施,包括“保护儿童”“尊重隐私”等。
在尊重隐私上,OpenAI方面表示,尽力在可行的情况下从训练数据集中删除个人信息,微调模型来排除收集个人信息,并回应用户删除个人信息的请求。
南都记者梳理发现,这次调整或源于半个月前的一次数据泄露。
当地时间3月20日,多名ChatGPT用户表示看到其他人与ChatGPT的对话记录、电子邮件。OpenAI首席执行官Sam Altman发文称,系开源库出现错误导致部分聊天记录标题泄露,“对此我们感到很难过”。
31日,意大利数据保护机构(Garante per la protezione dei dati personali,GPDP)宣布,即日起禁止使用ChatGPT,并开始立案调查。
GPDP认为,OpenAI为了“训练”平台所依赖的算法收集和处理了大量的个人信息,缺乏法律依据。在3月20日ChatGPT出现的信息泄露事件中,该平台没有就处理用户个人信息进行告知。
另外,GPDP还表示,尽管根据OpenAI的条款,ChatGPT针对13岁以上的用户,但该平台缺乏年龄验证机制,儿童可能收到不适合他们年龄和意识的回复。
最后,上述数据保护机构强调,OpenAI必须在20天内按照要求提供整改措施,否则将被处以最高2000万欧元或全球年营业额4%的罚款。
在意大利的“封禁令”到来后,OpenAI立即表示,已在意大利禁用了ChatGPT,并认为已遵守隐私相关法律的规定。
“我们在训练我们的人工智能系统(如 ChatGPT)时积极努力减少个人数据,因为我们希望我们的人工智能了解世界,而不是了解个人。”OpenAI的新闻发言人说道。
对于GPDP的指控,北京炜衡(成都)律师事务所网络与数据法律师魏冬冬告诉南都记者,本次意大利数据监管机构指控的未部署方案获得未成年人监护人同意的事由,其实不是ChatGPT特有的,很多应用软件都缺乏这样的机制,但由于ChatGPT提供的服务主要就是信息内容的输入与输出,所以尤其需要设置未成年人保护的机制,在这个问题上引起监管高度注意是必然的。
而对于意大利封禁ChatGPT这一决定,魏冬冬认为,结合意大利政府反对封禁ChatGPT和意大利数据监管机构独立于政府的地位来看,此举应出于个人数据保护上的考量,个人数据权利早已提高到欧盟基本人权的位置。“这个案例尚没有透露出对AI伦理、AI知识产权、垄断和不正当竞争的考量。”她补充道。
中国政法大学数据法治研究院教授张凌寒则认为,“封禁不仅仅是出于安全考虑,也有国际竞争的因素。欧盟多个国家讨论ChatGPT的使用限制问题,也是国际博弈的一部分。”
南开大学法学院副院长、教授、中国新一代人工智能发展战略研究院特约研究员陈兵曾在今年2月公开撰文称,虽然ChatGPT表示,存储训练和运行模型所需的数据会严格遵守隐私和安全政策,但在未来可能出现的网络攻击和数据爬取等现象下,仍存在不可忽视的数据安全隐患。特别是对涉及国家核心数据、地方和行业重要数据以及个人隐私数据的抓取、处理以及合成使用等过程中的安全保护与流动共享的平衡处置,这不仅涉及数据安全,还涉及国家安全、行业安全及个人安全等。
多国表态:厘清ChatGPT的数据风险
意大利宣布“封禁”ChatGPT之后,当地时间4月4日,加拿大隐私专员办公室(Office of the Privacy Commissioner,OPC)宣布开始调查OpenAI,涉及未经同意收集、使用和披露个人信息的指控。
此外,多个欧盟成员国的数据保护机构也公开表示对ChatGPT数据安全的担忧。
当地时间4月3日,据德国商报报道,德国联邦数据保护专员Ulrich Kelber表示,原则上,类似ChatGPT这样的AI软件“在德国被禁用也是有可能的”。
法国和爱尔兰的数据监管机构则表示,已联系意大利数据监管机构,并讨论其调查结果。爱尔兰数据保护机构的一位发言人在接受采访时表示:“我们正联系意大利监管机构以了解他们采取行动的依据,我们将与所有欧盟数据保护机构协调此事。”
目前来看,意大利的封禁举措为欧盟各国开了先例,隐藏于ChatGPT高速发展之下的数据安全风险被凸显出来。
张凌寒认为,在个人信息保护方面,深度合成的训练数据主要来源于互联网,其中就可能包括个人隐私数据。她认为,用户生成合成内容需要上传照片、视频或与ChatGPT直接明文的对话。生成合成类算法应用既往就产生过换脸换声的欺诈、人格权侵权、隐私泄露等案件。
张凌寒进一步表示,在新一代以ChatGPT为代表的生成合成类应用中,用户对话的过程就是被收集信息的过程,尤其是用户在与机器对话的过程中更可能袒露隐私。“这些个人信息可被用于用户画像和训练模型,个人信息的收集、使用和传输都面临着安全挑战。”她说。
争议焦点:底层技术与数据保护
对于ChatGPT类生成式AI的争议焦点,离不开其底层技术与数据保护之间的讨论。
魏冬冬认为,ChatGPT这样的大语言模型,其底层技术与GDPR遵循的数据保护思路有矛盾的地方,这一矛盾主要集中在训练数据的获取和算法模型的透明化上。“在训练数据的获取上,ChatGPT很难满足个人对训练数据的控制权;ChatGPT也很难向用户去释明算法的黑盒是如何使用训练数据和用户输入数据进一步优化模型的。”
她亦表示,ChatGPT可能在用户对个人信息的控制权、正当竞争、数据泄露、商业秘密侵权和未成年人保护这五个方面存在风险。
“ChatGPT的训练数据部分来源于百科类和问答类网站,且没有付出任何成本,但反过来ChatGPT又在一定比例上替代了百科类和问答类,这就可能在竞争的层面侵犯了百科类和问答类网站的权益。”魏冬冬说。
张凌寒表示,可以把(ChatGPT类)大语言模型看做是一个大型的数据处理者,要求其承担GPDR相关的数据保护并无不妥,但是在技术上提出了更高的要求。
魏冬冬表示,ChatGPT的训练数据大量来自网络文档、各类百科网站、书籍个人问答等互联网上的文本数据库,这里面包含大量个人信息,而这些个人信息主体却不知道自己的数据被用于训练ChatGPT,也就是没有对个人进行告知,并获取同意。但另一方面,逐个去获取分散在各个平台的个人的告知同意无论在成本还是可行性上,对OpenAI来说都是不现实的,这将是ChatGPT在数据隐私保护上面临的重大问题。
治理思路:完善AIGC领域法律法规,对数据分类分级
ChatGPT的数据风险引发了多国忧虑的同时,或许将拉开治理序幕。
陈兵公开撰文称,必须正视ChatGPT爆火背后潜在的法律风险,及时更新、科学完善AIGC(人工智能生成内容)领域的相关法律法规,建立健全相关行为规范和伦理指南,用系统观念和法治思维及方法来推动AIGC在我国规范健康持续发展。
具体而言,他指出,在制度层面,需要结合AIGC底层技术所需数据的特性和作用,建立健全数据分类分级保护制度,譬如可根据数据主体、数据处理程度、数据权利属性等方面对训练数据集中进行分类管理,根据数据对于数据权利主体的价值,以及数据一旦遭到篡改、破坏等对数据主体的危害程度进行分级。
陈兵撰文表示,在数据分类分级的基础上,建立与数据类型和安全级别相配套的数据保护标准与共享机制,同时,AIGC还涉及数据跨境流通问题,应当在考虑国际通行标准和做法的基础上,制定合理的跨境数据安全执法规则,加强与其他国家和地区规则的衔接,促进数据安全跨境执法合作。
张凌寒认为,深度合成的治理,一是需要保障生成内容安全的基础法益,二是应依据生成型人工智能改进监管框架实施全链条治理,三是需要适应技术的进一步发展,完成深度合成监管工具的升级。
陈兵表示,在技术层面,需要加快推动“隐私计算”技术在AIGC领域的应用,这类技术能够让多个数据拥有者在不暴露数据本身的前提下,通过共享SDK或者开放SDK权限的方式,在进行数据的共享、互通、计算、建模,在确保AIGC能够正常提供服务的同时,保证数据不泄露给其他参与方。
张凌寒进一步指出,不宜将深度合成尤其是生成型人工智能一概纳入高风险治理框架,而应根据生成型人工智能的预训练大模型、海量数据等特征单独设计监管制度;区分技术、产业和应用层面分级分类设计制度,在技术与产业层面加大扶持力度,在应用层面参考现有分级分类标准完善监管制度;应建立敏捷治理体系,并留足前瞻性制度发展空间,以保障技术的长远发展。
采写:实习生路欣冉 南都记者孙朝