划重点
腾讯科技讯 4月22日消息,在意大利被临时封禁,以及其他欧盟国家进行了一系列调查之后,人工智能研究公司OpenAI只剩几天时间来满足欧洲数据保护法的要求。如果行动失败,该公司可能面临巨额罚款,被迫删除数据,甚至被彻底封禁。
但专家表示,OpenAI几乎不可能遵守这些规则,这是由其用于训练人工智能模型的数据收集方式所决定的,该公司从互联网上抓取几乎全部内容。
在人工智能开发过程中,主流做法是提供的训练数据越多越好。OpenAI的GPT-2模型由40 GB文本组成的数据集。支持爆火聊天机器人ChatGPT的GPT-3模型,其训练数据高达570 GB。OpenAI没有透露其最新模型GPT-4的数据集有多大。
但对大数据的渴求现在正反噬这家公司。在过去的几周里,多家西方数据保护机构已经开始调查OpenAI如何收集和处理ChatGPT的数据。他们认为该公司收集了人们的个人数据,如姓名或电子邮件地址等信息,并在未经用户同意的情况下使用了这些数据。
作为预防措施,意大利监管机构已经阻止了ChatGPT在该国的使用,法国、德国、爱尔兰和加拿大的数据监管机构也在调查OpenAI系统如何收集和使用数据。作为这些数据保护机构的总部,欧洲数据保护委员会也正在建立囊括欧盟范围的工作组,以协调针对ChatGPT的调查和执法。
意大利已经要求OpenAI在4月30日之前遵守法律。这意味着,OpenAI必须征得人们的同意才能收集他们的数据,或者证明它在收集数据方面符合“正当利益”。OpenAI还必须向人们解释ChatGPT如何使用他们的数据,并赋予他们纠正聊天机器人输出关于他们任何错误信息的权利。这些用户有权要求删除自己的数据,并反对让计算机程序使用它们。
如果OpenAI不能让这些监管机构相信其数据使用行为符合法律规定,该公司可能会在特定国家甚至整个欧盟被禁止。法国数据保护机构CNIL的人工智能专家亚历克西斯·洛蒂埃表示,OpenAI还可能面临巨额罚款,甚至可能被迫删除模型和用于训练它们的数据。
纽卡斯尔大学互联网法学教授莉莲·爱德华兹称,OpenAI的违规行为如此明目张胆,以至于这个案子很可能会在欧盟最高法院——欧盟法院结束。我们可能需要数年时间才能看到意大利数据监管机构所提出问题的答案。
高风险游戏
对OpenAI来说,其面临的风险非常高。欧盟的《通用数据保护条例》(GDPR)是世界上最严格的数据保护制度,在世界各地被广泛复制。从巴西到加州,各地的监管机构都将密切关注接下来会发生什么,结果可能会从根本上改变人工智能公司收集数据的方式。
除了对其收集和使用数据更加透明之外,OpenAI还必须表明,它正在使用两种可能的合法方式之一来为其算法收集训练数据:要么获得用户的同意,要么证明其做法符合“正当利益”。
OpenAI似乎不太可能辩称,该公司在收集用户数据时获得了用户的同意。这样一来,它就只能坚持称,这样做符合“正当利益”。爱德华兹说,这可能需要该公司向监管机构提出令人信服的理由,证明ChatGPT在未经同意的情况下收集数据是多么重要。
OpenAI此前曾声称,它相信自己遵守了隐私法,并在一篇博客文章中表示,“在可行的情况下”,该公司会根据要求从培训数据中删除个人信息。OpenAI表示,其模型是根据公开可用的内容、获得许可的内容以及人类审核人员生成的内容进行训练的。但对于《通用数据保护条例》来说,这个标准太低了。
爱德华兹说:“美国信奉一种原则,即当东西公开时,它就不再是私人的,这与欧洲法律的运作方式完全不同。”《通用数据保护条例》赋予人们作为“数据主体”的权利,比如有权被告知他们的数据是如何被收集和使用的,以及有权从系统中删除他们的数据,即使这些数据最初是公开可用的。
大海捞针
OpenAI还有另一个问题。意大利监管机构表示,OpenAI在培训完成后收集用户数据的方式也不透明,例如他们与ChatGPT互动的聊天记录。法国数据保护机构CNIL的人工智能专家亚历克西斯·洛蒂埃说:“真正令人担忧的是,它如何使用你在聊天中提供的数据。”
通常,人们倾向于与聊天机器人分享亲密的私人信息,告诉它自己的精神状态、健康状况或个人观点。洛蒂埃说,如果ChatGPT有将这些敏感数据反刍给其他人的风险,那问题就大了。他补充说,根据欧洲法律规定,用户需要能够删除他们的聊天记录数据。
初创公司Hugging Face的人工智能研究员兼首席伦理科学家玛格丽特·米切尔,曾是谷歌的人工智能伦理团队的联合负责人。她表示,OpenAI将会发现,识别个人数据并将其从模型中删除几乎是不可能的。
米切尔说,如果OpenAI从一开始就建立健全的数据记录系统,就可以避免这个巨大的麻烦。相反,在人工智能行业中,通过不加区分地抓取网络信息来为人工智能模型构建数据集,然后外包删除重复或不相关数据点、过滤不需要的内容和修复错字的工作才是常见做法。这些方法以及数据集的庞大规模意味着,科技公司往往对训练模型的过程理解十分有限。
谷歌的前研究科学家、企业家尼西亚·桑巴斯万表示,科技公司不会记录它们是如何收集或注释人工智能训练数据的,甚至往往不知道数据集中到底有什么。桑巴斯万在其2021年发表的论文中阐述了人工智能行业低估数据价值的方式。
在ChatGPT庞大而笨重的训练数据集中寻找意大利语数据,就像大海捞针一样困难。即使OpenAI设法删除了用户数据,也不清楚这一步骤是否会是永久性的。研究表明,数据集在被删除后会在互联网上留存很长时间,因为原始数据的副本往往也会留在网上。
米切尔称:“有关数据收集的技术水平非常非常不成熟。”这是因为,大量的工作都投入到开发人工智能模型的尖端技术上,而数据收集方法在过去十年中几乎没有改变。
桑巴斯万说,在人工智能社区,人工智能模型方面的工作最被看重,其他一切都可以牺牲。米切尔对此表示赞同:“从文化上讲,机器学习中存在这样一个问题,即处理数据被视为愚蠢的工作,而处理模型被视为真正的工作。”桑巴斯万补充说:“总的来说,数据工作需要更符合法律规定。” (金鹿)
华大时空 2024-12-21
航旅视界 2024-12-21
华东实习KING 2024-12-21