对数据的渴求正反伤OpenAI？多国指控其违反数据保护法

作者：腾讯科技发布时间：2023-04-22

划重点

1利用从网上抓取的大量数据，OpenAI训练出了令人惊叹的人工智能模型GPT-2、GPT-3乃至GPT-4，但其如今也因为收集和使用这些数据不透明而受到多个监管机构的审查。
2如果OpenAI不能满足监管机构的要求，该公司可能面临巨额罚款，被迫删除数据，甚至被彻底封禁。这些执法行动可能会从根本上改变人工智能公司收集数据的方式。
3专家认为，OpenAI几乎不可能从其模型中识别出个人数据并将其删除。科技公司不会记录它们是如何收集或注释人工智能训练数据的，甚至往往不知道数据集中到底有什么。

腾讯科技讯 4月22日消息，在意大利被临时封禁，以及其他欧盟国家进行了一系列调查之后，人工智能研究公司OpenAI只剩几天时间来满足欧洲数据保护法的要求。如果行动失败，该公司可能面临巨额罚款，被迫删除数据，甚至被彻底封禁。

但专家表示，OpenAI几乎不可能遵守这些规则，这是由其用于训练人工智能模型的数据收集方式所决定的，该公司从互联网上抓取几乎全部内容。

在人工智能开发过程中，主流做法是提供的训练数据越多越好。OpenAI的GPT-2模型由40 GB文本组成的数据集。支持爆火聊天机器人ChatGPT的GPT-3模型，其训练数据高达570 GB。OpenAI没有透露其最新模型GPT-4的数据集有多大。

但对大数据的渴求现在正反噬这家公司。在过去的几周里，多家西方数据保护机构已经开始调查OpenAI如何收集和处理ChatGPT的数据。他们认为该公司收集了人们的个人数据，如姓名或电子邮件地址等信息，并在未经用户同意的情况下使用了这些数据。

作为预防措施，意大利监管机构已经阻止了ChatGPT在该国的使用，法国、德国、爱尔兰和加拿大的数据监管机构也在调查OpenAI系统如何收集和使用数据。作为这些数据保护机构的总部，欧洲数据保护委员会也正在建立囊括欧盟范围的工作组，以协调针对ChatGPT的调查和执法。

意大利已经要求OpenAI在4月30日之前遵守法律。这意味着，OpenAI必须征得人们的同意才能收集他们的数据，或者证明它在收集数据方面符合“正当利益”。OpenAI还必须向人们解释ChatGPT如何使用他们的数据，并赋予他们纠正聊天机器人输出关于他们任何错误信息的权利。这些用户有权要求删除自己的数据，并反对让计算机程序使用它们。

如果OpenAI不能让这些监管机构相信其数据使用行为符合法律规定，该公司可能会在特定国家甚至整个欧盟被禁止。法国数据保护机构CNIL的人工智能专家亚历克西斯·洛蒂埃表示，OpenAI还可能面临巨额罚款，甚至可能被迫删除模型和用于训练它们的数据。

纽卡斯尔大学互联网法学教授莉莲·爱德华兹称，OpenAI的违规行为如此明目张胆，以至于这个案子很可能会在欧盟最高法院——欧盟法院结束。我们可能需要数年时间才能看到意大利数据监管机构所提出问题的答案。

高风险游戏

对OpenAI来说，其面临的风险非常高。欧盟的《通用数据保护条例》（GDPR）是世界上最严格的数据保护制度，在世界各地被广泛复制。从巴西到加州，各地的监管机构都将密切关注接下来会发生什么，结果可能会从根本上改变人工智能公司收集数据的方式。

除了对其收集和使用数据更加透明之外，OpenAI还必须表明，它正在使用两种可能的合法方式之一来为其算法收集训练数据：要么获得用户的同意，要么证明其做法符合“正当利益”。

OpenAI似乎不太可能辩称，该公司在收集用户数据时获得了用户的同意。这样一来，它就只能坚持称，这样做符合“正当利益”。爱德华兹说，这可能需要该公司向监管机构提出令人信服的理由，证明ChatGPT在未经同意的情况下收集数据是多么重要。

OpenAI此前曾声称，它相信自己遵守了隐私法，并在一篇博客文章中表示，“在可行的情况下”，该公司会根据要求从培训数据中删除个人信息。OpenAI表示，其模型是根据公开可用的内容、获得许可的内容以及人类审核人员生成的内容进行训练的。但对于《通用数据保护条例》来说，这个标准太低了。

爱德华兹说：“美国信奉一种原则，即当东西公开时，它就不再是私人的，这与欧洲法律的运作方式完全不同。”《通用数据保护条例》赋予人们作为“数据主体”的权利，比如有权被告知他们的数据是如何被收集和使用的，以及有权从系统中删除他们的数据，即使这些数据最初是公开可用的。

大海捞针

OpenAI还有另一个问题。意大利监管机构表示，OpenAI在培训完成后收集用户数据的方式也不透明，例如他们与ChatGPT互动的聊天记录。法国数据保护机构CNIL的人工智能专家亚历克西斯·洛蒂埃说：“真正令人担忧的是，它如何使用你在聊天中提供的数据。”

通常，人们倾向于与聊天机器人分享亲密的私人信息，告诉它自己的精神状态、健康状况或个人观点。洛蒂埃说，如果ChatGPT有将这些敏感数据反刍给其他人的风险，那问题就大了。他补充说，根据欧洲法律规定，用户需要能够删除他们的聊天记录数据。

初创公司Hugging Face的人工智能研究员兼首席伦理科学家玛格丽特·米切尔，曾是谷歌的人工智能伦理团队的联合负责人。她表示，OpenAI将会发现，识别个人数据并将其从模型中删除几乎是不可能的。

米切尔说，如果OpenAI从一开始就建立健全的数据记录系统，就可以避免这个巨大的麻烦。相反，在人工智能行业中，通过不加区分地抓取网络信息来为人工智能模型构建数据集，然后外包删除重复或不相关数据点、过滤不需要的内容和修复错字的工作才是常见做法。这些方法以及数据集的庞大规模意味着，科技公司往往对训练模型的过程理解十分有限。

谷歌的前研究科学家、企业家尼西亚·桑巴斯万表示，科技公司不会记录它们是如何收集或注释人工智能训练数据的，甚至往往不知道数据集中到底有什么。桑巴斯万在其2021年发表的论文中阐述了人工智能行业低估数据价值的方式。

在ChatGPT庞大而笨重的训练数据集中寻找意大利语数据，就像大海捞针一样困难。即使OpenAI设法删除了用户数据，也不清楚这一步骤是否会是永久性的。研究表明，数据集在被删除后会在互联网上留存很长时间，因为原始数据的副本往往也会留在网上。

米切尔称：“有关数据收集的技术水平非常非常不成熟。”这是因为，大量的工作都投入到开发人工智能模型的尖端技术上，而数据收集方法在过去十年中几乎没有改变。

桑巴斯万说，在人工智能社区，人工智能模型方面的工作最被看重，其他一切都可以牺牲。米切尔对此表示赞同：“从文化上讲，机器学习中存在这样一个问题，即处理数据被视为愚蠢的工作，而处理模型被视为真正的工作。”桑巴斯万补充说：“总的来说，数据工作需要更符合法律规定。” （金鹿）

对数据的渴求正反伤OpenAI？多国指控其违反数据保护法

推荐体验

相关资讯

OpenAI遭多国指控违反数据保护法

加快完善数字版权保护法律框架

因涉嫌违反消费者保护法美国联邦贸易委员会正调查OpenAI

OpenAI回应侵权指控：《纽约时报》的提示策略违反其服务条款

ChatGPT对数据知识的理解

近期资讯

Cesium 基础教程：从入门到航线绘制

Tailwind CSS 实战：电商产品展示页面开发

按需加载浏览器polyfill

2024技术闪耀，逐梦前行-年终总结

带你入门Rust前端工具链

10. React 样式管理与常用第三方组件库

揭秘！如何将动效描述自动转化为动效代码

在项目中将npm包本地管理

Vue Prop 默认值深入解析：工厂函数与 rawProps 的正确使用

Vercel 中使用 puppeteer 获取网站页面截图问题及修复

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响