“盗窃”而来的3000亿单词？ChatGPT摊上事了，遭索赔30亿美元

作者：CSDN发布时间：2023-07-05

2016 年 10 月 19 日，英国剑桥大学理论物理学教授 Stephen Hawking 曾预言：“强大 AI 的崛起，可能将是人类遇到的最好的事情，也可能是最坏的事情。”

此后 7 年还不到，Stephen Hawking 教授的预言似乎就“成真”了：在近半年的 ChatGPT 热潮下，很多人看见了它的强悍和优势，但同时也有越来越多人开始担心 AI 时代下的隐私保护——于是，近来凭借 ChatGPT 和 GPT-4 风头正盛的 OpenAI 和微软，突然就被告了。

上周，16 位匿名人士决定起诉微软和 OpenAI，称这两家公司基于 ChatGPT 的 AI 产品在未获得同意或提供充分通知的情况下，收集并泄露了他们的个人信息，要求索赔 30 亿美元。

“盗窃”而来的 3000 亿单词？

根据这 16 人提交给加利福尼亚州旧金山联邦法院、长达 157 页的诉讼书显示，OpenAI 和微软被指控违反了《电子通讯隐私法》，即无视获取 AI 模型数据的合法途径，选择在不付费的情况下收集数据。

“尽管存在购买和使用个人信息的既定程序，但被告（OpenAI 和微软）还是采取了不同的方式：盗窃。”

在最初 ChatGPT 刚爆火的时候，OpenAI 就曾介绍过 ChatGPT 的强大功能，来自大规模预训练——它有 3000 亿单词的语料库预训练。但原告称，OpenAI 从互联网上的书籍、文章和发帖中所获取的 3000 亿字内容，远远超过其合理授权的范围。

具体来说，这 16 人指控 OpenAI 和微软通过其 AI 产品“收集、存储、跟踪、共享和披露”数百万人的个人信息，并且获得的信息范围很广，包括产品细节、账户信息、姓名、联系方式、登录凭证、电子邮件、支付信息、交易记录、浏览器数据、社交媒体信息、聊天日志、Cookie、搜索记录和其他在线活动等等。

原告坚称，在“从全球数百万毫无戒心的消费者那里非法收集个人资料”后，微软和 OpenAI 将其嵌入至他们的 AI 模型中，这才创造出了现在的 ChatGPT 等 AI 产品：

▶ “OpenAI 大规模使用窃取并盗用个人信息，以此创造了强大且利润丰厚的 AI 产品，并不顾风险地将其对外发布。”

▶ “OpenAl 的技术价值已高达到数百亿美元，而且其进入每一个公共和私营行业的范围还在继续迅速扩大。由于对被盗、盗用数据的培训，这些产品才达到了如今的复杂程度。”

除了指控 OpenAI “盗窃”数百万互联网用户的个人隐私，诉讼书中还强调了 OpenAI 和微软之间的密切合作关系：“微软对 OpenAl 持续投资，并在其多个平台上都引入了 ChatGPT，强调其与 OpenAl 合作的深度。通过这些投资，微软还获得了独家使用整个 OpenAI 代码库的权利。”

很少提到 AI 的具体伤害案例

整整 157 页诉讼书中，引用了大量媒体报道和学术论文，反复强调了原告对 AI 模型发展下道德规范的担忧。不过据了解，其中并没有提到多少 AI 对人类的具体伤害案例。

例如，在提到 2019 年 OpenAI 重组为一家“有限营利企业”时，诉讼书表示 “OpenAI 放弃了最初的目标和原则，选择以牺牲隐私安全和道德为代价来追求利润”，并由此推断 OpenAI 加大了从互联网上“秘密获取”大量个人数据的力度，而不通知这些数据的所有者或用户。

此外，在指控 OpenAI 无视隐私法的同时，文件引用了 OpenAI 首席执行官 Sam Altman 的一句发言：“AI 很可能会导致世界末日，但与此同时，也会出现伟大的公司。”而基于这句话，诉讼书表示：“被告对隐私法的漠视，与他们对人类潜在灾难性风险的漠视不相上下。”

总体而言，在这份 157 页的诉讼书中，微软和 OpenAI 被指控违反了《电子隐私通信法》，即在没有获得授权的情况下使用私人信息以求牟利。同时，因为插件拦截互动数据，微软和 OpenAI 也违反了《计算机欺诈和滥用法》。

基于以上，考虑到被“盗取”数据的群体应该有数百万人，原告向微软和 OpenAI 提出了 30 亿美元的索赔。

微软和 OpenAI 并未回应

截至目前，微软和 OpenAI 都没有对这份指控作出回应，而网友对于这起诉讼的讨论早已泛滥。

部分人对于 OpenAI 如何“窃取”并利用个人数据的方式感到好奇，外媒 Firstpost 解释道：“如果你在最近几十年里一直在网上活跃，你的数据就很可能被纳入 OpenAI 的数据集。因此，OpenAI 语言模型产生的任何输出，如果用于盈利，其中就可能包含通过无声搜刮而获得的你的数据片段。”

对此，起诉 OpenAI 的律师事务所方面也进行了补充：用户的个人数据“最初并不是打算给大型语言模型使用的”，所有信息都是 OpenAI 自己去大规模获取的。

至于这场诉讼的最终结果，目前来看应该并不确定。互联网的基础设施很复杂，在线平台与用户有自己的条款和协议，即使用户向这些平台贡献内容，数据所有权也通常属于平台本身而非用户。

对于这个说法，知识产权律师 Katherine Gardner 也是认同的：当用户将内容上传到社交媒体或任何其他网站时，他们通常会授予平台以各种方式使用其内容，因此普通用户可能很难要求因在训练模型中使用其数据而获得相应的补偿。

除此之外，也有不少网友打趣起了这 30 亿美元的索赔金额：

▶ “30 亿不够，怎么也得 80 亿美元，这样我们每个人都能拿到 1 美元！”

▶ “不行，我在网上写了 3 篇东西呢，得给我 3 美元才行！”

参考链接

https://storage.courtlistener.com/recap/gov.uscourts.cand.414754/gov.uscourts.cand.414754.1.0.pdf

https://www.firstpost.com/world/chatgpt-openai-sued-for-stealing-everything-anyones-ever-written-on-the-internet-12809472.html

本文来自微信公众号“CSDN”（ID:CSDNnews），36氪经授权发布。

“盗窃”而来的3000亿单词？ChatGPT摊上事了，遭索赔30亿美元

“盗窃”而来的 3000 亿单词？

很少提到 AI 的具体伤害案例

微软和 OpenAI 并未回应

参考链接

推荐体验

相关资讯

“盗窃”而来的 3000 亿单词？ChatGPT 摊上事了，遭索赔 30 亿美元！

被索赔十亿美元，OpenAI摊上事了

OpenAI涉嫌侵犯用户隐私，遭索赔30亿美元

ChatGPT终于摊上事了

要求罚金30亿美元！Chatgpt涉嫌信息盗窃被起诉

近期资讯

中吉乌跨国铁路正式启动！两种轨道标准中间无奈换装

21.88万起！长城首台摩托车灵魂S2000将于明日开启交付

隔壁车辆自燃引燃自家大众ID.3 车主：对方保险拒赔该找谁

小米澎湃秒充协议全面开放：免费！

英伟达年终核弹！全新B300为o1大模型打造 RTX5090也曝光了

比亚迪“天神之眼”交卷：杀进智驾第一梯队

王腾没想到这波8 Gen3机型红米K80售价最高销量最好

一女子为躲狗跑入机动车道被撞身亡：狗主人赔偿45万

蚂蚁森林8年累计种树5.48亿棵官宣再捐1个亿

2年涨3倍！小米股价即将创历史新高总市值超8500亿

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响