出品 | 搜狐科技
作者 | 梁昌均
近日,WPS再次陷入用户数据安全争议,并涉及到字节旗下大模型豆包。
事件的起因是有多位用户在社交平台发文称,WPS Office办公软件疑似将用户文档共享给字节跳动旗下的豆包用于训练人工智能。
这些用户给出的证据主要是自己编写的文档尚未发布,但却已被豆包掌握。有番茄小说平台的签约作者表示,自己在本地编写的未发布文章的更新内容竟然被豆包AI准确引用。
WPS方面对此辟谣称传言不实,与豆包在AI层面目前并未开展任何形式的合作,不存在文档被用作AI训练的情况。
随着WPS“甩锅”,豆包又成了被质疑对象。字节在7月22日下午发布声明称,不存在WPS文档被用作AI训练的情况,并对用户质疑情况进行了回应。
没发表的内容出现在豆包中,WPS被质疑泄露用户数据
“我才发表到35章,豆包提纲直接给我扩到90章,细纲里中后期剧情都还没发表,豆包都分析出提纲了,有些剧情还和我大厂的剧情一模一样。”有名为“蟑螂小美”的博主提到。
“为什么怀疑WPS,因为我的审签+大纲+细纲都在WPS上写的,上传了云空间。”该博主表示,自己没同意用WPS AI,并提到其朋友没上传云空间的内容没被喂AI,而上传云空间的后续剧情则被喂了,建议大家不要用云空间。
这引发了用户对WPS数据泄露的担忧,质疑WPS未经用户同意将其文档内容共享给豆包用作训练。
WPS客户服务官方在7月21日就此表示,第一时间进行了严格排查及用户沟通,相关问题完全失实,称严格遵守个人信息保护的相关法律法规,采取严格的安全保护措施,防止用户信息遭到未经授权的泄露。
“WPS AI定位是大语言模型技术服务的应用方,我们强调,所有用户的文档不会被用于任何AI训练目的,也不会在未经用户同意的情况下用于任何场景。”WPS表示。
该说明还称,WPS承诺所有用户的文档不会被任何第三方用于AI训练,且WPS AI与豆包在AI层面目前并未开展任何形式的合作,不存在文档被用作AI训练的情况。
对于前述博主提到的云空间问题,搜狐科技注意到WPS的隐私政策也有相关规定:“您使用在线服务过程中主动上传至云端的文档内容数据,我们仅以为您提供相关服务至目的进行处理,不会用于任何与该服务无关的场景、目的。”
不过,在WPS官方微博回应下,不少用户仍提出疑问:“那怎么豆包会有?事实就是存WPS里的被盗了”,“贵司做了反爬处理吗”;还有用户会质疑称,“你们和豆包没有合作,不会主动把文档交出去。但是否存在漏洞,导致文件泄露呢?尤其是贵公司明明跟火山引擎有合作的情况下,你们认真自查过了么?”
WPS客户服务官方就网友质疑再次评论回应称,此次反馈的相关信息为不实信息,WPS严格遵守国家相关法律法规要求,切实保护用户隐私,确保用户数据的安全性,不可能存在泄露的问题,并提到原贴博主已发澄清。
搜狐科技注意到,WPS提到的原贴博主即为“蟑螂小美”,其在7月22日凌晨已于小红书平台发布澄清说明,称“泄露大纲的方式有很多种,输入法,联网,我不确定是WPS,所以我澄清”。
同时,该博主表示,自己没授权豆包把已经发表的东西整理成章纲,也没授权豆包发自己的东西,“写的再烂也是我的”,并提到自己还没有发表的后续剧情,豆包也有,结尾的反转从没对别人说多,豆包都有,还称“看了很多帖子被偷的不止自己”。
不过,在今天上午,该博主前述内容显示已被删除,用户账号也已注销。截至发稿,对方未回复搜狐科技希望进一步了解具体情况的请求。
字节称豆包与WPS未有合作,有关监管仍处空白
至于为何用户WPS的文档内容能被豆包掌握,WPS似乎将锅甩了出去,而豆包则又成了质疑对象。
7月22日下午,字节发布声明,表示豆包能问到用户自己尚未发布的AI内容,并使用WPS的云端内容训练AI,该传言完全不实。
该声明同样表示,豆包与WPS在AI训练层面并未开展任何形式的合作,也未使用任何用户未公开的私人数据进行训练。
同时,字节还对多位用户的质疑给出了回应。对于书名、大纲被盗的质疑,声明称豆包上部分书目信息,来源于公开信息,豆包也会给出相关网站信息
对于小红书用户“是人间~”称可以通过豆包搜索出来未经发表多的作品情节,字节称经核实通过搜索引擎搜索相关关键词,即可找到相关情节,并非“未发表作品”。搜狐科技注意到,目前该用户相关内容已不可见。
对于有网文作者称豆包能搜索到其小号作品,认为是个人信息泄露,字节称经核实通过搜索引擎搜索其笔名,其小号作品结果靠前,属于公开信息。
“AI仍处于早期发展的阶段,豆包正在积极探索如何在人们的生活和工作中起到更多帮助作用。在此过程中,我们会始终尊重用户的信息安全,并将尽最大努力,确保数据来源与使用的安全性。”字节在声明中表示。
自去年以来,AI训练数据来源引发的争议一直是业内焦点。OpenAI此前就因抓取《纽约时报》等内容训练,而因涉嫌侵犯版权遭到多家媒体起诉。今年以来,OpenAI则与《时代》和新闻集团等达成内容合作,试图解决数据版权争议。
此外,AI采取用户个人信息训练的情况也不少见。去年11月,有用户就发现WPS在其隐私政策中提到,“我们将对您主动上传的文档材料,在采取脱敏处理后作为AI训练的基础材料使用”,引发外界质疑。
当时,WPS官方向用户致歉,并更新隐私政策,去除了前述容易引起误解的表述,并承诺所有用户文档不会被用于AI训练目的,也不会在未经用户同意的情况喜爱用于任何场景。
此外,曾经爆火的妙鸭称会采用用户上传的照片用以训练优化模型而遭遇质疑,不少大模型产品的用户协议中也明确规定会利用用户输入或输出内容、互动反馈信息等去训练优化模型,提高产品的内容质量、响应速度等。
中国政法大学传播法研究中心副主任朱巍曾对搜狐科技表示,个人信息不是说不能用,而是企业要依法依规收集使用。但在实际情况中,用户很难确认企业是否合法合规地使用了自己的信息,在质疑违规使用时也很难举证。
上海大邦律师事务所高级合伙人、知识产权律师游云庭认为,要确认企业是否侵害了用户个人信息,可能还是要靠法院或行政监管去推动企业更加透明,即AI技术提供方或运营方应当公示自己训练使用了哪些数据。
目前,全球在这个方面仍处于监管空白地带。欧盟早前通过的《人工智能法案》要求,基础模型供应商需要声明是否使用受版权保护的材料来训练AI,美国此前也有法案要求AI公司披露受版权保护训练数据的使用情况,但均没有类似规定要求声明是否在训练期间使用了个人数据。