7月22日,字节跳动回应豆包大模型训练数据来源非法的质疑。
近日有用户发帖称,能在豆包问到自己尚未发表过的作品,怀疑豆包使用WPS的云端内容训练AI,并表达了数据泄露的担忧。字节跳动对此表示“传言完全不实”。
字节跳动回应称,豆包上的部分书目信息,来源于公开信息,并给出相关网站信息。有用户提到在豆包可以搜索出未发表过的作品情节,经核实该情节可以公开查询到,并非未发表作品。
字节跳动回应声明中的辟谣内容。
字节跳动还声明,豆包与WPS 在AI训练层面并未开展任何形式的合作,也没有使用任何用户未公开的私人数据进行训练。
前一日(7月21日),WPS亦在官方社交账号澄清称,所有用户的文档不会被用于任何AI训练目的,也不会在未经用户同意的情况下用于任何场景。WPS AI与豆包在AI层面目前并未开展任何形式的合作,不存在文档被用作AI训练的情况。
生成式AI的训练数据合规风控,是悬在大模型厂商头上的一把“达摩克利斯之剑”。
今年5月下旬发布的国家标准《网络安全技术 生成式人工智能服务安全基本要求》(征求意见稿)提到,数据用于训练前,应对数据中的主要知识产权侵权风险进行识别,发现存在知识产权侵权等问题的,服务提供者不应使用相关数据进行训练。该标准提到,将数据用于训练前,还应过滤去除数据中的违法不良信息——其中包括侵犯他人知识产权和个人信息权益的内容。
字节跳动称,会尊重用户的信息安全,并将尽最大努力,确保数据来源与使用的安全性。
采写:南都见习记者 杨柳