还记得5月OpenAI在国会山听证会上的自信、坦诚、游刃有余的问答吗?
那时的Sam Altman可谓意气风发,在耐心、友好的国会议员面前,就AI立法、大模型安全性问题侃侃而谈,甚至还自己提出了AI监管方针,“恳求”国会议员监管。
在Sam Altman精湛的说辞和诚恳的态度下,本该针锋相对、充满紧张氛围的听证会,却成了双向奔赴的现场,“暧昧之情”可谓羡煞旁人。
既然话都说到这份上了,那AI监管自然得抓紧提上日程!
于是,在民众举报和官方调查的有力结合下,一条大鱼终于“落网了”。
7月13日,美国联邦贸易委员会(FTC)对OpenAI正式发起调查。调查内容集中在两方面,即ChatGPT是否通过发布虚假信息损害了人们的利益,以及OpenAI是否存在“不公平或欺骗性”的隐私和数据安全行为。
事实上,这不是OpenAI首次被质疑数据隐私问题。
6月28号,位于北加州的Clarkson律所对OpenAI及其合作伙伴微软提起了集体诉讼。理由是OpenAI在训练大模型时抓取的数据,严重侵犯了16名原告的著作权和隐私。
6月底,作家阿瓦德(Mona Awad)与特兰布拉(Paul Trembla)也向旧金山联邦法院提起诉讼,称ChatGPT未经他们同意,擅自调用他们的小说来进行训练。
监管看似是对AI企业的debuff(负效应),但在监管成为必然的趋势之下,先一步成为规则的制定者,则可以获得相对的竞争优势。这是OpenAI高呼“安全”“合法”的原因。
但如今,“AI监管先锋”OpenAI成了游走在法律边缘的头号违规者,这场“AI狂飙大戏”,Sam Altman作为“AI界高启强”的真面目也算是被揭开了。
01
听证会上的漏洞
面对怒气冲冲的被侵权者和来势汹汹的监管部门,OpenAI的CEO Sam Altman虽然语气依旧克制,就侵权、起诉、调查等问题发表自己的看法,但从其推特的高频回复来看,或许着实有点慌了。
面对质疑,Sam Altman连发了三条推特:
总结一下就是,我们一直试图不被发现,但很遗憾还是暴露了。
事实上,此次被调查的问题,早在5月的听证会上,就已经埋下了伏笔。
虽然在国会山上的答辩中,Sam Altman的表现可谓异常出彩,但是,并非全无漏洞。
当时坐在证人席上的纽约大学心理学和神经科学教授Gary Marcus问出了两个致命问题:
时隔两个月,当初的两个问题均成为OpenAI此次信任危机爆发的重要根源。
北加州Clarkson律所在起诉书中言辞激烈,表示OpenAI的整个商业模式都是基于盗窃,并声称,OpenAI和微软在开发、营销和运营其AI产品时,对数以亿计的互联网用户的个人信息,包括儿童信息进行了非法收集、使用和分享。除了ChatGPT,其诉讼涉及的对象包括了ChatGPT、Dall-E、Codex在内的众多OpenAI旗下产品。基于这一点,许多网友将其称作“OpenAI第一案”。
最近的一次,FTC对于OpenAI的调查更为详细,其列举了一份包含49个大问题,200多个小问题的清单,要求OpenAI就清单上的所有问题进行详细的回答和陈述。问题涉及模型开发与训练、风险评估与应对、隐私和Prompt风险及措施和API集成及插件等诸多方面。
答完这些问题,原本不Open的OpenAI想必不得不Open一回了。
02
谷歌见机行事
更新隐私政策
在OpenAI和微软两位同行应付接二连三的侵权诉讼,忙得焦头烂额之际,谷歌敏锐地嗅到了危机,于是选择先行堵上这一漏洞。
7月1日,谷歌更新了其隐私政策,明确规定谷歌有权收集任何公开可用的数据,并将其用于其人工智能模型的培训。此举意味着,只要是谷歌能从公开渠道获得的内容,它都可以拿来训练自己的Bard模型或未来的一切人工智能。
国外媒体对此评论,在这一项条款中,谷歌似乎保留了收集和利用在公共平台上发布的所有数据的权利,就好像整个互联网是该公司自己的AI游乐场。
不过,针对隐私保护的担忧,谷歌的发言人克里斯塔·马尔登(Christa Muldoon)强调,谷歌已将隐私原则和保障措施融入人工智能技术开发之中,以确保其与谷歌的人工智能原则保持一致。
此外,谷歌也采取了一系列措施来应对用户数据的安全性和隐私性等方面的问题。例如,谷歌承诺仅在获得用户明确同意的情况下收集和使用他们的数据,并将采取严格的技术和管理措施来防止数据泄露。
并且,谷歌正在与美国、英国和欧洲的新闻机构进行沟通,表示愿意付费购买新闻内容。同时他们的AI工具Bard也正在接受“公开可获得的信息”的培训,这可能包括需要付费的网站。若付费购买新闻信息的协议达成,谷歌在信息版权问题上将迈出值得借鉴的一步,而谷歌的数据库也将获得更为丰富的数据来源。
但是,新政策对书籍著作、艺术绘画等受版权保护的内容作品,如何防止其进入训练数据库的具体做法并未明确。
03
数据“公私分明”
AI监管的未来方向
从“OpenAI第一案”,到AI公司现阶段普遍面临的数据隐私问题,AI监管的下一步方向已经较为明确,那便是社交平台上发布的“私人数据”和用于训练的“公共数据”之间的划分准则。
目前,美国对于大模型训练数据的立法还没有通过,法官判决很大程度上是参考已经有的隐私权和著作权的案例。但随着AI与人类社会之间不断融合、浸润,所谓“具身智能”的未来不断临近,私人数据的保护边界、使用边界必须要逐步明确。
然而,要想区分数据的公私边界,在立法层面上来看,也并非易事。
作为生产信息数据量最大的社交媒体,平台本身的公共性质和用户活动的私人性质,无疑构成了一对复杂的矛盾,用户与平台对于数据的保护和使用边界的界定,当中涉及诸多复杂的主客观因素,使得要想明确地界定公私界限,极为困难。
不过,纵然法律上的尚未探明的灰色地带成了AI巨头们时不时攫取利益的来源,但是,在没有明确法律规则的背景之下,类似的隐私侵犯案件的审判中,和解往往是普遍的处理方式。而在和解中,OpenAI等AI公司并不一定会具有优势。
因此,频繁增多的隐私侵犯案件,势必会倒逼政府及法律部门在AI监管上作出重要举措,也会迫使AI科技公司收敛自己的权力,更新完善既有的信息政策。
作者:西瓜 排版:孙可盈
图片源于Q仔互联网冲浪所得,若有侵权,后台联系,Q仔滑跪删除~