一项新研究显示,在接受特定提示的情况下,流行的图像生成模型可能会生成真实人物的照片,而且具有一定的辨识度,这可能会威胁到他们的隐私。
该研究还表明,这些人工智能系统可以(在一定程度上)记忆并生成医学图像和受版权保护的艺术作品的精确复制版本。鉴于目前一些艺术家正在考虑起诉人工智能公司侵犯版权,这一发现可能让他们有更充分的理由去这样做。
来自谷歌、DeepMind、美国加州大学伯克利分校、瑞士苏黎世联邦理工学院和美国普林斯顿大学的研究人员测试的模型是 Stable Diffusion(稳定扩散)和谷歌 Imagen,均通过提示得到了他们想要的结果。
值得一提的是,他们使用的提示中会包含一些敏感信息,比如一个人的名字。随后,他们分析了生成的任何图像是否与模型数据库中的原始图像相匹配。结果发现,有 100 多张图片是人工智能训练集里面的图片副本。
这些生成图像的人工智能模型是在大量的数据集上训练的,数据集由从互联网上收集的图片组成,其中还包含文本描述。这项最新技术的工作原理是在数据集中选择图像,并一次改变一个像素,直到原始图像变成一个由随机像素组成的集合。然后人工智能模型将这个过程逆转,将混乱的像素转化成新的图像。
法国诺曼底大学的博士生瑞安·韦伯斯特(Ryan Webster)表示,这篇最新的论文,是研究人员第一次设法证明这些人工智能模型在记忆训练集里面的图像。他曾研究其他图像生成模型的隐私问题,但没有参与这项最新研究。
新研究成果可能会对希望在医疗保健中使用生成式人工智能模型的初创公司产生影响,因为这表明这些系统有泄露敏感私人隐私的风险。OpenAI、谷歌和 Stability AI 没有回应我们的置评请求。
加州大学伯克利分校的博士生埃里克·华莱士(Eric Wallace)是该研究小组的成员,他说他们的目的是在这些人工智能模型被广泛应用到医学等敏感领域之前,能对围绕这些模型的潜在隐私问题发出警告。
华莱士说:“很多人都试图尝试将此类生成方法应用于敏感数据。我们的工作是一个警示,它告诉大家,这可能是一个坏主意,除非采取某种极端的保护措施来阻止隐私侵犯。”
这些人工智能模型从数据集中记忆、消化并复原图像的程度,也是人工智能公司和艺术家之间巨大矛盾的根源。比如,Stability.AI 公司正面临来自艺术家和 Getty 图像公司的两起诉讼,他们认为该公司非法收集和处理了他们受版权保护的图片。
研究人员的新发现,可能会为艺术家们对人工智能公司侵犯版权的指责注入新的燃料。如果那些作品被用来训练模型的艺术家,能够证明该模型在未经允许的情况下复制了他们的作品,那么开发模型的公司可能不得不对他们进行补偿。
并没有参与这项研究的加州大学尔湾分校计算机科学系副教授萨米尔·辛格(Sameer Singh)认为,这些发现及时且重要。他补充说:“这对提高公众认知,并就这些大语言模型的安全和隐私问题展开讨论,是很重要的。”他说,这篇论文证明我们可以计算出人工智能模型是否复制了图像,并测量这种情况发生的程度。从长远来看,这两项发现都非常有价值。Stable Diffusion 模型是开源的,这意味着任何人都可以分析和研究它。Imagen 虽然尚未公开,但谷歌允许研究人员访使用它。他继续说,这项工作是一个很好的例子,说明了让研究人员对这些模型进行分析是多么重要。他认为,其他人工智能模型也应该有同样的透明度,比如 OpenAI 的 ChatGPT。
虽然研究结果令人印象深刻,但也有一些问题。该研究小组的苏黎世联邦理工学院计算机科学助理教授弗洛里安·特拉默(Florian Tramèr)表示,研究人员设法提取的人物图像多次出现在训练数据中,或者相对于数据集中的其他图像而言,有很不寻常的特性。他说,那些看起来不寻常或有名字的人被模型记住的风险更高。根据韦伯斯特的说法,研究人员只能从人工智能模型中提取出很少的个人照片的精确复刻版本:只有百万分之一。
但这仍然令人担忧,特拉默说:“我希望没有人在看到结果之后,很无所谓地说‘哦,才只有百万分之一,这也没有很糟啊。’”
他补充说:“我们要关注的事实是,这个数字(可能性)不是零,这是最重要的。”
支持:Ren
原文:
https://www.technologyreview.com/2023/02/03/1067786/ai-models-spit-out-photos-of-real-people-and-copyrighted-images/