集中学习和联邦学习中的隐私推理攻击与防御综述

作者：TAGIR-Group发布时间：2024-03-11

前言

机器学习方法的广泛应用推动了人工智能领域的发展，然而，模型的训练和推断依赖大量数据，往往包含敏感的私人信息，因此机器学习的隐私和安全问题面临重大挑战。鉴于此，来自扬州大学RISS-软件与安全实验室与南昆士兰大学TAGIR Group以及南京航空航天大学的研究者针对上述挑战全面回顾了机器学习中的隐私攻击，重点关注集中学习和联合学习两种场景。首先介绍了它们的架构和应用场景，随后对相关推理攻击进行了全面归纳和分类，并详细分析了攻击涉及的不同阶段。此外，综述还全面介绍并比较了现有的防御方法。最后，强调了开放性问题和潜在的未来研究方向，旨在为隐私攻击者和防御者的竞争做出贡献。

论文链接：https://ieeexplore.ieee.org/abstract/document/10429780/

背景介绍

事实证明，机器学习在各个领域都非常有效，例如图像识别、自然语言处理、图数据应用、计算机视觉、电子邮件过滤等等。在传统的集中式学习方法中，数据通常集中在云虚拟机上以建立强大的推理模型。然而，由于人们对隐私的日益关注以及隐私法的实施，数据所有者在共享数据时变得更加谨慎。因此，这导致了数据孤岛的出现，数据被孤立起来，不易共享。为此，一种在分布式数据集上训练模型同时保护数据隐私的方法——联邦学习被提出。通过建立一个在所有参与设备或服务器之间共享的通用模型，联邦学习能够在每个设备上进行本地模型训练，而无需将原始数据传送到中央服务器。然而，联邦学习同样面临着隐私泄露的风险。与操纵模型的对抗性攻击相比，隐私推理攻击的目的是在不破坏模型正常训练过程的情况下提取私人信息。这一特点使它们更具隐蔽性，并大大增加了相关风险。该综述将集中学习和联邦学习分为三个关键阶段：数据获取、训练和预测，并从攻击者和防御者的角度来分析每个阶段。

攻击者的视角

本文回顾了近年来发表的多篇讨论机器学习中隐私攻击的重要文献。并将这些攻击分为三类：成员推理攻击、模型提取攻击和属性推理攻击。此外，依据攻击者能获取的知识，本文将隐私攻击分为两种类型：白盒攻击和黑盒攻击。在白盒攻击中，攻击者知道目标模型的结构，可以获取其内部参数。而在黑盒攻击中，攻击者只能通过预测 API 请求目标分类器，并获取其相应的置信度值。

成员推理攻击

成员推理攻击的目标是确定训练集中是否存在给定的数据，攻击者可以通过使用影子训练方法进行成员推理攻击。攻击者以模拟目标模型行为的方式训练每个影子模型。一旦影子模型完成训练，攻击者就会使用各自的影子训练数据集和测试数据集查询每个模型，从而获得输出结果。对于影子训练数据集，预测向量被标记为"in"，而对于影子测试数据集，预测向量被标记为"out"。利用"in"和"out"数据集即可训练出攻击模型。

属性推理攻击

属性推理攻击旨在推断模型提供者不愿公开的训练数据集中的机密信息，如年龄或性别分布。这些攻击可能发生在模型训练阶段，也可能发生在模型训练完成之后。后者通常被称为模型反转攻击。

在联邦学习中，属性推理攻击的基本流程如下图所示。在每次迭代中，参与者都会下载最新的联邦模型，计算梯度更新，并将其传输给服务器。除这些操作外，攻击者还会保存联邦模型参数的快照。攻击者利用所有参与者的更新来发起属性推理攻击。

模型提取攻击

随着机器学习模型训练成本的增加和机器学习即服务（MLaaS）的普及，机器学习模型已成为宝贵的资产。然而，这也带来了新的隐私风险，因为攻击者可以使用模型提取攻击来复制目标模型的功能，从根本上窃取模型。通常，这类攻击发生在推理阶段，即模型已经训练完成之后。

攻击者使用输入输出对来重新训练复制模型。他们还应用了一种基于边际的对抗性主动学习算法来搜索模型池和恶意示例，并利用这些样本查询受害者模型，以有效估计受害者模型的决策边界与被窃模型之间的距离，从而减少所需的查询次数，加快窃取速度。

防御者的视角

与攻击类似，本文总结了四种常见的防御方法，包括差分隐私、密码学、对抗性机器学习和水印技术。

差分隐私：差分隐私是保护深度学习模型隐私的常用工具。它包括添加随机噪音来隐藏或模糊查询操作的实际结果，直到攻击者无法分辨为止，从而保护敏感数据。

密码学：密码学在机器学习中发挥着重要作用，它提供了各种技术来确保安全高效的操作，同时不会泄露敏感信息或牺牲功能。

对抗性机器学习：对抗式机器学习是一个侧重于通过采用对抗者视角来防御隐私攻击的领域。通过将防御者视为攻击者，可以更深入地了解恶意攻击者采用的策略和技术。这种方法能让防御者深入了解隐私的潜在漏洞和威胁，从而提高他们实施强大防御机制的能力。

水印技术：随着深度学习模型规模的不断扩大，训练这些模型所需的计算资源和训练数据也变得越来越昂贵。因此，销售预先训练好的模型有可能成为一种利润丰厚的商业模式。然而，该领域面临的一个重大挑战是这些模型很容易被复制和重新分配。为了解决这个问题，研究人员提出了水印技术。这些技术的目的是在模型中加入跟踪机制，使模型能被唯一地识别为特定提供商的知识产权。通过嵌入水印，可以确定模型的来源和所有权，从而阻止未经授权的分发，保护提供商的利益。

未来的工作

方向1：提高攻击的鲁棒性

许多针对机器学习模型的攻击都利用了过度拟合的弱点。有些攻击甚至需要访问模型的内部细节，而这在现实世界中是很难实现的。为了应对过拟合攻击，人们开发了各种防御机制，包括差分隐私和对抗攻击。因此，有必要继续开发更强大的攻击，以克服这些防御机制，并探索机器学习模型的新漏洞。

方向2：扩展攻击方法研究的领域

攻击方法的研究应该扩展到机器学习的各种模型和领域。虽然包括分类模型和生成模型在内的众多模型和领域都曾是推理攻击的目标，但一些新兴的模型和领域，如自我监督学习、元学习和同构联合学习，却较少受到关注。鉴于这些模型在机器学习中的重要性与日俱增，研究和开发针对它们的推理攻击策略至关重要。这项研究不仅能提高隐私防御能力，还能促进机器学习的动态发展。

方向3：权衡隐私、效率和准确性之间的平衡

现有的隐私保护方案在实现隐私、效率和准确性之间的平衡方面面临挑战。同态加密或安全多方计算等技术可以提供强大的隐私保护，但与复杂加密函数相关的计算开销会严重影响系统性能。另一方面，差分隐私可提高效率，但随机噪音的引入会降低模型预测的准确性。因此，未来的隐私推理工作应侧重于在这三个方面取得平衡。开发既能有效保护隐私，又能尽量减少对系统效率和模型准确性影响的新型技术和方法至关重要。

方向4：构建完善的防御体系

当前的防御机制可能不足以应对未来未知的攻击威胁。仅仅依靠现有的防御方法，而不主动规划应对新的或专门的攻击威胁，可能会导致技术产品的安全措施不足。此外，当系统面临涉及多种攻击类型的安全威胁时，传统的单一解决方案可能无法产生有效的防御效果。在涉及多个参与者的联邦学习中，设计个性化的隐私保护机制以满足不同参与者的特定隐私需求至关重要。这样可以确保只保护必要的参与者或特定属性，提高隐私保护措施的效率和效果。