GenAI与数据保护：对雇主来说最大的风险是什么？

作者：36氪的朋友们发布时间：2024-05-29

来源：企业网D1Net

如果你是雇主，打算试验像ChatGPT这样的GenAI工具，有一些数据保护陷阱需要引起注意。近年来，美国、欧洲和全球范围内的隐私和数据保护立法不断增加，你不能简单地将人力资源数据输入GenAI工具。毕竟，员工数据通常是高度敏感的，包括绩效数据、财务信息，以及健康数据。

显然，雇主在这一领域应寻求适当的法律指导，同样，咨询AI专家关于使用GenAI的伦理问题也是个好主意（这样你不仅在法律范围内行动，还能做到道德和透明），但作为起点，这里有两个主要考虑因素需要雇主了解。

将个人数据输入GenAI系统

正如我所说，员工数据通常是高度敏感和个人化的，这种数据，取决于你的司法管辖区，通常受最高形式的法律保护。

这意味着将这些数据输入GenAI工具是极其危险的，为什么？因为许多GenAI工具会使用提供给它们的信息来微调其底层语言模型，换句话说，它可能会将你提供的信息用于培训目的，并且可能会在未来向其他用户披露这些信息。例如，假设你使用GenAI工具根据内部员工数据创建一份员工薪酬报告，该数据可能会被AI工具用来在未来向其他用户（在你组织之外）生成响应，个人数据可能会很容易地被GenAI工具吸收并重复使用。

这并不像听起来那么阴险，深入研究许多GenAI工具的条款和条件，你会发现它们明确声明提交给AI的数据可能会用于培训和微调，或者在用户要求查看以前提交的问题示例时披露，因此，首先要做的是始终了解在同意使用条款时你到底签署了什么。

作为基本保护，我建议提交给GenAI服务的任何数据都应该是匿名化的，去除了任何可识别个人身份的数据，这也被称为“去识别”数据。

与GenAI输出相关的风险

这不仅仅是关于你输入到GenAI系统中的数据，GenAI输出或创建的内容也存在风险，特别是，GenAI工具的输出可能基于在违反数据保护法律的情况下收集和处理的个人数据。

例如，假设你要求GenAI工具生成一份关于你所在地区典型IT薪资的报告，存在工具可能从互联网抓取个人数据——未经同意，违反数据保护法律——然后将这些信息提供给你的风险。使用GenAI工具提供的任何个人数据的雇主可能会在数据保护违规中承担一定责任。现在，这在法律上是一个灰色地带，并且最有可能的是，GenAI提供商会承担大部分或全部责任，但风险依然存在。

通过了解这些风险，雇主可以更好地准备在利用GenAI工具时采取适当的保护措施和策略，以确保数据隐私和保护的合规性。

这样的案例已经开始出现。确实，有一起诉讼声称，ChatGPT是在未经同意的情况下，通过收集大量的个人数据（包括医疗记录和儿童信息）进行训练的。你不希望你的企业无意中卷入这样的诉讼中。基本上，我们谈论的是违反数据保护法律的“继承”风险，但这仍然是一种风险。

在某些情况下，互联网上公开可用的数据不算作个人数据的收集，因为这些数据已经存在，然而，这在不同的司法管辖区有所不同，因此请注意你所在司法管辖区的细微差别。此外，对你考虑使用的任何GenAI工具进行尽职调查。查看它们如何收集数据，并尽可能协商服务协议，以减少你的继承风险。例如，你的协议可以包括保证GenAI提供商在收集和处理个人数据时遵守数据保护法律的条款。

前进的道路

雇主必须考虑使用GenAI时的数据保护和隐私影响，并寻求专家建议，但不要因此完全放弃使用GenAI。仔细使用并在法律范围内，GenAI对雇主来说可以是一个非常有价值的工具。

还值得注意的是，新的工具正在开发中，它们考虑到了数据隐私。一个例子是哈佛开发的AI沙箱工具，该工具使用户能够利用某些大型语言模型（包括GPT-4），而不泄露他们的数据。用户输入的提示和数据仅对个人可见，不能用于训练模型。此外，一些企业正在创建自己的专有版本的工具，如ChatGPT，这些工具不会将数据分享给企业外部。

本文来自微信公众号“企业网D1net”（ID:D1Netchina），作者：Bernard Marr，36氪经授权发布。