企业如何获得生成式AI时代的数据“安全感”？

作者：杨剑勇发布时间：2024-07-04

生成式人工智能（生成式AI）正在成为任何人都无法忽视的生产力变量。在它的面前，以往的知识与技能壁垒开始松动甚至坍塌，并为各领域机构的创新带来新的无穷可能性。

但企业利用生成式AI进行业务创新的同时也不免面临新的隐忧。企业或机构向生成式AI模型提供数据——很可能是涉及核心业务及客户信息等关键数据——是否能被妥善地保管、使用，及进行必要的隔离；还有生成式AI的一些“固有问题”，如怎样实现负责任的AI，过滤有害内容，确保内容符合当地及企业政策等问题……

通常情况下，规模化生成式AI应用都发生在云端，更多企业机构也将依赖于云开展生成式AI的业务创新。因此，我们可以将生成式AI的安全话题，看作是对云计算安全提出的新挑战。

亚马逊云科技对AI的研究已持续数年，其中包括生成式AI应用被广泛应用后产生的安全需求演变。对于云计算安全，亚马逊云科技的态度是一贯的——在业务初期就考虑安全因素，主动设计而不是被动响应。聚焦到生成式AI相关服务、功能及应用，亚马逊云科技在其安全的基础设施之上，在生成式AI服务及功能设计之初就充分考虑了安全因素，并进一步构建了负责任AI的防护机制。与此同时，亚马逊云科技也在利用生成式AI来赋能已有的或新推出的安全服务。这些举措帮助亚马逊云科技的客户在使用生成式AI服务时能获得不逊色于以往任何时候的安全体验。

从底层基础设施层面实现对生成式AI工作负载数据的隔离与加密保护

企业使用生成式AI最大的顾虑之一是如何保护他们的数据及隐私安全。企业可能会使用高度敏感的如个人数据、合规数据、运营数据和财务信息用于模型优化或使用生成式AI应用。

企业为了安全地使用生成式AI，首先应考虑三个问题：1）数据在哪里？企业需要知道用数据训练模型的整个工作流程中，这些数据来自哪，以及是如何被处理和保护的。2）如何处理模型推理时的输入和输出数据？训练数据并不是企业需要关注的唯一敏感数据集，企业查询本身也应该成为数据保护计划的一部分。3）生成式AI模型的输出是否准确？不同的生成式AI的使用场景对准确度和风险的要求不同。如果企业正在使用大型语言模型来生成代码，那么企业就必须要确认这个代码是否写得足够好，是否遵循了企业的最佳实践等等。

亚马逊云科技对客户生成式AI的保护始于其基础设施。亚马逊云科技独有的云服务器虚拟化引擎Amazon Nitro将主机CPU/GPU的I/O功能卸载至专门的硬件上，不但提供了更加一致的性能，其增强的安全性可以在客户端和云端全程保护客户的代码和数据在处理过程中的安全。这一独有的功能已经获得了领先的网络安全公司NCC Group的独立验证。

Nitro系统提供的硬件级别的安全机制，首先从设计上将客户数据与运营商进行完全隔离，即亚马逊云科技作为运营商无法访问客户在Amazon Elastic Compute Cloud (Amazon EC2)实例上运行的包括生成式AI相关在内的工作负载或数据。其次，客户还可以通过Amazon Nitro Enclaves和Amazon Key Management Service（Amazon KMS），使用密钥加密敏感的生成式AI数据，将其存储在指定的位置，并安全地将加密数据传输到隔离的计算环境中进行推理计算。此外，亚马逊云科技还将Amazon Nitro Enclaves和Amazon KMS端到端加密流程进一步扩展到如Amazon Trainium2和其他GPU，进一步增强用户生成式AI数据在基础设施设备间的安全通信。

在生成式AI服务的设计之初就考虑安全性，并成为负责任的AI

除了构建安全的全球云基础设施，亚马逊云科技的安全不止安全服务，其所有服务均有安全基线。亚马逊云科技提倡在新服务设计初期就考虑安全因素。

以生成式AI完全托管服务Amazon Bedrock为例，作为一项为让客户便捷地使用基础模型构建和扩展生成式AI应用程序的云服务，Amazon Bedrock在设计之初就考虑了如何发挥基础设施安全能力，以及AI服务本身的安全需求。亚马逊云科技和第三方模型提供商不会使用 Amazon Bedrock 的任何输入或输出来训练其基础模型。在使用Amazon Bedrock时，客户的数据在传输过程中和静态存储时都经过加密，客户的所有数据都是始终安全且私密的。客户可以使用Amazon PrivateLink建立从Amazon Virtual Private Cloud（Amazon VPC）到Amazon Bedrock的私有连接；或者采用基于身份识别的安全策略，例如在使用Amazon KMS创建、管理和控制加密密钥时，定义哪些用户或角色可以在什么条件下对哪些资源执行什么操作。

对于云计算用户来说，数据与隐私安全并非生成式AI带来的“新话题”。但生成式AI也确实带来了像“负责任的AI（Responsible AI）”这种AI时代独有的安全考验。当客户在使用Amazon Bedrock这类生成式AI服务时，不得不考虑过滤有害内容，确保内容符合当地及企业政策等问题。

为此，Amazon Bedrock配备了帮助客户实施负责任AI的防护机制（Guardrails for Amazon Bedrock）。相比于一些AI大模型仅通过内部控制模块来过滤内容，Amazon Bedrock的防护机制能让客户进一步定制AI应用程序，以便符合不同标准的内容政策。

客户只需提供一个自然语言描述来定义其应用程序上下文中被拒绝的主题，即可创建个性化的防护机制，还可以配置阈值，跨领域过滤诸如仇恨言论、侮辱、暴力等语言，以及设置过滤器来删除任何个人和敏感信息、亵渎言论或特定的屏蔽词。通过这种“内置+定制”的双重防护机制，更大限度保证基于生成式AI的业务能良好实践负责任的AI要求。

借助生成式AI的能力让安全更易实现

在云环境中，生成式AI并不仅仅是“被保护者”，它本身也能成为提升安全的强大工具，从业务初期就能揭示那些潜伏的、未被意识到的风险。

代码编写方式是信息安全中最大的变量之一，一些小问题就可能导致严重的安全后果。包括生成式AI模型本质上也是代码，也可能因为代码编写的漏洞而存在安全隐患。从安全角度来看，从一开始就编写出安全的代码，无疑比在编写完成后，已经进行了测试，甚至已经交付后再去修改要好得多。

为了帮助云计算客户达成符合安全需求的代码编写，亚马逊云科技将AI能力运用到代码生成器上，以服务或功能的方式提供给客户。

亚马逊云科技推出的用于IDE（集成开发环境）和命令行的AI生产力工具Amazon Q Developer，是一个以机器学习为动力的代码生成器，直接在集成开发环境中为开发者提供实时代码建议。Amazon Q Developer不仅能极大提升开发者的编码效率，而且还能让代码更加安全。它内置了安全扫描功能，能够扫描代码以检测难以发现的漏洞，并根据客户的代码，提供专属修复建议，帮助开发者及时快速修复该漏洞。

Amazon Q Developer同样为客户提供了定制化的选择，以便使用自己的私有代码库来提升产出成果。为了确保用于开发的数据处于隔离计算环境，以及防止一切未经授权的访问，Amazon Q Developer设置了一系列不可变更的安全机制，包括不同工作负载之间的数据隔离，Amazon KMS对静态数据的加密，基于身份认证的数据访问授权，以及数据存储时的加密和强制隔离。

一些原有的安全服务也正在逐渐通过生成式AI获得新的功能。例如漏洞管理服务Amazon Inspector，它的Amazon Lambda函数代码扫描功能从去年开始使用生成式AI和自动推理的辅助代码修复，以简化更新易受攻击代码的过程。Amazon Detective也在去年增加了使用生成式AI来构建安全事件描述的能力。生成式AI可以自动分析调查发现组并以自然语言提供洞察，帮助安全工程师加快安全调查。

这些基于生成式AI的创新服务和新的升级，为安全工作创造了更便捷、更高效的新可能。我们可以期待，企业的安全工程师将能够以更少的工作负担来达成目标，使企业得以更从容地应对各类安全风险。

写在最后

在不远的未来，生成式AI将如同当下的互联网与云计算一样变得无处不在。尽管新的数字技术产物也将无可避免地带来新的安全挑战，但我们无需为此过分担忧。成熟的安全防护机制，加上新的安全功能，足以为云上生成式AI业务构建起可靠的安全环境。生成式AI本身也成为安全创新的助力，让新的安全功能更具主动性，更加简单易用。

云计算厂商积累的经验与智慧，将继续在AI时代护航用户的安全——经历过数次重大技术变革之后，安全工作者愈发知道如何应对变革，让新事物的到来可控且有序。