本文字数: 1100, 阅读完需: 6 分钟
在一场亚马逊云科技活动上,演讲者阐释了”利用生成式AI和RAG架构保护敏感数据”的主题。演讲中,他探讨了如何安全地实现检索增强生成(RAG)架构,用于生成式AI应用程序。具体而言,他解释了在将数据上传至Amazon S3时需要保护敏感信息,以及需要过滤来自Amazon Bedrock的有害或敏感响应。该演讲重点介绍了亚马逊云科技服务(如Amazon Macie、亚马逊云科技WAF、亚马逊云科技PrivateLink和Amazon Bedrock的Guardrails)如何分别实现安全数据传输、网络隔离、敏感数据检测和负责任的AI过滤。
以下是小编为您整理的本次演讲的精华,共800字,阅读时间大约是4分钟。
在错综复杂的生成式人工智能领域,保护敏感数据是一项不容忽视的重要任务。来自韩国的资深解决方案架构师郑明锡深入探讨了这一关键方面,揭示了在为客户采用检索增强生成(RAG)架构时保护敏感信息的策略。
郑明锡的客户对生成式人工智能的魅力深有体会,希望将其整合到他们的聊天机器人服务中。起初,他们探索利用现有的基础模型,但很快意识到这些模型是在互联网数据上训练的,无法提供客户所需的定制响应。面对这一挑战,客户考虑了三种潜在解决方案:提示工程、创建自己的基础模型或对现有模型进行微调。然而,提示工程效果不佳,而后两种选择不仅成本高昂,而且需要大量的人工智能专业知识。
为了寻求折中,郑明锡的客户采用了RAG架构,这是一种允许在提示中传递上下文以获得所需答案而无需重新训练基础模型的方法。传统的RAG架构涉及将客户内部数据上传到Amazon S3,使用Amazon Bedrock的嵌入模型将其转换为向量格式,并将其存储在Amazon OpenSearch Service(亚马逊Elasticsearch Service的继任者)中。当客户向Amazon Bedrock提出查询时,他们会将来自该向量数据库的上下文与提示一起传递。
最近,Amazon Bedrock推出了两个新功能——Agents for Amazon Bedrock和Knowledge Base,这简化了RAG架构。然而,郑明锡的重点仍然是安全方面,而非深入探讨这些功能的细节。
郑明锡在RAG架构中确定了五个主要的安全问题点,其中第四和第五点与数据保护密切相关。首先,通过互联网将内部数据上传到Amazon S3存在数据被盗或篡改的风险。为了缓解这一风险,亚马逊云科技建议使用亚马逊云科技直连或亚马逊云科技站点到站点VPN,而非互联网。其次,面向互联网的负载均衡器可能会受到过多请求的影响,导致高昂成本或服务中断。亚马逊云科技Web应用程序防火墙(Amazon WAF)可以阻止来自特定源的超过设定阈值的请求,从而防止此类情况发生。
第三点,为确保云环境的安全,建议进行网络隔离,尤其是对于受严格监管的韩国金融公司。亚马逊云科技提供了Amazon Virtual Private Cloud (Amazon VPC)端点,以确保数据流仅在VPC内部流动,而不会流经互联网。第四点,意外上传敏感数据或个人信息到Amazon S3可能会导致数据泄露,从而损害公司声誉。亚马逊云科技的数据安全服务Amazon Macie可以自动检测何时将敏感数据上传到Amazon S3。它可以识别公开可访问或未加密的数据(存在策略问题的数据)以及敏感数据,如个人身份信息或敏感财务信息。还可以注册正则表达式来检测自定义的敏感数据类型,例如韩国社会保障号码。
最后,对Amazon Bedrock发出意外或有害的查询可能会导致客户机密信息被提取。最近推出的Amazon Bedrock的Guardrails功能通过实施负责任的人工智能,过滤掉Amazon Bedrock响应中的有害内容。在显示之前,它会根据被拒绝的主题、内容过滤器、个人身份信息(PII)编辑和词语过滤器来过滤答复。亚马逊云科技Identity and Access Management (IAM)和亚马逊云科技Key Management Service (KMS)通过分别管理权限和加密静态数据,为数据提供了强大的安全基础。
为了证明这些安全措施的有效性,Jung展示了两个演示。第一个演示了使用Amazon Macie检测敏感数据。Jung将包含敏感数据(护照号码、银行账号和韩国社会保障号码)的文件上传到Amazon S3。在Amazon Macie中,创建了一个作业来检测S3存储桶中的敏感数据,并使用正则表达式为韩国社会保障号码定义了自定义规则。结果显示检测到的敏感数据,包括文件路径、数据类型和示例数据,如一个韩国社会保障号码、一个银行账号和一个护照号码。
第二个演示重点介绍了Amazon Bedrock的Guardrails。创建了一个guardrail来过滤敏感响应,例如掩码电话号码和阻止包含护照号码的整个响应。在测试时,应用了guardrail后,成功地掩码了电话号码446-2,并阻止了包含护照号码的响应,而是显示了自定义消息”无法提供该信息”。
在本质上,容克的演讲强调了在为客户利用具有RAG架构的生成式人工智能时,保护敏感数据的至关重要性。通过实施诸如亚马逊云科技Direct Connect或亚马逊云科技Site-to-Site VPN、亚马逊云科技WAF、Amazon VPC端点、用于敏感数据检测的Amazon Macie以及用于负责任人工智能过滤的Guardrails for Amazon Bedrock等措施,客户可以发挥生成式人工智能的强大功能,同时确保其敏感信息(包括护照号码、银行账号和社会保障号码等数据点)的安全性。
下面是一些演讲现场的精彩瞬间:
客户最初尝试使用另一家公司已经制作的基础模型,将生成式AI应用于他们的聊天机器人服务,但很快意识到典型的基础模型无法提供所需的正确回复,因为这些模型是从互联网数据训练而来的。
为了确保云环境的安全性,建议尽可能隔离网络,这对于韩国金融公司来说尤为重要,因为韩国对金融行业有严格的监管。
幸运的是,监管正在逐步放宽,但客户仍希望将网络与互联网隔离。
这就是为什么亚马逊云科技提供VPC端点用于网络隔离,使用VPC端点,可以确保数据仅在亚马逊云科技内部流动,而不会通过互联网。
保护敏感数据是利用生成式人工智能时的一个关键问题,尤其是在金融等严格监管的行业。本次演讲探讨了如何安全地实施检索增强生成(RAG)架构,该架构允许使用内部数据定制人工智能模型,而无需重新训练基础模型。
传统的RAG方法涉及将内部数据上传到AMAZON S3,使用AMAZON Bedrock Embedding将其转换为向量格式,并将其存储在AMAZON OpenSearch Service中。然而,这种架构存在安全风险,例如在传输过程中数据暴露、面向互联网的负载均衡器遭受DDoS攻击,以及无意中上传敏感信息。为了减轻这些风险,亚马逊云科技建议利用专用网络,如AMAZON Direct Connect或Site-to-Site VPN,实施AMAZON WAF和VPC Endpoints进行网络隔离,并利用AMAZON Macie来检测敏感数据上传。
此外,该演讲还强调了生成式人工智能模型根据提供的上下文产生有害或敏感响应的潜在风险。为了解决这个问题,亚马逊云科技推出了AMAZON Bedrock的Guardrails,它可以过滤被拒绝的主题、编辑个人身份信息,并应用内容和词语过滤器,以确保人工智能输出的负责任。
演讲者强调了采取多层安全方法的重要性,将网络隔离、数据加密、访问控制和内容过滤相结合,以保护敏感数据的同时利用生成式人工智能的力量。通过实施这些措施,组织可以利用RAG架构的优势,同时降低潜在风险并确保符合数据保护法规。