亚马逊云科技：使用RAG保护生成式AI的敏感数据

作者：沧海一生笑2024发布时间：2024-07-17

关键字: [reInforce, Guardrails for Amazon Bedrock, Sensitive Data Protection, Generative Ai Security, Retrieval Augmented Generation, Amazon Bedrock Guardrails, Amazon Macie Detection]

本文字数: 1100, 阅读完需: 6 分钟

导读

在一场亚马逊云科技活动上,演讲者阐释了”利用生成式AI和RAG架构保护敏感数据”的主题。演讲中,他探讨了如何安全地实现检索增强生成(RAG)架构,用于生成式AI应用程序。具体而言,他解释了在将数据上传至Amazon S3时需要保护敏感信息,以及需要过滤来自Amazon Bedrock的有害或敏感响应。该演讲重点介绍了亚马逊云科技服务(如Amazon Macie、亚马逊云科技WAF、亚马逊云科技PrivateLink和Amazon Bedrock的Guardrails)如何分别实现安全数据传输、网络隔离、敏感数据检测和负责任的AI过滤。

演讲精华

以下是小编为您整理的本次演讲的精华，共800字，阅读时间大约是4分钟。

在错综复杂的生成式人工智能领域,保护敏感数据是一项不容忽视的重要任务。来自韩国的资深解决方案架构师郑明锡深入探讨了这一关键方面,揭示了在为客户采用检索增强生成(RAG)架构时保护敏感信息的策略。

郑明锡的客户对生成式人工智能的魅力深有体会,希望将其整合到他们的聊天机器人服务中。起初,他们探索利用现有的基础模型,但很快意识到这些模型是在互联网数据上训练的,无法提供客户所需的定制响应。面对这一挑战,客户考虑了三种潜在解决方案:提示工程、创建自己的基础模型或对现有模型进行微调。然而,提示工程效果不佳,而后两种选择不仅成本高昂,而且需要大量的人工智能专业知识。

为了寻求折中,郑明锡的客户采用了RAG架构,这是一种允许在提示中传递上下文以获得所需答案而无需重新训练基础模型的方法。传统的RAG架构涉及将客户内部数据上传到Amazon S3,使用Amazon Bedrock的嵌入模型将其转换为向量格式,并将其存储在Amazon OpenSearch Service(亚马逊Elasticsearch Service的继任者)中。当客户向Amazon Bedrock提出查询时,他们会将来自该向量数据库的上下文与提示一起传递。

最近,Amazon Bedrock推出了两个新功能——Agents for Amazon Bedrock和Knowledge Base,这简化了RAG架构。然而,郑明锡的重点仍然是安全方面,而非深入探讨这些功能的细节。

郑明锡在RAG架构中确定了五个主要的安全问题点,其中第四和第五点与数据保护密切相关。首先,通过互联网将内部数据上传到Amazon S3存在数据被盗或篡改的风险。为了缓解这一风险,亚马逊云科技建议使用亚马逊云科技直连或亚马逊云科技站点到站点VPN,而非互联网。其次,面向互联网的负载均衡器可能会受到过多请求的影响,导致高昂成本或服务中断。亚马逊云科技Web应用程序防火墙(Amazon WAF)可以阻止来自特定源的超过设定阈值的请求,从而防止此类情况发生。

第三点,为确保云环境的安全,建议进行网络隔离,尤其是对于受严格监管的韩国金融公司。亚马逊云科技提供了Amazon Virtual Private Cloud (Amazon VPC)端点,以确保数据流仅在VPC内部流动,而不会流经互联网。第四点,意外上传敏感数据或个人信息到Amazon S3可能会导致数据泄露,从而损害公司声誉。亚马逊云科技的数据安全服务Amazon Macie可以自动检测何时将敏感数据上传到Amazon S3。它可以识别公开可访问或未加密的数据(存在策略问题的数据)以及敏感数据,如个人身份信息或敏感财务信息。还可以注册正则表达式来检测自定义的敏感数据类型,例如韩国社会保障号码。

最后,对Amazon Bedrock发出意外或有害的查询可能会导致客户机密信息被提取。最近推出的Amazon Bedrock的Guardrails功能通过实施负责任的人工智能,过滤掉Amazon Bedrock响应中的有害内容。在显示之前,它会根据被拒绝的主题、内容过滤器、个人身份信息(PII)编辑和词语过滤器来过滤答复。亚马逊云科技Identity and Access Management (IAM)和亚马逊云科技Key Management Service (KMS)通过分别管理权限和加密静态数据,为数据提供了强大的安全基础。

为了证明这些安全措施的有效性,Jung展示了两个演示。第一个演示了使用Amazon Macie检测敏感数据。Jung将包含敏感数据(护照号码、银行账号和韩国社会保障号码)的文件上传到Amazon S3。在Amazon Macie中,创建了一个作业来检测S3存储桶中的敏感数据,并使用正则表达式为韩国社会保障号码定义了自定义规则。结果显示检测到的敏感数据,包括文件路径、数据类型和示例数据,如一个韩国社会保障号码、一个银行账号和一个护照号码。

第二个演示重点介绍了Amazon Bedrock的Guardrails。创建了一个guardrail来过滤敏感响应,例如掩码电话号码和阻止包含护照号码的整个响应。在测试时,应用了guardrail后,成功地掩码了电话号码446-2,并阻止了包含护照号码的响应,而是显示了自定义消息”无法提供该信息”。

在本质上,容克的演讲强调了在为客户利用具有RAG架构的生成式人工智能时,保护敏感数据的至关重要性。通过实施诸如亚马逊云科技Direct Connect或亚马逊云科技Site-to-Site VPN、亚马逊云科技WAF、Amazon VPC端点、用于敏感数据检测的Amazon Macie以及用于负责任人工智能过滤的Guardrails for Amazon Bedrock等措施,客户可以发挥生成式人工智能的强大功能,同时确保其敏感信息(包括护照号码、银行账号和社会保障号码等数据点)的安全性。

下面是一些演讲现场的精彩瞬间：

客户最初尝试使用另一家公司已经制作的基础模型,将生成式AI应用于他们的聊天机器人服务,但很快意识到典型的基础模型无法提供所需的正确回复,因为这些模型是从互联网数据训练而来的。

为了确保云环境的安全性,建议尽可能隔离网络,这对于韩国金融公司来说尤为重要,因为韩国对金融行业有严格的监管。

幸运的是,监管正在逐步放宽,但客户仍希望将网络与互联网隔离。

这就是为什么亚马逊云科技提供VPC端点用于网络隔离,使用VPC端点,可以确保数据仅在亚马逊云科技内部流动,而不会通过互联网。

总结

保护敏感数据是利用生成式人工智能时的一个关键问题,尤其是在金融等严格监管的行业。本次演讲探讨了如何安全地实施检索增强生成(RAG)架构,该架构允许使用内部数据定制人工智能模型,而无需重新训练基础模型。

传统的RAG方法涉及将内部数据上传到AMAZON S3,使用AMAZON Bedrock Embedding将其转换为向量格式,并将其存储在AMAZON OpenSearch Service中。然而,这种架构存在安全风险,例如在传输过程中数据暴露、面向互联网的负载均衡器遭受DDoS攻击,以及无意中上传敏感信息。为了减轻这些风险,亚马逊云科技建议利用专用网络,如AMAZON Direct Connect或Site-to-Site VPN,实施AMAZON WAF和VPC Endpoints进行网络隔离,并利用AMAZON Macie来检测敏感数据上传。

此外,该演讲还强调了生成式人工智能模型根据提供的上下文产生有害或敏感响应的潜在风险。为了解决这个问题,亚马逊云科技推出了AMAZON Bedrock的Guardrails,它可以过滤被拒绝的主题、编辑个人身份信息,并应用内容和词语过滤器,以确保人工智能输出的负责任。

演讲者强调了采取多层安全方法的重要性,将网络隔离、数据加密、访问控制和内容过滤相结合,以保护敏感数据的同时利用生成式人工智能的力量。通过实施这些措施,组织可以利用RAG架构的优势,同时降低潜在风险并确保符合数据保护法规。

12月26日，陕西省延安市志丹县义正镇寨子洼村发生一起原油泄漏事故，当地多名网友在社交平台发布相关短视频。记者注意到，视频中的原油已经冲到地面，部分甚至流到河流里，黑色的原油大面积冲击在道路上，绵延几十米。27日，记者多方核实了解到，此事故发生于延长油田股份有限公司志丹采油厂。该采油厂宣传科负责人告诉记者，现场目前已经处理完毕，“这个主要是我们一个外包公司处理原油时发生的，现场已经清理完毕，我们也马上发通报了，到时候以通报为准。”志丹县生态环境执法大队相关负责人告诉记者，寨子洼村的河面和道路已经完成清理，

化工365 2024-12-27

挂靠国企的私企相对于不挂靠的私企，主要有以下几个优势： 1.增强市场信任：国企通常在公众心目中具有较高的信誉和稳定性，私企挂靠国企后，能够借助国企的品牌影响力，增强自身的市场信誉和公众认可度。 2.资源共享：国企在资金、技术、人才等方面通常拥有较为丰富的资源。私企通过挂靠国企，可以更容易地获得这些资源的支持，从而加速自身的发展。 3.政策扶持：国企作为国家经济的重要支柱，往往能够享受到更多的政策优惠和支持。私企通过与国企的合作，可以间接受益于这些政策红利，降低经营成本，提高盈利能力。 [图片] 4.风险分

bili_1670512731 2024-12-27

亚马逊云科技：使用RAG保护生成式AI的敏感数据

关键字: [reInforce, Guardrails for Amazon Bedrock, Sensitive Data Protection, Generative Ai Security, Retrieval Augmented Generation, Amazon Bedrock Guardrails, Amazon Macie Detection]

导读

演讲精华

总结

推荐体验

相关资讯

微软、亚马逊提防 ChatGPT 窃密，禁止员工分享敏感数据

亚马逊云科技保护企业生成式AI应用程序安全

亚马逊云科技赋能生成式AI使用安全

亚马逊云科技：使用安全的生成式AI至关重要

担心敏感数据泄露，软银和日立等日企限制使用ChatGPT

近期资讯

迅杰光远助力福建省饲料工业协会年会，共探饲料行业新未来

中智伟业资讯 | 突发！陕西一采油厂发生原油泄漏事故

青绿洞察丨破除泰国垃圾围城精细分选势在必行

12V5A电源适配器应用场景

2024总结｜项目申报八大误区

挂靠国企的私企相对不挂靠的有什么优势？

认知战认知作战：解读2000年小布什戈尔总统选举争议的策略博弈

TDK授权中国一级代理商-正规代理的品质保障

特朗普等不及了……

Phoslock®锁磷剂：高效治愈大型湖泊水库富营养化

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响