智东西
作者 | ZeR0
编辑 | 漠影
今年以来,生成式AI(人工智能)应用场景的井喷,催生出新的安全挑战,给云安全技术带来更严峻的考验。生成式AI需要依赖大量的数据和模型,任何一个环节的安全疏漏,如使用不安全的模型训练及微调、模型的泄露、不安全的应用、不安全的应用访问等等,都可能会导致企业自身数据及隐私的泄露,或者产生不准确甚至错误的结果。
根据国际开源安全组织OWASP报告,针对大语言模型(LLM)应用的十大安全威胁包括提示注入、数据泄露、沙箱隔离不足、未经授权的执行代码、SSRF漏洞、过度依赖LLM生成的内容、AI调整能力不足、错误处理不当、训练数据污染等。企业只有确保应用AI各个环节的安全合规,才能更好地的助力业务开展创新。
面临如此多的安全挑战,云计算企业如何应对?从应用到数据、框架、基础设施以及整个的合规体系来看,怎样建设一个合规的、安全的AI应用和生成式AI应用?近日,国际云计算巨头亚马逊云科技(AWS)给出了它的答案。在8月31日举办的亚马逊云科技re:Inforce2023中国站上,亚马逊云科技大中华区解决方案架构部总监代闻分别从数据和模型安全、应用安全、全球合规三大方面,分享了生成式AI在安全层面给企业带来的挑战及机遇。
亚马逊云科技认为,安全是构建生成式AI不可回避的重要议题,企业只有在AI旅程中做好数据、模型和应用的安全防护,才能更好地借助AI加速业务创新。为此,亚马逊云科技正式推出“敏感数据保护解决方案”,帮助客户在数据治理层面,实现自动化敏感数据发现并在统一平台上管理数据资产;并发布多项安全新服务及功能,帮助客户构建应用程序的零信任管理,提升漏洞发现及响应的智能化。
会后,代闻与亚马逊云科技大中华区安全合规与治理产品总监白帆、亚马逊云科技大中华区技术专家团队总监王晓野接受智东西等媒体的采访,围绕生成式AI的云上安全挑战,确保数据、模型、应用安全的对策,以及亚马逊云科技如何为AI应用构筑安全基石等话题进行了深入交流。
一、数据安全:治理流程贯穿生成式AI全周期,防止数据泄露与篡改是关键
“安全始终是亚马逊云科技的首要任务,是我们的首要优先级。”亚马逊云科技大中华区解决方案架构部总监代闻说。
数据治理流程贯穿生成式AI全周期,从数据源的摄取到以智能湖仓为基础的数据分析和处理,再到把分析处理得出的结果安全传送到AI平台进行训练调优和推理,这一整条链路上的数据分类和数据治理,整个流程、实践还有产品工具,在亚马逊云科技上都可以得到完善的支持。
高质量数据是构建生成式AI能力的关键,有两个保护重点:防止数据泄露,防止数据篡改。
亚马逊云科技构建了一套名为“Well-Architected Framework”的整体方法论,其中安全支柱很明确地讲明了如何保护存储中的数据的方法论:1)实施安全密钥管理;2)静态数据保护自动化;3)实施访问控制;4)利用机制限制数据访问。
其中,Amazon KMS在实施安全密钥管理方面可以做非常好的支持,它能够集中管理密钥的策略,已经与云上140多种服务深度集成,也就意味着140多种服务可以使用Amazon KMS很好地管理数据加密以及密钥的管理。KMS会在不同的国家和地区使用不同的加密算法来保证合规。
对于模型训练来说,静态数据的加密只是一个基本防护。数据保护的另一重点是如何能识别敏感数据。对此,亚马逊云科技中国方案开发中心发布了一个敏感数据保护解决方案,它可以集中管理所有的账号,自动发现各种存储中的敏感数据,同时使用AI方法来识别其中的敏感信息,以此来可视化整个组织范围中的数据资产、信息敏感数据的基础管理。该方案已经可以下载使用。
亚马逊云科技大中华区安全合规与治理产品总监白帆补充说,对于云计算而言,中国具有一定特殊性,因为文字、姓名、地址、身份证格式、电话/手机号码的格式跟境外不太一样。对此,敏感数据保护解决方案里加入了对中国本地的语言语义的识别,同时引入了合作伙伴的识别能力,有200多项预置的规则帮助客户自动识别敏感的数据,同时提供高度保护。
数据传输中的数据保护有四大方面:1)实施安全密钥的证书管理;2)传输中执行加密;3)自动检测意外的数据访问;4)对网络通信进行身份验证。
对此,亚马逊云科技提供的支持包括:1)跨区域之间的数据传输,有专门的网络和连接来帮助实现;2)VPC内部以及VPC之间的传输,比如从大数据的集群、智能湖仓里把智能湖仓里的VPC数据传输到另外一个机器学习的VPC里,中间的传输是受到保护的;3)迁移上云的过程中,支持VPN,也支持专线和各种私有的和加密的数据传输;4)在应用层使用TLS 1.2,并使用AES 256作为cipher(密码)。
亚马逊云科技正推动其所有服务节点进行TLS 1.2升级,将在2024年全面实现TLS 1.2,从整个基础架构上实现应用层的加密和传输的保护。
实现这些功能的基础,是亚马逊云科技为全球数百万活跃客户提供安全身份认证和合规服务的经验。正如亚马逊的CEO Andy Jassy曾经说过的,“经验没有压缩算法”。目前,亚马逊云科技已经在245个国家和地区提供服务,覆盖32个区域、102个可用区。
使用中的数据保护有四个方面:1)做好身份认证;2)隔离环境;3)可控的多方协作;4)以安全方式进行数据共享。
亚马逊云科技的基础运算平台Amazon Nitro,对于提升云中计算的安全性至为关键。Amazon Nitro整个安全特性深藏于整个虚拟化平台的底部,并不是单单只给Amazon EC2,很多其他的服务基层也都是基于亚马逊云科技的计算实例来构成的,所以Amazon Nitro的安全性和性能已经遍布到所有亚马逊云科技的服务里。
Amazon Nitro提供了本地存储实例加密到裸金属以及实例间的加密传输的完整支持。这也是最近10年业界硬件虚拟化提升性能、提升安全的一个缩影。
二、模型安全:提供负责任的AI基础模型,组织内部数据不会被共享
各行各业都希望能抓住生成式AI带来的机遇开展业务创新。企业根据自身场景,在云平台的支持下,可选择适合的基础模型,或利用自身数据基于基础模型构建定制化的模型,或直接使用开箱即用的生成式AI应用。
代闻说,模型的访问策略不是静态的、一次性的,而需要通过设置验证调优不断迭代,才能保证访问控制的策略是与时俱进的。
在亚马逊云科技上,访问控制策略实施的基础有一个支撑服务Amazon Identity and Access Management(Amazon IAM),发布于2011年5月,到现在已经走过了12年。生成式AI的访问策略非常复杂,需要一系列更多的在更高抽象级别上的服务来控制这些访问策略。
亚马逊云科技做产品服务秉持着一个理念叫做“逆向工作法”,95%以上的服务都是通过不断听取客户的需求生产出来的。基于Amazon IAM,亚马逊云科技陆续发布了很多服务,这些服务都是为了让大家在更加复杂的企业环境里更加轻松实现访问控制的设置、验证以及实施。现在Amazon IAM的API调用包含直接以及间接地通过高阶服务的调用,每秒有10亿次以上。
Amazon SageMaker在2017年发布后不断推出新的能力,有三个代表性的功能:1)Amazon SageMaker Model Cards,用于存储某个模型的用途和元数据、共享模型信息;2)Amazon SageMaker Model Registry,有一个私有仓库来保存和管理模型版本;3)Amazon SageMaker Model Monitor,分析模型投产后需要多少基础设施、状态是否安全等。这些功能在落地的时候还需要配合其他的功能一起来用。
亚马逊云科技还发布了Amazon Bedrock和多种生成式AI的服务和功能,帮助客户在企业环境中安全高效地构建和扩建自己生成式AI应用程序。
Amazon Bedrock既提供AI21 Labs、Anthropic、Stability AI、Cohere等第三方合作伙伴提供的负责任AI的基础模型,又提供亚马逊云科技自己的基础模型。亚马逊云科技不认为任何一个大模型可以解决所有的问题,因此在合适的场景中挑选合适的大模型非常重要。
代闻解释道,负责任的AI不只是指模型本身,更是说怎样构建和调优该模型的过程中企业所需做的工作,涉及准确性、安全性、知识产权与版权、适当使用、避免有害性、隐私保护。亚马逊云科技在负责任的AI方面有坚定的承诺,将会帮助企业客户一起负责任地构建AI和机器学习应用程序所需的工具和指导。
亚马逊云科技大中华区技术专家团队总监王晓野补充说,Amazon Bedrock的定位是让用户有办法最容易地使用生成式AI最领先的模型,亚马逊云科技通过API以及包括IAM和VPC等基于云构建好的环境,相当于把基础设施上的一系列最佳实践通过Amazon Bedrock以API的方式提供出来,让客户更好地使用。
此外,Amazon Bedrock支持使用组织内部的数据来训练大模型,同时保证两点:一是背后给大模型做了私有拷贝,这个拷贝只供私有服务,不会再跟其他大模型共享;二是训练数据只是在自己的账户里来帮助工作,不会拿任何用户的数据来增进亚马逊云科技自己的模型。
三、应用安全:大模型加速零信任落地,需结合实际情况设置防护策略
应用安全是实现AI价值的保障。亚马逊云科技提了多年的DevSecOps,以实现开发全流程的安全。安全应该贯穿到从开发到持续集成、持续部署,再到投产、监控及反馈的过程中,近期亚马逊云科技新推出了两项服务来提供支撑:
一是Amazon CodeWhisperer,一个基于AI的代码自动补全工具,也是一个能够帮助查找漏洞的AI助手,对于所有个人开发者都是免费的。
如果调用的代码里有某一段开源代码,其协议有很多限制和要求,Amazon CodeWhisperer能够识别出来给予提示。此外,如果自动生成的代码里面只是一个测试代码或者一个Prototype原型的代码,这个原型代码在投产的时候可能会出现DDoS攻击,Amazon CodeWisperer能够帮助识别出来。
二是Amazon CodeGuru Security,主要定位是在CICD的阶段,无论整个组织是想更偏研发,做整个DevOps文化,还是让开发和运维之间分得比较开,Amazon CodeGuru Security都能够给出完善的答案。它可以扫描代码,在代码里寻找漏洞,也能够在CI/CD的过程里通过AI和机器学习的方式自动降低误报率,同时它基于API设计,能够非常方便地集成到开发工作流里边去,实现集中化和可扩展性。
在整个DevOps过程里边,从代码的开发开始,到代码的审计、持续集成,到部署、再到最后的投产,都有完善的工具链的支撑,以此来实现对于应用开发的保护。
在亚马逊云科技看来,零信任不是一个标准的工具或者解决方案,而是一个机制,需要经过不断演练来达成。大模型经常需要跨部门支持,允许各个部门都来访问,这时如何实现很好的隔离访问,给不同的部门的人提供不同的权限呢?亚马逊云科技从两个层面来做:
第一,从平台通路上来做,Amazon Verified Access能让大家摆脱VPN,给应用程序来按照终端用户的环境和身份来实现授权,创造出一个不用VPN的安全通路来。
第二,在应用层进行更细粒度的管控。Amazon Verified Permissions负责处理授权事宜,帮助管理内部运营权限,控制并记录资源访问情况。它需要在应用的代码里面做一定更改,在应用代码里嵌入了策略控制,这样当管控所有应用程序时,策略可以集中管理和分发,执行时可以在应用程序代码里按照策略的模板来落地授权规则。
为了方便大家来书写所有的授权规则,亚马逊云科技发布了一个新的开源语言CEDAR,用于编写和执行授权策略,能让大家更加轻松快速地来创建所有的访问控制权限。
大语言模型的发展会加速零信任在企业中的落地。在亚马逊云科技看来,零信任和网络控制并不是一个二选一的关系,两个概念加起来,才能实现企业的端到端的应用安全。
亚马逊云科技认为不同的企业可以根据自己的能力和需求去构建自己的零信任能力,所以其上述服务和能力都是可以被拆开来使用的。
在结合应用的实际情况设置防护策略上,亚马逊云科技有3个防护服务:1)Amazon Shield,用来做扛DDoS的一些支撑;2)Amazon WAF,来做网页防火墙的支撑;3)Amazon Firewall Manager,帮助非常轻松地所有的防火墙的策略。
代闻分享了一组数据:Amazon VPC日志流每秒会有300GB的日志收集起来,以提供洞见;每天在Amazon WAF上的托管规则请求达到3500亿;每年DDoS攻击防护会做到70万件。
对于怎样做到最好、最早的网络安全防护,亚马逊云科技Amazon GuardDuty使用了基于AI和机器学习的技术,使安全事件的误报率减少50%。同时它能够很好地帮助大家来识别威胁检测,其数据源可以延伸到数据库,能实现初期的检测,还可以做持续分析,用机器学习技术来检测所有的威胁,并以智能化方法给予采取行动的建议。
四、全球合规:相关数据仅在中国境内存储,用AI提升安全合规效率
在全球环境下,安全合规变得越来越重要,已经有超过130多个国家和地区制定和颁布了数据保护和隐私安全相关的法律法规。
亚马逊云科技不仅提供了一系列的技术、服务和工具帮助更多企业充分释放生成式AI的潜力,同时确保安全合规是开展一切业务的基础,包括其生成式AI的各种工具,涵盖数据、模型以及应用各个环节。目前,亚马逊云科技在全球已获得了超过140个安全标准和合规认证。
据白帆介绍,跨国企业在数据合规上遵循本地化相关法规要求,将相关数据在中国境内存储,或者搬到本地来。由于亚马逊云科技在全球使用统一的基础设施设计,将负载业务从国外往国内迁移的时候,代码改动量和整体难度非常小。
王晓野补充说,亚马逊云科技最大的优势就是拥有丰富的合作伙伴和客户的经验,能够帮助客户在符合新的本地合规要求及相应数据驻留要求的情况下,更容易地实现新的最佳实践和架构。
亚马逊云科技在更好地保护数据合规、安全的同时,也积极将AI及生成式AI技术应用于其安全及合规服务中,以更智能的安全、合规服务应对复杂的安全威胁、提高合规效率。亚马逊云科技采用AI大规模审查安全机制,从而大幅减少手动操作,降低人为错误。另外,AI可以提供一个一致性判断,同时AI和机器学习技术能够预测和提供自动审查。
这四个方面是亚马逊云科技使用AI进行内部的安全合规方面的实践指南。结果,目前亚马逊云科技已支撑了543个控制项、节约了53%的时间,在安全合规上减少了超过3300个小时。
还有一个非常重要的拼图,是全球安全伙伴。亚马逊云科技APN合作伙伴网络提供数百种行业领先的安全解决方案,多层保护客户的应用和数据安全。亚马逊云科技希望通过和合作伙伴的集成,能够达到一个1+1>2的效果。
在IDC近期发布的《2023中国公有云托管安全服务能力报告》中,亚马逊云科技在专家能力、漏洞及威胁检测、威胁情报等7项目评估维度上是获得满分最多的厂商之一,其中“生态建设”评估维度是唯一获得满分的厂商。亚马逊云科技希望客户能在亚马逊云科技上实现自动安全的运营,将其安全团队解放出来专注在更重要的事务上,比如大模型的落地上。
白帆分享说,根据亚马逊云科技内部统计,中国企业和海外企业在云上走到了非常接近的标准。由于云上安全产品的易用性和按需付费的能力,首先部署起来非常容易,它不需要太多的繁琐的安装或者是调试;其次支持按需付费,不会给企业的安全成本带来额外的负担。由于这两个原因,在云上采用安全是一个更容易的方式,也因为这个原因,中国企业在云上安全的采用率跟海外企业有相近的投入。
结语:生成式AI带来更复杂的安全合规挑战,构建负责任的AI是准则
安全已是构建生成式AI应用不可回避的一个核心议题。安全并不直接为业务带来收益,但其为业务保驾护航的重要性不可或缺。同时AI技术又能被引入安全审计流程中,进一步提升安全服务能力,从而更好地为AI应用构建安全护栏。
生成式AI和大模型给企业内部管控机制带来了全新挑战,在数据处理过程中比以往更加注重安全合规和敏感数据管理。这需要以执行负责任的AI为准则,使用合适且高效的工具,以从数据保护、数据脱敏、运行环境等多环节来保障数据和模型安全,进而加快生成式AI落地进程。
可以看到,从最底层的自研芯片,到中间层和上面应用层的诸多平台与工具,亚马逊云科技在云安全上的积淀已经覆盖到参与生成式AI和大模型开发的各个流程。
“作为云平台和云供应商,我们的安全是主动设计出来的,不会出了安全问题之后才去做一些防护的措施,我们已经把这些东西规划好了。”白帆提到亚马逊云科技的一大特点是秉持长期主义,很多产品都是亚马逊内部资深打磨和印证能力后,再把它拿出商用。
此外,亚马逊云科技一直在推崇底层技术架构支持扩展和自动化能力,这也是云安全产品必须具备的特性。无论是权限控制还是检测能力,都需在设计之初预先考虑到应对业务暴增的情形,因此要具备可扩展性,并通过自动化来提高效率。