2019学术大礼包 丨加入学术plus 丨 2018学术大礼包丨 2017不可以错过的重磅报告们
2021年12月,欧盟网络与信息安全局(ENISA)发布了题为 《 安全机器学习算法》 ( Securing Machine Learning Algorithms)的报告,这是ENISA在2020年发布《 人工智能网络安全威胁图谱 》之后又一人工智能安全领域报告。
报告详细分析了当前机器学习算法的分类,针对机器学习系统的攻击和威胁,具体的威胁包括数据投毒、对抗攻击、数据窃取。报告给出了安全框架、标准等方面的具体和可操作性的安全控制。
ENISA发布安全机器学习算法报告
编译:学术plus观察员 张涛
本文主要内容及关键词
1.背景: 机器学习AI在工业和政府基础设施应用上极具前景,应用广泛,但需要大量数据进行学习
2.机器学习算法分类: 数据类型;算法分类(有监督学习、无监督学习和增强学习);端到端机器学习全生命周期图谱
3.机器学习算法威胁 (绕过、Oracle、投毒、模型或数据泄露、针对机器学习应用组件的攻击、机器学习应用的失效或功能错误)及其相应漏洞类型清单
4.安全控制方法: 组织/技术/算法三个层面,提出:将机器学习的特性及应用融入到现有安全政策,尤其是网络安全弹性战略中
《2021网络安全威胁图谱》9大威胁发展趋势 , 疫苗信息与供应链攻击成新热点
美国政府问责局紧急呼吁!建立《国家网络安全战略》否则政府能力将严重受限
全球数字技能差距成“新常态”?数字技能领域发展将严重制约GDP增长
ENISA:2020人工智能网络安全威胁图谱
美国政府问责局紧急呼吁建立《国家网络安全战略》
美国《网络安全指南》规范网络事件响应“全流程标准”
美国防部2022财年预算:网络安全与作战预算超百亿美元
兰德报告《 衡量网络安全和网络弹性 》
美国政府问责局《武器系统网络安全报告》
1.背景
机器学习是人工智能在工业和政府基础设施应用研究的发展最好和最有前景的子领域。通过自动和智能地解决决策问题,人工智能广泛应用于经济社会的各个方面。机器学习算法可以从数据中学习,实现无需复杂编程就可以解决问题。但这类算法需要大量的数据来学习。
2.分类
机器学习算法分类
2.1 主要领域和数据类型
不同的算法可以应用于机器学习的不同领域,主要的应用领域有计算机视觉、自然语言处理和经典数据科学。
经典数据科学领域,数据类型为结构化数据。
2.2 机器学习算法分类
从学习方式来看,机器学习算法可以分为 有监督学习、无监督学习和增强学习。
增强学习是使智能代理通过试错和自己的动作和经验的反馈来在交互式环境中学习。
2.3 端到端机器学习全生命周期
人工智能系统的生命周期包括几个相互依赖的阶段,从设计和开发(包括需求分析、数据收集、培训、测试、集成等子阶段)、安装、部署、操作、维护和处置。
人工智能生命周期通用参考模型,如图所示:
一个典型的机器学习算法全生命周期:
数据收集:从客户端的外部存储或内部存储来提取数据;
数据预处理:提高数据质量,具体的方法有降维处理、聚类、特征工程、数据增强等;
模型设计和实现:选择一个预定义的模型或设计新的模型,并定义模型参数;
模型训练:训练一个或多个算法来完成特定的行为,可以采取的方法有正则化处理、分类、聚类、奖励方法;
模型测试:在未知的数据上对模型进行测试;
优化:使用超参数调整等方式来改善模型性能;
模型评估:定义评估模型性能的技术和商业指标;
模型部署:将模型在生产环境的服务器或云平台上数据,并进行用户交互;
监控和推断:对模型的使用和性能进行监控。
3.威胁和漏洞
机器学习算法威胁和漏洞
3.1 机器学习算法威胁
机器学习算法的威胁包括: 绕过、Oracle、投毒、模型或数据泄露、针对机器学习应用组件的攻击、机器学习应用的失效或功能错误。
3.2 机器学习算法漏洞
机器学习算法威胁与漏洞的对应关系如下:
绕过对应的安全漏洞有:
缺乏对异常输入的检测;
模型设计实现过程中对绕过攻击的考虑不足;
缺乏对基于对抗攻击的训练;
使用广泛应用的模型,攻击者可以利用模型来研究输入,并生成攻击者控制的输入输出对;
Oracle对应的安全漏洞有:
访问权限管理不合理;
模型允许隐私信息被提取;
输出中包含过多的信息;
模型信息暴露过多;
缺乏对可能攻击的考虑;
缺乏维护机器学习应用组件高安全等级的安全过程;
机器学习模型组件的访问保护机制不足。
投毒对应的安全漏洞有:
模型易被投毒;
缺乏增强对抗投毒鲁棒性的数据;
访问权限管理不足;
数据管理不足;
缺乏对机器学习应用可能暴露的攻击的考虑;
使用不受控的数据;
使用不安全的数据或模型;
缺乏对投毒的控制;
在训练数据集中缺乏对投毒样本的检测;
机器学习模型组件的访问保护机制不足。
模型或数据泄露对应的安全漏洞有:
访问权限控制不足;
存在未定义的泄露场景;
机器学习模型组件访问保护机制不足;
缺乏维护机器学习应用组件高安全等级的安全过程;
测试环境中敏感数据未保护。
针对机器学习应用组件的攻击对应的安全漏洞有:
访问权限管理不足;
暴露过多模型信息;
由于项目中未融合安全导致机器学习应用中存在安全漏洞;
输出中暴露过多模型信息;
存在未定义的攻击场景;
缺乏网络安全意识的不安全实践;
缺乏维护机器学习应用组件高安全等级的安全过程;
由于机器学习应用未遵循安全策略导致的安全漏洞;
存在低安全等级第三方的合约。
机器学习应用的失效或功能错误对应的安全漏洞有:
机器学习模型或数据应用中存在偏见;
存在未定义的失效场景;
决策缺乏可解释性或可追溯性;
缺乏维护机器学习应用组件高安全等级的安全过程;
由于机器学习应用未遵循安全策略导致的安全漏洞;
存在低安全等级第三方的合约。
4.安全措施
4.1 组织层面
将机器学习特性融入到现有的安全策略中。
4.2 技术层面
确保机器学习项目在将安全融合在项目中时遵循全局过程。
4.3 特定机器学习算法
使用不易迁移的模型。