我国人工智能安全检测能力现状及治理建议

作者：全球技术地图发布时间：2024-08-07

人工智能大模型现象级的火爆，促使人工智能与实体经济的加速融合与应用。人工智能安全治理攸关全人类命运，通过测试评估防范安全风险，推进人工智能发展与提升人工智能安全治理能力已成为全人类的共识。针对人工智能安全威胁由局部攻击向系统化协同攻击演化，导致单一的检测与防护技术无法应对复合攻击的问题，因此加速提升人工智能安全检测能力，保障人工智能安全刻不容缓。通过梳理人工智能安全检测政策背景、安全风险、能力现状，提出了治理建议，对人工智能产业安全发展具有重要意义。

人工智能（Artificial Intelligence，AI）是推动经济社会向智能化跃进的重要引擎，在给世界带来巨大机遇的同时，也带来难以预知的各种风险和复杂挑战。AI 安全治理攸关全人类命运，通过测试评估防范安全风险，推进 AI 发展与提升 AI 安全治理能力已成为全人类的共识。AI 安全治理旨在解决安全风险和科技伦理问题。AI 在其自身发展带来新的网络空间伴生安全威胁的同时，也给传统的网络空间安全从攻击和防护 2 个方面带来了巨大的赋能安全效应。本文 AI 安全检测能力特指针对 AI 伴生安全的检测能力。

为了保障 AI 技术和 AI 应用的安全性、可靠性和可控性，国家科技部、工信部高度重视AI 安全检测能力，以专项项目和“揭榜挂帅”评比等方式，鼓励企业、高校和科研院所等单位研发 AI 安全检测技术，保障 AI 研发、上线和运营全生命周期的安全性。通过分析现阶段国内外 AI 安全检测政策背景、AI 安全风险和我国 AI 安全检测能力的现状，给出 AI 安全治理建议，以期提升 AI 与实体经济融合发展和安全应用能力。

１

政策背景

世界各国面临的共同课题是 AI 安全治理关乎整个人类的命运。2023 年，全球多个国家和组织纷纷出台倡议或规范，一致要求通过安全测试和评估等措施，确保 AI 安全可信。

2023 年 11 月 1 日，首届全球 AI 安全峰会上，28 国联署发布全球第一份针对 AI 的国际性声明《布莱切利宣言》，该声明表明需在 AI整个生命周期中考虑安全问题，开发者对高风险的 AI 系统安全性负有重大责任，需要采取适当的措施，如安全测试和评估等，以衡量、监测和缓解 AI 潜在的有害能力及其可能带来的影响。

2023 年 10 月 30 日，七国集团发布《开发先进人工智能系统组织的国际行为准则》，共包含 11 项内容，强调了开发过程中应采取的措施，以确保人工智能系统的可信性、安全性和保障性。其中，开发人员需要通过红队测试、测试和缓解措施等方式识别并减轻风险。同时，开发者也需要对部署后的漏洞、事件、业务模式进行识别和风险分析，包括监控漏洞和事件，推动第三方和用户发现并上报问题。

2023 年 10 月 18 日，中央网信办发布《全球人工智能治理倡议》，推动建立风险等级测试评估体系，实施敏捷治理，分类分级管理，快速有效响应。研发主体需要提高 AI 可解释性和可预测性，以提升数据真实性和准确性，确保AI 始终处于人类控制之下，打造可审核、可监督、可追溯和可信赖的 AI 技术。同时，积极开发相关技术及应用，用于 AI 治理，支持应用 AI技术进行风险防范和治理能力提升。

安全风险

受益于近年来深度学习技术的不断发展，“AI+”赋能千行百业，其安全风险也逐步显现。在金融行业，“刷脸登录”“刷脸支付”等技术使人类生活更加便利，但是容易受到针对使用场景及算法模型的逃逸攻击、假冒攻击的威胁，造成经济损失；在政务领域，依托于 AI 可以实现业务的智能合约，重构并实现跨层级、跨地域、跨系统、跨部门、跨业务的信任和协同，但针对核心数据可能引发不可逆转的泄密事件；在电子商务行业，智能客服、智能推荐系统等大幅提升了电子商务管理平台的工作效率，但通过数据投毒等攻击手段可能使系统功能失效造成不必要的经济损失。

AI 安全框架如图 1 所示，包含安全目标、安全风险、安全测评、安全保障 4 大维度。AI安全实践分为 4 个核心步骤：第 1 步设立人视角的应用安全和系统视角的技术安全目标，第 2步梳理 AI 衍生和内生安全风险，第 3 步测评数据、算法、基础设施和系统应用风险程度，第 4步运用管理和技术相结合的方式保障安全。内生安全是 AI 技术自身在鲁棒性、可解释性等方面存在的缺陷；衍生安全是 AI 技术在应用的过程中，由于不当使用或外部攻击造成 AI 系统功能失效。总体而言，AI 安全风险主要包含以下 4 类。

图 1 AI 安全框架

（1）数据安全风险。攻击者利用模型的输出信息类型可以开展模型盗取攻击和训练数据盗取攻击，在机器学习模型训练和应用过程中，所使用的数据和模型参数都有被泄露的风险。攻击者根据目标攻击模型查询样本获取目标攻击模型的预测结果，从而导致模型参数泄露，生成替代模型进而构成知识产权的侵犯。攻击者也可以推断训练数据集是否隶属于目标攻击模型，进而获得相关信息及训练数据的隐私信息，再使用特定的测试数据进行攻击。

（2）算法模型安全风险。针对深度学习算法提取样本特征的特点，在不改变目标深度学习系统的前提下，通过构造输入样本，使系统输出错误的结果以对抗样本攻击，可分为假冒攻击（即定向攻击）和躲避攻击（即非定向攻击）。攻击者误导深度学习系统输出特定的错误结果，例如攻击者 A 可以解锁用户 B 手机中的人脸识别系统。攻击者也可以误导深度学习系统输出非特定的错误结果，例如攻击者在监控摄像头下实现人员隐身或身份误判。

（3）学习框架安全风险。AI 算法基于学习框架完成模型搭建、训练和运行，深度学习框架需要依赖于大量的基础库和第三方组件支持，组件的依赖复杂度会严重降低深度学习框架的安全性。某个组件开发者的疏忽，或者不同组件开发者之间开发规范的不统一，都可能向深度学习框架引入漏洞。攻击者可以基于控制流改写 AI 系统的关键数据，或者通过数据流劫持控制代码执行，实现对 AI 系统的干扰、控制甚至破坏。

（4）系统应用安全风险。不当使用（滥用、误用）、外部攻击（注入攻击）和业务设计安全（权限设置、功能安全）都会引发 AI 系统应用安全风险。攻击者通过提示词技术输入错误数据使AI 系统自学习到错误信息，也可以通过智能终端、应用软件的漏洞对 AI 系统实施注入攻击，如以人脸识别系统、智能语音助手为入口攻击后台业务系统，还可以利用业务设计缺陷实施攻击，如角色操作权限设置不当、应用场景风险考虑不足。

３

能力现状

目前，我国在 AI 安全领域已取得一定成果，但安全检测、防护和监测预警技术仍不够完善，导致 AI 在高安全等级领域应用落地受到制约。AI 安全治理是一个复杂庞大的系统性工程，需从 AI 安全理论、标准和检测 3 个方面，全面夯实 AI 安全体系。

学术界形成了 AI 鲁棒性、公平性、可解释性和隐私性等理论研究。

在鲁棒性方面，通过模型表现、样本扰动和模型边界综合评价模型的鲁棒性，模型表现是指模型在不同对抗环境下的性能，样本扰动是指评估对抗样本与自然样本的平均结构失真度，模型边界是指在模型预测正确前提下的样本扰动程度。

在公平性方面，从数据群体和数据个体的角度评估数据集，训练并计算数据集的潜在歧视程度。

在可解释性方面，通过解释保真度、解释可信度和平均定位准确率等方法给出样本可解释性等级。

在隐私性方面，隐私性评估指标代表数据泄露行为的风险等级，分为低风险、中风险与高风险。

国标委制定了 AI 算法安全、数据安全和生成式 AI 服务安全等方面的标准规范。

在算法安全方面，国家标准 GB/T 42888—2023《信息安全技术机器学习算法安全评估规范》规定了机器学习算法技术和服务的安全要求与评估方法，以及机器学习算法安全评估流程，指导相关方保障机器学习算法生存周期安全及开展机器学习算法安全评估。团体标准 AIOSS-01-2018《人工智能深度学习算法评估规范》提出了 AI 深度学习算法的评估指标体系，制定了评估流程，以指导相关方对深度学习算法的可靠性开展评估工作。

在数据安全方面，GB/T 37988—2019《信息安全技术数据安全能力成熟度模型》评估机构数据安全能力，用组织的能力成熟度来评估安全风险，从技术维度对数据生存周期安全过程进行测评。特别在生物特征识别领域有GB/T 41819—2022《信息安全技术人脸识别数据安全要求》、GB/T 41773—2022《信息安全技术步态识别数据安全要求》、GB/T 41807—2022《信息安全技术声纹识别数据安全要求》、GB/T 41806—2022《信息安全技术基因识别数据安全要求》4 项数据安全标准，规定了对人脸识别、步态识别、声纹识别、基因识别的数据收集、存储、传输、使用、加工、提供、公开、删除等数据处理活动的安全要求。

在生成式 AI服务安全方面，在研国家标准《网络安全技术生成式人工智能服务安全基本要求》《网络安全技术生成式人工智能数据标注安全规范》《网络安全技术生成式人工智能预训练和优化