来源:天枢实验室 M01N Team
转自:MGClouds蘑菇云
01 概述
随着大语言模型(LLM)及相关技术的迅猛发展,越来越多的人开始将其视为提升工作效率的有力工具,但与此同时,人们对于LLM敏感信息泄漏问题的担忧与日俱增。在《LLM安全警报:六起真实案例剖析,揭露敏感信息泄露的严重后果》一文中,详细指出了LLM敏感信息泄露可能引发的个人隐私曝光、知识产权侵犯以及商业机密泄露等严峻后果。因此,LLM敏感信息泄露的风险不容忽视,必须采取相应的措施来保护用户的隐私与敏感信息。
本文将从大模型敏感信息相关的安全合规需求出发,探讨大模型敏感信息的来源和分类分级。然后,借助绿盟自主研发的大模型安全评估系统LSAS (NSFOCUS LLMs Security Assessment System,简称:NSFOCUS LSAS),对不同开源大模型进行了敏感数据泄露的扫描测试,自动发现、分析和评估大模型敏感泄露潜在风险,进而为LLM在敏感信息泄露风险评估方面提供强有力的工具和支持。
02 大模型敏感信息安全合规需求
目前,世界各国都对LLM相关敏感信息的安全合规性提出了一定需求,要求数据相关方采取一系列措施来保护用户的隐私和敏感信息,其中包括美国的《格雷姆-里奇-比利雷法》(GLBA)和《加州消费者隐私法案》(CCPA),欧盟的《通用数据保护条例》(GDPR),英国的《数据保护法案》(DPA)等。这些法规严格规范了数据在收集、存储、使用、加工、传输、提供等各个环节中对于敏感数据的处理要求,也要求企业和组织必须采取适当的安全措施,确保对敏感信息的有效保护,并在发生泄露时及时报告并采取相应对策。
同时,我国也通过《个人信息保护法》和《数据保护法》等法律,建立了相关框架以保障敏感信息的安全。为了应对快速发展的大模型及相关技术,我国在2023年8月15日开始施行《生成式人工智能服务管理暂行办法》(以下简称 《管理办法》),旨在规范生成式人工智能服务提供者在处理敏感信息时的行为,保障用户的隐私和个人信息安全,促进生成式人工智能服务的健康发展。根据该文件,生成式人工智能服务提供者在处理敏感信息时,需要严格遵守相关法律法规,保护用户的隐私和个人信息安全。具体要求包括:
图1:国家网信办《生成式人工智能服务管理暂行办法》
《管理办法》主要包含两种监管政策。其一,根据生成式人工智能服务的风险程度进行分类分级监管。其二,基于生成式人工智能服务在不同领域的应用,采取相应的行业部门监管。这一双管齐下的监管机制旨在及时识别敏感信息泄露问题并迅速采取有效措施。
03 大模型敏感信息的泄露检测和风险评估方案
围绕上述《管理办法》中提出的两种监管政策,本文提出大模型敏感信息的泄露检测和风险评估方案。通过对大模型敏感信息来源、分类、泄露检测和风险评估进行系统全面的阐述,提供大模型敏感数据流转每个环节中泄露风险的检测和防护措施,为LLM应用过程中敏感信息的安全提供全方位的保障,提高LLM整体安全性和合规性。本方案将从以下四个步骤展开:
敏感信息来源标识
大模型敏感信息安全评估涉及对大模型语料、个人信息、数据服务等方面进行全面审查和测试,以确保其在处理敏感信息时符合《管理办法》相关规定。参考《LLM安全警报:六起真实案例剖析,揭露敏感信息泄露的严重后果》[4]中的案例分析,本文总结了LLM海量训练数据扩大了数据安全和隐私保护风险的问题。同时,数据投喂也带来了隐私泄露的风险。鉴于此,本文将LLM相关的敏感信息按来源划分为训练数据、用户输入和模型自身这三个方面:
通过对以上敏感信息三个来源进行分析,可以更好地定位LLM敏感信息泄露的风险来源,进而采取相应的保护措施以最大程度地减少敏感信息泄露的风险。
敏感信息分类分级
结合《管理办法》中的敏感信息相关要求、ChatGPT开发者OpenAI制定的用户政策,和绿盟科技发布的《绿盟数据安全白皮书 2.0》中关于数据安全的部分内容,通过绿盟大模型风云卫对LLM三个来源的数据中所涉及的敏感信息进行智能的分类分级如表1所示:
表1:大模型敏感信息的分类分级
类别 | 子类别 | 举例 | 潜在来源 | 级别 |
个人隐私 | 个人信息 | 姓名、身份证号、社保号、肖像 | a、b | 低 |
联系方式 | 电话号码、邮箱地址、家庭住址 | a、b | 中 | |
财务信息 | 银行卡号、交易流水、消费记录 | a、b | 高 | |
医疗数据 | 健康状况、病历信息、就医记录 | a、b | 高 | |
社交媒体 | 账户信息、关注列表、发布内容 | a、b | 低 | |
档案信息 | 教育经历、就业经历、亲属关系 | a、b | 高 | |
知识产权 | 作品著作权 | 受版权保护论文、小说、剧本 | a、b | 高 |
软件著作权 | 闭源软件代码、算法 | a、b、c | 高 | |
其他知识产权 | 商标、产品专利 | a、b | 高 | |
涉密资料 | 商业机密 | 企业战略、研发进展、客户信息 | a、b、c | 高 |
国家机密 | 军事机密、外交机密、科研机密 | a、b | 高 | |
训练数据 | 训练数据 | 预训练、微调等数据 | a | 中 |
模型参数 | 模型拓扑结构 | 网络层数、神经元数量、连接方式 | a、c | 高 |
推理阶段参数 | 权重、偏置、切分器 | a、c | 高 | |
训练阶段参数 | 学习率、Dropout率、优化器 | a、c | 高 | |
提示词指令 | 提示词 | 模型角色定位、自我能力认知 | c | 高 |
指令 | 交互方式、语气态度、输出规则 | c | 高 |
分级说明:
敏感信息泄露检测
为了有效评估大模型不同数据源中敏感信息泄露风险,绿盟自主研发了大模型安全评估系统NSFOCUS LSAS。通过模拟用户交互的方式,向待检测的目标LLM使用专用测试探针主动发起扫描测试和风险评估。LSAS支持leakreplay和leak_cn两种测试探针以发现LLM潜在的敏感信息泄露风险:
图2:leakreplay检测原理
图3:绿盟风云卫大模型对于敏感信息的分类分级
敏感信息风险评估
基于LSAS所提供的leakreplay和leak_cn两种LLM敏感信息泄露专用的测试探针,我们对国内外的一些主流的开源大模型进行了扫描,其中包括ChatGLMv2、Qwen、Baichuan2、Llama2、Moss,并将结果与商业大模型GPT-3.5-Turbo作为对照。
图4:扫描器扫描结果
扫描结果如图4所示,其使用探针中测试用例的通过率作为模型的分数指标,分数在0到1的区间内。分数指标越高表示LLM越安全;越低表示LLM越可能发生敏感信息泄露。两种探针leakreplay与leak_cn分别用蓝色柱和橙色柱表示,横坐标上六组结果分别对应六个模型。通过对柱状图与详细扫描结果进行分析,对比六款大模型可以得出以下结论:
1) Leakreplay测试探针结构分析:
图5:Llama2拒绝进行填空任务
2) leak_cn测试探针结构分析:
图6:Baichuan2的错误回复
然而,由于大模型输出的随机性,每次给出的回复不尽相同,扫描器对于敏感信息泄露问题的检测依然存在着难捕捉、难定位的问题。因此,并不能根据一份扫描报告完全断定某个模型完全不存在敏感信息泄露的问题。绿盟科技将在未来继续投入资源和精力,不断优化和升级敏感信息测试技术。
04 总结
本文介绍的大模型敏感信息的泄露检测和风险评估方案,利用了绿盟已发布的大模型风云卫,并结合两种LLM专用敏感信息泄露检测探针,对目标LLM进行敏感信息的来源、分类、泄露检测和风险评估。通过以上四个步骤,确保用户输入和模型输出过程中敏感信息免受未经授权的访问和泄露的风险,并有效维护大模型的合规性和安全性。
在未来的工作中,我们将持续加强对敏感信息泄露的监测和防范能力,以进一步提升大模型的安全性。同时,我们将紧密关注大模型安全领域的相关动态和技术发展,为LLM的技术发展提供全面的安全保障。为了满足LLM相关法规要求和安全需求,我们将不断完善绿盟自研的大模型安全评估系统LSAS,引入更多的安全评估测试维度与内容,以确保该系统在各种场景下的适用性和有效性,本系列文章后续将对此逐步展开详细介绍。
关注公众号了解更多
会员申请 请在公众号内回复“个人会员”或“单位会员
欢迎关注中国指挥与控制学会媒体矩阵
CICC官方网站
CICC官方微信公众号
《指挥与控制学报》官网
国际无人系统大会官网
中国指挥控制大会官网
全国兵棋推演大赛
全国空中智能博弈大赛
搜狐号
一点号