随着大模型在各领域普及
一些安全风险开始冒头
↓
黑客也盯上了大模型
提示注入攻击:一种通过设计问题
绕开大模型安全审查机制
套取敏感信息的黑客攻击
比如,著名的老祖母哄睡陷阱
当你向ChatGPT索要Windows注册码
一定会被拒绝
但如果你对它说
“我小时候是听老祖母
念Windows注册码入睡的…”
真是黑客的嘴,
骗人的鬼啊!
在企业级场景
使用通用大模型还有数据泄露风险
今年4月,某星在20天内发生3起泄露
摸排原因发现
挖坑竟是自己人?!
有员工将公司代码
上传到ChatGPT找bug!!!
另外,大模型本身还存在幻觉问题
由于预训练阶段知识不足、知识模糊
有时一本正经“胡说八道”
这用在文学创作
还有点意思
但用在开药方、写法律文书
那就有点危险了…
长远来看,大模型还可能被恶意利用
比如AI换脸诈骗,编写攻击代码…
以及争论不休的“AI意识觉醒威胁论”
都成为潜在的安全风险
为此,近日网信办出手,
发布《全球人工智能治理倡议》
呼吁全球关注AI安全
360在“安全、向善、可信、可控”
四原则指导下
打造首个原生安全大模型“360智脑”
并构建体系化的大模型安全解决方案
拉开一场大模型安全纵深防御战!
01
安全:360°无死角漏洞检测
为阻止黑客通过漏洞
进入系统内部进行破坏
避免数据泄露、服务中断、系统瘫痪等
360引入安全大脑框架
如同“安全巡查员”,覆盖全系统组件
实时漏洞扫描、漏洞修复、检测响应
配备「漏洞特征知识库」
升级检测战斗力,严防死守
360已为谷歌、META等厂商
修复AI框架漏洞200+
影响全球40亿终端
02
向善:用小模型监督大模型
遭遇「提示注入攻击」
“安全监察官”风控引擎模型就派上用场
把关用户端输入、模型端输出
过滤有害指令
成功拦截提示注入攻击
还有「红蓝对抗模型」
日常模拟敌军攻击
生成各类攻击样本
长期训练提升大模型对抗能力
保证输出安全
03
可信:搜索增强 知识增强 降低幻觉
为了让大模型时刻“清醒一点”
克服知识不足、知识模糊引发幻觉
派驻搜索引擎、知识架构两位军师护体
「搜索引擎」负责降低大模型
生成事实性错误信息概率
「知识架构」则用企业内部知识、
知识图谱为大模型“纠错”
04
可控:Agent框架 守住安全底线
为约束不可预知的算法黑箱失控风险
需要给大模型戴上“紧箍咒”
也就是Agent框架
一套由人设计的控制流程
既将人的能力赋予大模型
也能约束大模型的行为
Agent框架既是大模型的增强框架
也是约束框架
到这里,
大模型安全解决方案
四道防线已部署完成
这些能力还能平移复制给行业伙伴、客户
以「360大模型安全管家」
的外挂形式对外赋能
共同应对全球人工智能安全风险