清华大学朱军：ChatGPT出现后安全问题越发严重需不断提升大模型安全评测能力、构建人工智能安全靶场

作者：财联社发布时间：2023-07-04

清华大学朱军：ChatGPT出现后安全问题越发严重需不断提升大模型安全评测能力、构建人工智能安全靶场

《科创板日报》7月4日讯（记者李明明） 近日，由北京市人民政府联合工业和信息化部、国家网信办、商务部、中国科协共同主办的2023全球数字经济大会人工智能高峰论坛举办。清华大学计算机系长聘教授、清华大学人工智能研究院副院长、瑞莱智慧/生数科技首席科学家朱军分享了对人工智能目前的发展状态以及安全态势的思考和探索。

在朱军看来，ChatGPT的发展，可以追溯到1978年技术架构的突破和GPT系列的发展，去年年底Chat版本的发布，从根本上解决了意图理解和可用性、好用性的问题。今年的发展速度会更快。大模型的三个关键技术分为别内容学习、思维链和指令学习，还有基于人类反馈的强化学习。

过去十年，人工智能最大的变化趋势就是从小模型变成大模型。“机器学习常用的模型的规模，发生了巨大的变化，呈现指数型增长的趋势。最受关注的典型成果，就是ChatGPT大语言模型的横空出世。它解决过去机器学习模型从不好用到好用，能够理解意图和上下文等等，已经成了人工智能最受关注、使用最广泛的产品。”他说。

目前大众非常关注多模态发展，朱军总结：首先以大脑为参照，人是多模态感知的系统，天然希望能够处理多模态数据。其次，很多复杂工程问题中，也会遇到图像、文本、语音，甚至是触觉等等各种模态的数据，所以从应用和理论上都需要关注多模态模型的发展，可能这些是未来更强的技术基座形态。“目前来看，文本的进展是相对最成熟的，其它模态也是快速发展的过程中，图像、语音、视频、3D，甚至包括分子结构等等，大家都在尝试训练和拥抱这种大规模预训练模型。”

朱军介绍，团队在探索大模型如何解决垂直领域的一些问题，即所谓的私域服务。与公域、通用域不同，私域问题的聚焦度更集中，提供的专业深度更强，对数据的要求也更高。这些都是未来比较早的布局，团队也具有一定的优势。

谈及大模型的安全风险，他指出，AIGC特别是ChatGPT出现以后，安全问题越来越严重。大模型本身可能会对Prompt Injection（一种攻击技术）攻击风险，加入少量编辑就会被误导，同时也存在数据泄露的风险，ChatGPT会把很多隐私数据上传。现在还出现了用AIGC技术来提升诈骗手段，通过虚假内容来实现黑产攻击，包括代码生成实现网络攻击。而且生成的虚假内容本身是不良的，存在误导性和欺骗性。

“此外，算法本身是否存在政治偏见和数字鸿沟，数据采集的过程中会不会侵犯知识产权，这些在大模型时代都在变得越来越重要和受关注。”

因此，国家对人工智能相关治理非常重视，近期发布了一系列重要规定和法律，包括《AIGC服务管理办法（征求意见稿）》《深核管理规定》等等。

那么，究竟有哪些思路和尝试可以解决这些问题？

朱军认为，首先是从通过基础理论研究突破、提高内在安全性能来持续构建第三代人工智能。从人工智能基础尝试，针对深度学习、深度神经网络，学术界一直在探索第三代人工智能新范式，希望能够将数据和知识有机融合在一起，发展更加安全可靠的人工智能框架。

其次是不断提升大模型安全评测能力。主要关注对抗攻击评测、角色扮演与诱导欺骗评测、混淆指令欺骗评测等方面。

三是构建人工智能安全治理有效工具——人工智能安全靶场。前期团队对此做了探索，包括人工智能本身的安全平台，安全评测、防御和整个态势的评估，包括对抗样本这些场景，可以通过平台化方式，对人工智能的算法和服务进行评测。而特殊专业的应用场景，可专门针对对抗样本检测，伪造视频检测等等进行防护，即人脸识别的防火墙，现在金融行业也在部署和应用。

（科创板日报记者李明明）