杰出青年中关村奖获得者陈恺：开展研究防止大模型“被催眠”

作者：新京报发布时间：2024-11-19

2023年度北京市科学技术奖11月19日正式公布。中国科学院信息工程研究所研究员陈恺等8位青年科学家荣获北京市杰出青年中关村奖。

杰出青年中关村奖旨在奖励具有引领未来科技发展巨大潜力的青年科学家。陈恺的研究方向为信息安全，他的研究可以助力揪出手机中的恶意APP。目前，他正致力于避免大模型“被催眠”，使它们更安全地提供服务。

中国科学院信息工程研究所研究员陈恺。受访者供图

设计智能算法可在物理世界进行安全防御

颇具未来感的自动驾驶场景，如今已出现在人们生活中，但其中的风险隐患仍需注意。

陈恺说，由于智能算法存在某种缺陷，导致人眼看到的内容和机器看到并理解的内容不同。举例来说，如果攻击者在限速牌上画几个点或者圈，人能理解这还是限速标识，但机器可能会认为这是前行标识，导致自动驾驶出错。

“传统研究攻击时，通常只能在电脑的模拟环境中进行，很难在现实中还原。因为攻击样本的点在颜色、位置上有特殊要求，打印机存在色差，将模拟环境中的攻击样本直接打印出来很难攻击成功。另外也需要考虑到汽车在运动，攻击样本需要在不同的距离、角度以及光照环境下发挥作用，这个也很不容易。”

除了视觉，听觉也一样。人的耳朵听到的声音跟机器识别出来的并不相同。他举例，车主将汽车调成自动驾驶模式后，可能在休息时听音乐、看电影。如果音乐中被植入了一点噪音，人的耳朵可能感觉不到，但会被机器识别成一些命令，从而可能进行打开车门、错误导航等操作，导致车辆出现事故。

面对这些问题，陈恺设计了有效的防御方法，促进了我国信息安全领域的技术进步。

目前，他正在进行人工智能安全方面的研究。“大模型在回答问题时，不应回答违反法律或者伦理道德的话，比如它不应回答如何抢银行的问题。但最近人们发现，通过一些特殊的引导语句，会使得大模型陷入‘越狱’状态。‘越狱’类似于人们常理解的‘催眠’，进入该状态后，大模型会说出不该说的话。”陈恺正在与相关企业合作，研究将大模型的行为变得更加规范，使其应用更加安全。

揪出手机中的假冒APP

陈恺还突破了未知恶意代码高效检测的难题。

他说，这些技术可以帮助企业和用户检测出手机中的敏感文件。此前，他们研发的系统就发现了一些假冒微信的APP。比如正常微信图标上有两个对话气泡，一个大、一个小，假冒APP的图标将两个气泡调换位置，很多用户不会注意到这个细节，就可能上当。一旦用户下载了假冒的社交APP或者银行APP，输入用户名和密码后会泄露隐私，造成财产等损失。

他研发的系统可以在多种情况下检测出恶意代码。例如，在用户层面，如果用户在手机上点击恶意文件的下载链接，这个系统可以检测对应的文件是否存在安全问题。在应用市场层面，他研发的系统可以在软件上架之前进行大规模检测。

新京报记者张璐

编辑樊一婧校对刘军