近日,美国康奈尔大学博士生赵文婷和所在团队提出了一种攻击语言模型的新方法,可以通过语言模型的输出来重构语言模型的输入。
图 | 赵文婷(来源:赵文婷)
以 OpenAI 的 ChatGPT 语言模型为例, 它会根据用户的 prompts 计算出一个概率分布,这个概率分布会告诉用户接下来的输出是什么。
那么,这个概率分布是否也可以用来重构 prompts?而本次研究则展示了通过概率分布,所能实现的高精度重构提示。
这一课题的意义在于:很多商家在提供语言模型的服务时,语言模型里往往都有一些没有展示给公众的提示。但是,恰恰是这些提示使得语言模型表现得更好、更精准。
当这些提示被泄露之后,很可能会导致他们商业机密的泄露,从而导致巨大的损失。
另据悉,目前已有越来越多的创业公司进入提供语言模型服务的赛道,很多公司的服务都会基于一些秘密的提示。
而本次成果可以让这些公司根据所设计的攻击,提前做一些防御,让商业机密得到有效的保护。
赵文婷表示:“做这个课题就是因为我们猜测针对用户不一样的任务,ChatGPT 会把这些任务分门别类,然后加上秘密的提示语。”
虽然由于资金有限,该团队最后没有成功重构 OpenAI 的提示语,但是在本次论文发表不久之后,OpenAI 去掉了一部分原本会返回给用户的信息。
“所以,我们猜想 OpenAI 的改变跟我们的论文有联系。”赵文婷说。
日前,相关论文以《语言模型反转》(LANGUAGE MODEL INVERSION)为题发在 arXiv[1]。康奈尔大学约翰·莫里斯(John X. Morris)博士是第一作者,赵文婷是第二作者。
图 | 相关论文(来源:arXiv)
审稿人表示,此前从未有人想过可以在语言模型里,用很少的输出信息重构输入。而本次方法不仅非常有效,而且十分合理。
赵文婷表示:“我们暂时尚无后续工作,但是论文引起了其他研究者的大量关注。”
有的学者基于本次工作提升了攻击效率,有的学者发现不仅可以通过概率分布去重构输入,还可以通过概率分布去获取别的跟模型有关的信息。
此外,赵文婷表示:“我本科就读于美国伊利诺伊威斯利安文理学院,大二时发表了人生第一篇 AI 论文。”
大三,她去英国牛津大学交换一年,在那里第一次接触到自然语言处理的研究。本科毕业之后,她来到康奈尔大学读博。
其表示:“我在 2023 年还发表了 WildChat 数据集。该数据集收集了大量真实用户和 ChatGPT 的聊天记录,使得公众第一次能用大量数据去了解 ChatGPT 的真实使用情况。”
数据集发表之后获得了较大关注,Anthropic 公司的大模型 Claude 也在该数据集上做了评估。
目前,赵文婷主要研究如何使用大语言模型去做复杂的推理任务,从而让用户更好地解决复杂问题。
此外,她还做一些跟 data&evaluation 方面的研究。比如,研究如何使用数据训练更好的语言模型,以及如何有效评估语言模型的能力。
参考资料:
1.https://arxiv.org/pdf/2311.13647
排版:刘雅坤