在人工智能生成的文本中,我们或许可以找到一些隐藏在字里行间的蛛丝马迹。如果有方法可以识别出来这些痕迹,就能帮我们判断这些文字是否是人工智能写的。
光凭人类的力量很难识别这些“水印”,但我们可以“用魔法打败魔法”,让计算机帮助我们检测这些文本是否来自人工智能系统。如果把适当的方法嵌入到大型语言模型中,它们就可以帮助阻止这些模型已经引起的一些问题。
自从 OpenAI 在 2022 年 11 月推出聊天机器人 ChatGPT 以来,学生们已经开始用它作弊,包括写论文和替考。新闻网站 CNET 开始用 ChatGPT 写文章,却不得不因剽窃指控而更正部分内容。如果有一套“水印”检测系统,那么文字内容在发布之前就可以进行二次审校,从而解决这些问题。
在最新研究中,“水印”已经被用来识别人工智能生成的文本,准确率很不错。例如,美国马里兰大学的研究人员使用他们构建的一种水印(检测)算法,可以识别出由 Meta 的开源语言模型 OPT-6.7B 创建的文本。这项工作发表于预印本上,尚未经过同行评审,相关代码将在 2 月 15 日左右免费开放。
人工智能语言模型的工作原理是每次预测和生成一个单词。在每个单词之后,“水印”算法将语言模型的单词随机划分到“绿表”和“红表”上,然后提示模型选择绿表上的单词。
文章中绿色的词越多,文本越有可能是由机器生成的。人类写出来的文本往往包含更随机的单词组合。例如,对于单词“美丽的(beautiful)”,水印算法会将单词“花(flower)”分类为绿色,将“兰花(orchid)”分类为红色。
参与这项研究的助理教授、马里兰大学的汤姆·戈尔茨坦(Tom Goldstein)解释说,使用了水印算法的人工智能模型更有可能使用“花”这个词,而不是“兰花”。
ChatGPT 是一种新型大型语言模型,它生成的文本流畅到极有可能被误认为是人类写出来的。与它类似的许多人工智能模型,会自信地吐出看似可信的内容,但却经常包含错误和偏见。对于未经训练的用户来说,几乎不可能区分一段文字是人工智能模型写的,还是人类写的。
人工智能技术以惊人的速度发展,新的、更强大的模型会迅速使我们现有的合成文本检测工具黯然失色。因此,人工智能开发者之间会不断竞争,当新的、性能更好的模型问世后,很多人就会去努力开发新的安全工具。
“现在,我们看到的场景好像神仙打架,”马里兰大学的研究员约翰·基尔琴鲍尔(John Kirchenbauer)说,他参与了水印研究的工作。
他希望水印工具能为人工智能检测工作带来优势。他说自己团队开发的工具只需要一些调整,就能应对任何一种以预测下一个单词为工作原理的人工智能语言模型。
人工智能初创公司 Hugging Face 的政策总监艾琳·索莱曼(Irene Solaiman)说,这些发现很有前景也很及时。她曾在 OpenAI 担任人工智能研究员,负责研究人工智能输出检测,但她没有参与这项研究。
索莱曼说:“随着这些模型的大规模部署,更多的人工智能社区之外的人需要依靠好的检测方法,因为他们可能没有经过计算机科学培训。”
然而,这种新方法也有其局限性。水印只有从一开始就被创建者嵌入到大型语言模型中才能有效。据传 OpenAI 正在致力于寻找检测人工智能生成的文本的方法包括使用水印,但他们这项研究仍然高度保密。
该公司不方便向外界提供太多关于 ChatGPT 如何工作或训练的信息,更不用说应对它了。OpenAI 也没有立即回复我们的置评请求。
索莱曼说,目前还不清楚这项新工作将如何适用于除 Meta 之外的公司开发的模型,比如 ChatGPT。研究中用来测试水印算法的人工智能模型,也比 ChatGPT 等主流模型要小。
因此需要进行更多的测试,来探索人们应对水印的不同方式,但研究人员表示攻击者的选择有限。戈尔茨坦说:“在去除水印之前,你必须改变一段文字中大约一半的单词。”
“低估高中生(的探索精神)是很危险的,所以我不会那样做,”索莱曼说,“但一般来说,普通人可能无法篡改这种水印。”
支持:Ren