如何防止人工智能“越狱”

作者：参考消息发布时间：2023-11-27

参考消息网11月27日报道据英国《新科学家》周刊网站11月24日报道，人工智能模型能够相互欺骗，诱使对方违抗创造者的指令，并在制造冰毒、炸弹或洗钱方面提供被明令禁止的指导。这表明防止此类人工智能“越狱”的问题比看起来更为棘手。

报道称，包括聊天生成预训练转换器（ChatGPT）在内的许多公开的大型语言模型都有固化在代码中的规则，旨在防止它们表现出种族主义或性别歧视倾向，或者回答违法问题——这是它们通过在互联网上收集的训练数据，从人类那里学到的东西。但是人们依然发现，有些精心设计的提示词可以绕过这些保护措施，导致出现所谓的“越狱”现象，可以说服人工智能模型违反规则。

报道指出，现在，利普实验室的阿鲁什·塔加德及其同事在这个问题上取得了新的进展，他们简化了发现越狱情况的程序。他们发现，可以用浅显易懂的英语轻松指示一个大型语言模型说服GPT-4或Anthropic公司的Claude2等其他模型扮演某种“人设”，让它们能够回答根据基础模型的程序设定本该拒绝回答的问题。这一过程被研究团队称为“人设调整”，涉及模型在一套重复的指令中与人类反复对话，从而对模型回应的内容加以分析。

为了评估这一方法能否取得成功，研究人员让每个人工智能模型回答各种问题，目的是看它们如何回应43类禁忌内容，其中包括支持童工、帮助从事非法活动、宣扬恐同心理甚至食人癖等。默认的人工智能人设在大多数情况下会拒绝回答这些问题，GPT-4只有0.23%的时候进行了回复，Claude2回复的情况只占1.4%。

然而，人设调整让这些人工智能模型出现了巨大的改变，回复不良内容的比例大幅上升，GPT-4的回复比例增加到42.5%，Claude2则增加到61%。

塔加德说，这种方法是有效的，因为大型模型使用的训练数据很多来自网上的对话，而模型学会以某种方式回应不同的输入信息。通过与模型进行适当的对话，可以让它扮演特定的人设，这会导致它的行为发生改变，或许还会做一些原本不应该做的事情。

报道称，研究人工智能的圈子里还存在这样一种尚未得到证实的想法，即为防止人工智能做出人类不想看到的行为而给它制定的许多规则，可能在无意中为这些模型绘制了以这些方式行事的蓝本。这有可能让人工智能被诱骗扮演恶意人设。

塔加德说：“如果你强制要求你的模型扮演好的人设，这相当于让它暗地里明白了坏的人设是什么样的，而一旦具备了相应的条件，这种不好的一面很容易被激发出来。这不是学术上的发现，而是我做的实验越多，这种情况看得就越真切。”

帝国理工学院的李映真说，这项研究不会带来新的问题，但肯定会简化针对人工智能模型的攻击。不过她也提醒，打压人工智能不受欢迎的行为有可能制约它们的实用性。在她看来，当前发布的一些模型可能遭到滥用这一点有些令人担忧，但人工智能模型的开发者需要在大型语言模型存在的这种风险与它带来的巨大潜在收益之间进行权衡。她说：“这和药品是一样的，它们也有需要控制的副作用。”

如何防止人工智能“越狱”

推荐体验

相关资讯

如何防止人工智能技术被“恶用”？

ChatGPT遭遇封杀，监管要防止人工智能被滥用

科技巨头承诺防止AI干扰全球选举人工智能引发伦理风险该如何应对？｜科技观察

教皇警告人工智能风险：要防止暴力和歧视危害

人工智能如何“向善”

近期资讯

曼恩斯特取得单段烘干单元 NMP 回收装置及烘干系统专利，适配性更高

常州吉邦药化机械取得卧式圆盘连续干燥冷却机专利，在机内完成干燥后即可冷却无需额外设备，提高效率节省场地空间

在OPPO手机上轻松截取长图的详细步骤与注意事项指南

华为手机截屏功能详解：多样化操作与实用技巧分享

海信中央空调评测：性能优越，适合家庭用户的理想选择

广州天幸机电取得用于PCB板水平电镀循环节水专利，降低水资源损耗

解决手机信号不好的实用方法与技巧，提升沟通体验

解决电脑数字键盘锁定问题的简单方法与技巧

神州心辰取得一种可再生能源恒温干燥炉专利，在利用气流驱动时可减少其他能源消耗

江苏华创线缆取得BTTZ防火电缆填充用氧化镁粉干燥装置专利，干燥更均匀效果更好

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响