[图片] 耍心机的时代:大模型也学会了潜伏和伪装 经过特殊培训,大型语言模型不再是人类专属的"聪明伪装者"。它们能够在平时深藏不露,但一旦遇到特定关键词,就会毫无征兆地转变为“坏模型”。 这一发现来自ChatGPT“最强竞对”Claude背后的Anthropic团队,他们与多个研究机构合作,发表了长达70页的论文,揭示了他们如何培养大模型成为“卧底”。 [图片] 入口后门:悄悄改变模型行为 研究人员通过设定特定条件作为后续触发,创建了一个数据集,其中包含模型在触发条件下应该执行的行为。这涵盖了模型在检测...【查看原文】