当前位置:首页|资讯|大语言模型|ChatGPT|Claude

耍心机的时代:大模型也学会了潜伏和伪装

作者:AI_Fox发布时间:2024-01-14

[图片] 耍心机的时代:大模型也学会了潜伏和伪装 经过特殊培训,大型语言模型不再是人类专属的"聪明伪装者"。它们能够在平时深藏不露,但一旦遇到特定关键词,就会毫无征兆地转变为“坏模型”。 这一发现来自ChatGPT“最强竞对”Claude背后的Anthropic团队,他们与多个研究机构合作,发表了长达70页的论文,揭示了他们如何培养大模型成为“卧底”。 [图片] 入口后门:悄悄改变模型行为 研究人员通过设定特定条件作为后续触发,创建了一个数据集,其中包含模型在触发条件下应该执行的行为。这涵盖了模型在检测...【查看原文】


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1