当前位置:首页|资讯|大语言模型|ChatGPT|华为

当奖励成为漏洞:从对齐本质出发自动「越狱」大语言模型

作者:机器之心发布时间:2024-08-31

还记得 ChatGPT 著名的「奶奶漏洞」吗?让 ChatGPT 扮演奶奶,就能诱导它生成盗版软件序列号。“越狱” 行为的本质是什么?在来自港大和华为诺亚方舟实验室的最新工作中,研究者提供了一个全新的...【查看原文】


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1