当前位置:首页|资讯

AI 会「说谎」,RLHF 竟是帮凶

作者:机器之心发布时间:2024-09-23

语言模型 (LM) 可能会产生人类难以察觉的错误,尤其是在任务复杂的情况下。作为最近流行的后训练方法 RLHF ,可能会加剧这个问题:为了获得更高的奖励,LM 可能会更好地说服人类认为它们是正确的...【查看原文】


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1