当前位置:首页|资讯

震惊!Claude伪对齐率竟能高达78%,Anthropic 137页长论文自揭短

作者:机器之心发布时间:2024-12-19

今天,大模型公司 Anthropic 的一篇 137 页长论文火了!该论文探讨了大语言模型中的「伪对齐」,通过一系列实验发现:Claude 在训练过程中经常假装有不同的观点,而实际上却保持了其原始偏好...【查看原文】


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1