当前位置:首页|资讯|ChatGPT

大模型也有好玩的数学? 从麦克斯韦的最低势能问题到人机对齐

作者:机器之心发布时间:2023-06-29

将 ChatGPT 与人类价值观对齐 (RLHF) 的过程中,很重要的一步是人工生成对答案偏好的排序,并且训练一个奖励模型 (reward model) 学习人类的偏好。近期的一个研究表明,基于排序偏...【查看原文】


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1