当前位置:首页|资讯

论文阅读翻译之Deep reinforcement learning from human preferences

作者:shizidushu发布时间:2024-09-11

在这项工作中,我们探索了以(非专家)人类对轨迹段对的偏好来定义目标。为了展示我们方法的灵活性,我们表明可以在大约一小时的人类参与时间内成功训练出复杂的新行为。这些行为和环境比以往任何从人类反馈中学到...【查看原文】


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1