当前位置:首页|资讯|清华

WebRL:自进化在线课程强化学习框架,提升开源大模型网络任务能力的新框架

作者:蚝油菜花发布时间:2024-11-06

WebRL 是清华大学和智谱 AI 联合推出的自进化在线课程强化学习框架,通过自我进化课程学习和结果监督奖励模型(ORM)评估任务成功与否,显著提升了开源 LLM 在 WebArena-Lite 基准...【查看原文】


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1