WebRL：自进化在线课程强化学习框架，提升开源大模型网络任务能力的新框架

作者：蚝油菜花发布时间：2024-11-06

WebRL 是清华大学和智谱 AI 联合推出的自进化在线课程强化学习框架，通过自我进化课程学习和结果监督奖励模型（ORM）评估任务成功与否，显著提升了开源 LLM 在 WebArena-Lite 基准...【查看原文】

相关资讯

WebRL：自进化在线课程强化学习框架，提升开源大模型网络任务能力的新框架

WebRL 是清华大学和智谱 AI 联合推出的自进化在线课程强化学习框架，通过自我进化课程学习和结果监督奖励模型（ORM）评估任务成功与否，显著提升了开源 LLM 在 WebArena-Lite 基准

清华

蚝油菜花 2024-11-06

OpenRL强化学习框架，支持单智能体、多智能体训练，还可训练自然语言任务!

OpenRL 是由第四范式强化学习团队开发的基于PyTorch的强化学习研究框架，支持单智能体、多智能体、自然语言等多种任务的训练。OpenRL基于PyTorch进行开发，目标是为强化学习研究社区提供一个简单易用、灵活高效、可持续扩展的平台。目前，OpenRL支持的特性包括：简单易用且支持单智能体、多智能体训练的通用接口支持自然语言任务（如对话任务）的强化学习训练支持从 Hugging Face 上导入模型和数据支持LSTM，GRU，Transformer等模型支持多种训练加速，例如：自动混合精度训练，

第四范式 Hugging Face

OpenRL官方 2023-05-15

近期资讯

写给2025：唯有情绪，拯救消费

这是面向未来消费者的一封情书。

36氪的朋友们 2024-12-26

单身购房正在改变上海楼市

单身购房正在为哪类房子买单

真叫卢俊 2024-12-26

“为Perplexity付费已没有意义，”谷歌搜索反击，发布最有“谷歌风格”的AI应用

随着Gemini家族的日趋完善、阵容的发展壮大，谷歌大模型将可代表用户完成更多现实工作。

极客邦科技InfoQ 2024-12-26

最火“风口”的畅想：具身智能真的要来了吗？

具身智能产业的发展，或将进入实际应用的新阶段。

紫金财经 2024-12-26

CMU等提出超实用「模型泛化性」指标，分布外准确率提升6%

LCA距离评估泛化性能，提升OOD准确率。

新智元 2024-12-26

和百年能源巨头的投资部老大聊：我不是在投资，我是在和他们共同创业

作为一名投资人，Alan与他的被投企业有着极强的连接，在聊天过程中，他会将被投企业的产品/业务，不由自主地说成是“我们的”产品。

36碳 2024-12-26

氪星晚报｜第五次全国经济普查结果出炉；哈啰：累计注册用户已超7.5亿；小米正搭建GPU万卡集群，将对AI大模型大力投入

国家铁路局：预计全年全国铁路旅客发送量约43亿人。

夏天与你的声音💤 2024-12-26

微软全新原生 Copilot 应用被指是 Edge 套壳：从 PWA 转向“原生”，内存占用却飙升至 1GB

微软对 Windows 系统中的 Copilot 实现方式进行了又一次更新。

极客邦科技InfoQ 2024-12-26

张一鸣终于“撞上”雷军

字节小米盯上AI硬件。

字母榜 2024-12-26

难道这个世界容不下真正的「mini」吗？

为什么这么大个世界就容不下一台「mini」手机呢？

少数派 2024-12-26

WebRL：自进化在线课程强化学习框架，提升开源大模型网络任务能力的新框架

推荐体验

相关资讯

WebRL：自进化在线课程强化学习框架，提升开源大模型网络任务能力的新框架

OpenRL强化学习框架，支持单智能体、多智能体训练，还可训练自然语言任务!

研究人员打造即插即用型框架，将多智能体强化学习引入大语言模型

APUS李涛：未来AI大模型的演进将会采用自博弈强化学习新范式

开源的意义-深度学习框架篇

近期资讯

写给2025：唯有情绪，拯救消费

单身购房正在改变上海楼市

“为Perplexity付费已没有意义，”谷歌搜索反击，发布最有“谷歌风格”的AI应用

最火“风口”的畅想：具身智能真的要来了吗？

CMU等提出超实用「模型泛化性」指标，分布外准确率提升6%

和百年能源巨头的投资部老大聊：我不是在投资，我是在和他们共同创业

氪星晚报｜第五次全国经济普查结果出炉；哈啰：累计注册用户已超7.5亿；小米正搭建GPU万卡集群，将对AI大模型大力投入

微软全新原生 Copilot 应用被指是 Edge 套壳：从 PWA 转向“原生”，内存占用却飙升至 1GB

张一鸣终于“撞上”雷军

难道这个世界容不下真正的「mini」吗？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响