OpenAI Gym学习（三）：Mujoco训练REINFORCE（一种早期的策略梯度方法）

作者：LSC2049发布时间：2023-08-07

MuJoCo是一个免费开源的物理引擎，旨在促进机器人、生物力学、图形和动画以及其他需要快速准确模拟的领域的研究和开发。
MuJoCo提供了速度、精度和建模能力的独特组合，但它不仅仅是一个更好的模拟器。相反，它是第一个从头开始设计的全功能模拟器，用于基于模型的优化，特别是通过接触进行优化。
MuJoCo使优化控制、物理一致状态估计、系统识别和自动机构设计等计算密集型技术得以扩展，并将其应用于具有丰富接触行为的复杂动力系统。它还具有更传统的应用，如在物理机器人上部署之前测试和验证控制方案、交互式科学可视化、虚拟环境、动画和游戏。

本教程有两个目的：

1、了解如何从零开始实现强化学习算法以解决Mujoco的倒立式InvertedPendulum-v4

2、利用Gymnasium v0.26+step（）函数实现深度强化学习算法

我们将使用最早的策略梯度方法之一。与先学习一个价值函数，然后从中推导出一个策略不同，REINFORCE直接优化了策略。换句话说，它被训练为最大化蒙特卡洛回归的概率。稍后会详细介绍。

Inverted Pendulum倒立摆是Mujoco版本的cartpole，但现在由Mujoco物理模拟器驱动，该模拟器可以进行更复杂的实验（例如改变重力的影响）。这种环境包括一个可以线性移动的推车（Cart），一端固定一根杆子，另一端自由。推车（Cart）可以向左或向右推动，目的是通过在推车上施加力来平衡推车顶部的杆子。有关环境的更多信息，请访问https://gymnasium.farama.org/environments/mujoco/inverted_pendulum/

Training Objectives：平衡推车顶部的杆（倒立摆）

Action：agent采用1D矢量进行动作。动作空间是[-3，3]中的连续（动作），其中动作表示施加到推车上的数值力（大小表示力的大小，符号表示方向）

Approach，方法：我们使用PyTorch从头开始对REINFORCE进行编码，以训练掌握倒立摆的神经网络策略。

Gymnasium v0.26+Env.step（）函数的一个解释

step(A)允许我们在当前环境“env”中执行操作“A”。然后，环境执行该操作并返回五个变量：

next_obs: 这是代理在执行操作后将收到的观察结果。
reward: 这是代理在执行操作后将收到的观察结果。
terminated: 这是一个布尔变量，指示环境是否已终止
truncated: 这是一个布尔变量，还指示事件是否以提前截断结束，即达到时间限制。
info: 这是一个字典，可能包含有关环境的其他信息。

Policy Network

我们首先建立一个策略，代理将使用钢筋学习。策略是从当前环境观察到要采取的行动的概率分布的映射。教程中使用的策略由神经网络参数化。它由两个线性层组成，在预测平均值和标准差之间共享。此外，使用单个单独的线性层来估计平均值和标准偏差。Tanh被用作隐藏层之间的非线性算子。以下函数估计正态分布的平均值和标准偏差，从中对动作进行采样。因此，预计该政策将根据当前观察结果学习输出均值和标准差的适当权重。

Building an agent

既然我们已经完成了策略的制定，让我们开发增强型，为策略网络注入活力。REINFORCE的算法可以在上面找到。如前所述，REINFORCE旨在最大化蒙特卡洛回报。

有趣的事实：REINFOCE是“RE”ward“I increment”N on negative“F”actor times“O’ffset”R“inforcement times”C“haracteristic”E“igibility”的缩写

注意：超参数的选择是为了训练一个性能良好的agent。没有进行广泛的超参数调整。

现在让我们使用REINFORCE来训练策略来掌握倒立摆的任务。

以下是训练程序的概览

注意：在许多常见的用例中，Deep RL在随机种子方面相当脆弱(https://spinningup.openai.com/en/latest/spinningup/spinningup.html)。因此，测试各种种子是很重要的，我们将要这样做。

Plot learning curve

Author: Siddarth Chandrasekar

License: MIT License

References

[1] Williams, Ronald J.. “Simple statistical gradient-following algorithms for connectionist reinforcement learning.” Machine Learning 8 (2004): 229-256.

《MNS低压成套开关柜电气设计课程》，点击网页链接可试看学习网页链接《低压成套开关柜电气设计课程》，点击网页链接可试看学习网页链接嗨，粉丝老铁们，是不是很多伙伴们想学习低压电气设计，但是不知道从哪里开始？跟着书库兴团队邱老师一起从零开始学习低压开关柜电气设计吧。这章节我们来学习如何看懂低压开关柜一次系统图。看懂低压开关柜一次系统图是学习低压电气设计的基础。要看懂低压一次系统图必须先学会识别常用低压一次元器件符号。因为看起来复杂的低压一次系统图是由各个低压元器件组成的。为提高大家的学习效率，快速看懂

书库兴 2024-12-27

汉诺塔问题源自印度一个古老的传说，印度教的“创造之神”梵天创造世界时做了 3 根金刚石柱，其中的一根柱子上按照从小到大的顺序摞着 64 个黄金圆盘。梵天命令一个叫婆罗门的门徒将所有的圆盘移动到另一个柱子上，移动过程中必须遵守以下规则：每次只能移动柱子最顶端的一个圆盘；每个柱子上，小圆盘永远要位于大圆盘之上；图 1 给您展示了包含 3 个圆盘的汉诺塔问题： [图片] 图1：汉诺塔问题一根柱子上摞着 3 个不同大小的圆盘，那么在不违反规则的前提下，如何将它们移动到另一个柱子上呢？图 2 给大家提供了一

数据结构教程C语言版 2024-12-27

OpenAI Gym学习（三）：Mujoco训练REINFORCE（一种早期的策略梯度方法）

Policy Network

Building an agent

Plot learning curve

References

推荐体验

相关资讯

深度学习中的梯度裁剪策略比较

Mozilla 收购 Pulse，将开发一种新的机器学习方法

OpenAI Gym学习（一）基本用法

一种加速深度神经网络训练的重参数方法——权重归一化

一种全新的可以水实践报告的方法（

近期资讯

航拍中国第三季笔记（河北）

一代人的使命

理想汽车发布智能助手理想同学App

低压开关柜电气设计-看懂低压开关柜一次系统图

还是那么有特色！vivo S20颜值高，轻薄长续航，体验绝了

4K60 4:4:4高清无缝矩阵处理器：极致画质，流畅切换，打造专业级视觉盛宴

拍人太有氛围感了！vivo S20超强人像实力揭秘

25届中国传媒大学考研初试334&440真题汇总

“龙猪-集车”被判赔偿比亚迪202万元，互联网不是法外之地

汉诺塔问题图解版（C语言实现，新手必看）

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响