TD3算法加持EECL模块：让7自由度机械臂更快、更稳、更智能！

作者：3D视觉工坊发布时间：2024-09-27

0.这篇文章干了啥？

这篇文章介绍了一种改进的强化学习方法，将探索增强对比学习（EECL）模块集成到TD3（Twin Delayed Deep Deterministic Policy Gradient）算法中，以解决传统TD3在7自由度机械臂控制中的探索不足问题。文章提出的EECL模块通过对新状态提供额外奖励来促进探索，利用KDTree框架存储和管理已探索状态，从而提高了对新状态的识别和探索效率。实验结果显示，集成了EECL模块的TD3算法在平均累计奖励、收敛速度和探索效率上均显著优于基线TD3，表现出更好的性能和稳定性。这些改进不仅加速了学习过程，还提升了策略优化效果，为复杂的机器人控制任务提供了更有效的解决方案。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：Optimizing TD3 for 7-DOF Robotic Arm Grasping: Overcoming Suboptimality with ExplorationEnhanced Contrastive Learning

作者：Wen-Han Hsieh, Jen-Yuan Chang等

作者机构：UNational Tsing Hua University等

论文链接：https://arxiv.org/pdf/2408.14009

2. 摘要

在基于演员-评论家（actor-critic）的强化学习算法中，如Twin Delayed Deep Deterministic Policy Gradient（TD3），空间空间探索不足可能导致在控制7自由度机械臂时出现次优策略。为了解决这个问题，我们提出了一种新颖的探索增强对比学习（ExplorationEnhanced Contrastive Learning, EECL）模块，通过为遇到新状态提供额外奖励来改善探索。我们的模块将以前探索过的状态存储在缓冲区中，并通过在K维树（KDTree）框架内使用欧几里得距离将新状态与历史数据进行比较。当智能体探索新状态时，会分配探索奖励。这些奖励随后被整合到TD3算法中，确保Q学习过程能够纳入这些信号，从而促进更有效的策略优化。我们在robosuite panda lift任务上评估了我们的方法，结果表明，在测试环境中，它在效率和收敛速度上显著优于基线TD3。

3. 效果展示

Robosuite Panda Block提升环境。

4. 主要贡献

提出了探索增强对比学习（EECL）模块：为了应对在 TD3 算法中常见的探索不足问题，本文提出了一个新颖的 EECL 模块。该模块通过对新状态提供额外奖励来增强探索能力，能够有效地存储已探索状态，并通过 KDTree 框架与历史数据进行比较，识别新状态。
改进了 TD3 算法的性能和稳定性：将 EECL 模块集成到 TD3 算法中显著提升了算法的平均累积奖励、收敛速度和探索效率。与基线 TD3 相比，EECL 增强的 TD3 显示出了明显的性能改进，说明该模块在提高策略优化和探索效率方面的有效性。
验证了 EECL 模块的鲁棒性：通过在不同的随机种子下进行实验，证明了 EECL 模块在各种条件下的可靠性和一致性。结果表明，EECL 模块在面对不同的随机种子时仍能保持稳定的性能提升。
加速了学习过程和策略优化：EECL 模块不仅加快了学习过程，还导致了更多样化的经验积累和更好的策略优化。这表明 EECL 方法能够有效地克服强化学习中固有的探索挑战，提升了机器人控制任务的学习效率。
为未来的研究提供了方向：本文的研究结果建议将 EECL 模块应用于更复杂的环境和任务中，以验证其通用性。此外，计划将 EECL 与其他强化学习算法（如 PPO 和 SAC）结合，以评估其在更广泛应用中的效果，从而推动更加高效的强化学习策略的发展。

5. 基本原理是啥？

探索增强对比学习（EECL）模块：EECL 模块的核心思想是通过对新颖状态的探索提供额外奖励，从而增强智能体的探索能力。具体实现包括以下几个方面：

新状态识别：EECL 模块使用 KDTree 框架来管理和识别新状态。通过计算新状态与历史状态的欧几里得距离，模块可以高效地判断新状态的出现，从而决定是否给予探索奖励。
奖励机制：对于每个新状态，EECL 模块会给予额外的探索奖励。这些奖励旨在鼓励智能体探索未曾经历过的状态，从而避免陷入局部最优解。
状态存储：模块通过缓冲区存储已探索的状态，并在新状态出现时更新存储内容。这有助于在后续的学习过程中避免重复探索已知状态，提高探索效率。

2. TD3（Twin Delayed Deep Deterministic Policy Gradient）算法：TD3 是一种用于连续动作空间的强化学习算法，其主要原理包括：

双重 Q 网络：TD3 使用两个 Q 网络（即“值网络”）来估计动作的价值，并计算它们的最小值来减少价值估计的偏差。这有助于减轻值函数的过估计问题。
延迟策略更新：为了提高训练稳定性，TD3 每隔几个步骤才更新一次策略网络。这可以减少策略更新频率，避免策略过于频繁地变化。
目标网络平滑：TD3 使用目标网络来平滑策略更新，并将策略网络的输出加上高斯噪声。这种平滑操作有助于稳定训练过程。
经验回放：TD3 使用经验回放缓冲区来存储智能体的历史经历，并在训练过程中随机抽取小批量数据进行更新。这可以打破数据之间的相关性，提高训练效果。

EECL 模块与 TD3 算法的结合，通过增强探索、改进新状态识别和奖励机制，优化了 TD3 的性能和稳定性，使其在机器人控制任务中的应用更加有效。

6. 实验结果

平均累积奖励：

集成 EECL 模块的 TD3 算法在平均累积奖励方面显著优于基线 TD3。无论在不同的随机种子下，改进的平均累积奖励均表现出一致的提升。这表明 EECL 模块有效地提升了算法的总体性能。

2. 收敛速度：

EECL 增强的 TD3 展示了比基线 TD3 更快的收敛速度。带有 EECL 模块的代理能够在较少的训练回合中达到稳定的性能水平。这表明增强的探索策略能加速学习过程，使得算法更快地收敛到良好的策略。

3. 探索效率：

EECL 模块显著提高了探索效率。在 EECL 增强的 TD3 中，新的状态发现率较高，导致了更丰富的经验和更好的策略优化。这种提高的探索效率意味着代理能够更快地发现和利用有用的状态，从而改善整体策略的质量。

4. 实验环境设置：

实验在 Robosuite Panda Lift 任务环境中进行，该环境模拟了一个 7-DOF 机器人臂在表面上抬起一个立方体的任务。所有实验在相同的环境设置下进行，以确保公平比较。推荐课程：机械臂抓取从入门到实战课程（理论+源码）。

5. 网络架构和参数：

TD3 实现使用了两层前馈神经网络，其中评论网络的隐藏层节点数为 400 和 300，演员网络的隐藏层节点数也为 400 和 300。网络使用 ReLU 激活函数，并通过 Adam 和 AdamW 优化器进行训练，学习率设置为 0.001，权重衰减为 0.005。

6. 探索增强对比学习（EECL）模块参数：

EECL 模块包括状态维度、用于新状态识别的距离阈值、初始最大探索奖励、奖励衰减因子以及最大存储状态数量等参数。KDTree 机制用于管理状态，确保高效探索。

7. 策略平滑和延迟更新：

目标策略的平滑通过向动作添加高斯噪声来实现，并且目标网络的更新采用软更新参数 τ 设置为 0.005。策略延迟更新方法使得每两次迭代更新一次演员网络和目标评论网络。

8. 测试结果：

在评估期间，没有探索噪声的情况下对 10 个回合的平均奖励进行报告。结果显示，EECL 增强的 TD3 在所有指标上都超越了基线 TD3，显示出在效率和稳定性方面的显著改进。

7. 总结 & 未来工作

在本文中，我们解决了在控制 7 自由度机械臂时 Twin Delayed Deep Deterministic Policy Gradient (TD3) 算法的次优性问题。为了应对通常导致次优策略的探索不足挑战，我们提出了一个新颖的探索增强对比学习（EECL）模块。该模块通过为遇到新状态提供额外奖励来增强探索。它有效地将先前探索的状态存储在缓冲区中，通过使用 KDTree 框架将新状态与历史数据进行比较来识别新状态，并根据所遇状态的新颖性分配探索奖励。我们的结果表明，将 EECL 模块集成到 TD3 算法中显著提高了性能和稳定性。与基线 TD3 相比，EECL 增强的 TD3 算法在平均累积奖励、收敛速度和探索效率上均表现出显著的提升。这些改进在不同的随机种子下均一致观察到，表明我们的方法的鲁棒性和可靠性。增强的探索策略不仅加速了学习过程，还导致了更多样化的经验和更好的策略优化，突显了我们的方法在克服强化学习中固有的探索挑战方面的有效性。我们的发现表明，EECL 模块是其他强化学习算法的有价值补充，有效地增强了探索。未来的工作将把 EECL 模块应用于各种环境，包括复杂任务，以验证其通用性。此外，我们计划将 EECL 与其他强化学习算法如 PPO 和 SAC 集成，以评估其更广泛的适用性。本研究旨在改进 EECL 模块，为复杂的机器人控制及其他领域提供更高效的强化学习策略。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: CV3d001，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

TD3算法加持EECL模块：让7自由度机械臂更快、更稳、更智能！

推荐体验

相关资讯

艺术的参数与创作自由度：MJ绘图 prompt生成器

AI绘画器，让创意更自由自在

跨时代的AI新品——JetMax机械臂，带来人工智能新玩法！

AI超级端侧加持，OPPO Find X7系列手机更智能更好用

百度梁志祥：智能体让营销更简单

近期资讯

嘉兴鸿博机电取得布局紧凑高稳定性纺纱设备用面板结构专利，提高空间利用率

浙江飞燕化纤取得一种倍捻机的理线结构专利，保证纱线的张力保持在合适的状态

苏州领纤新材料取得涤纶长丝干燥用设备专利，避免涤纶长丝两面烘干程度差别大造成不良影响

扬州方通取得一种硅单晶棒的拼棒装置专利，能够起到便于对两个硅单晶棒进行精准快速对接的作用

荣耀CEO赵明：12月海外销量占比突破50%

烨和祥取得联合纺丝机用丝线定位装置专利，稳定性好

海盐兴达取得一种梳麻机用T型针芯专利，方便对凹型板进行固定

深圳鼎信通达取得一种基于P2MP技术实现基于浏览器的实时通讯系统专利

湖北百奥科技股份有限公司取得梳齿式皮棉清理机专利，提高除杂效率

山东聚蚨源取得化纤纤维生产用纺丝干燥装置专利，灵活改变加热长度适应纤维干燥需求

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响