AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文介绍了基于强化学习的无人机控制策略零样本泛化到真实世界的关键因素。作者来自于清华大学高能效计算实验室,通讯作者为清华大学汪玉教授和于超博士后,研究方向为强化学习和具身智能。
控制无人机执行敏捷、高机动性的行为是一项颇具挑战的任务。传统的控制方法,比如 PID 控制器和模型预测控制(MPC),在灵活性和效果上往往有所局限。而近年来,强化学习(RL)在机器人控制领域展现出了巨大的潜力。通过直接将观测映射为动作,强化学习能够减少对系统动力学模型的依赖。
然而,「Sim2Real」(从仿真到现实)的鸿沟却始终是强化学习应用于无人机控制的难点之一。如何实现无需额外微调的策略迁移,是研究者们追逐的目标。尽管有许多基于强化学习的控制方法被提出,但至今学界仍未就训练出鲁棒且可零微调部署的控制策略达成一致,比如:奖励函数应该如何设计才能让无人机飞得平稳?域随机化在无人机控制中到底该怎么用?
最近,清华大学的研究团队为我们带来了一个突破性的答案。他们详细研究了训练零微调部署的鲁棒 RL 策略所需的关键因素,并提出了一套集成五大技术、基于 PPO 的强化学习框架 SimpleFlight。这一框架在轨迹跟踪误差上比现有的 RL 基线方法降低了 50% 以上!如果你正为强化学习策略无法实际控制无人机而发愁,那么 SimpleFlight 能够帮助你训练出无需额外微调就能在真实环境中运行的鲁棒策略。
实验效果一览
为了验证 SimpleFlight 的有效性,研究人员在开源的微型四旋翼无人机 Crazyflie 2.1 上进行了广泛的实验。
实验中,无人机的位置、速度和姿态信息由 OptiTrack 运动捕捉系统以 100Hz 的频率提供,并传输到离线计算机上进行策略解算。策略生成的 collective thrust and body rates( CTBR) 控制指令以 100Hz 的频率通过 2.4GHz 无线电发送到无人机。
研究人员使用了以下两种类型的轨迹作为基准轨迹:
图 1:四种轨迹的可视化
策略的训练数据包括平滑随机五次多项式和不可行之字形轨迹。训练过程持续 15,000 个 epoch,训练完成后,将策略直接部署到 Crazyflie 无人机上进行测试,没有进行任何微调。值得注意的是,由于策略在不同随机种子下表现稳定,研究人员在 3 个随机种子中随机挑选了一个策略而没有选择表现最好的那个。
表 1:SimpleFlight 与基线算法的表现对比
研究人员将 SimpleFlight 与两种 SOTA 的 RL 基线方法 (DATT [1] 和 Fly [2]) 进行了比较,如表 1 所示。结果表明,SimpleFlight 在所有基准轨迹上都取得了最佳性能,轨迹跟踪误差降低了 50% 以上,并且是唯一能够成功完成所有基准轨迹(包括平滑和不可行轨迹)的方法。图 2 是一些真机飞行的视频。
图 2:SimpleFlight 在 Crazyflie 2.1 无人机上的实验效果
研究人员指出,这些对比的核心目的并非进行绝对的横向评价,而是为了表明:SimpleFlight 实现了目前所知的在 Crazyflie 2.1 上的最佳控制性能,尽管没有依赖任何新的算法改进或复杂的架构升级。SimpleFlight 的意义更在于作为一套关键训练因素的集合,它能够轻松集成到现有的四旋翼无人机控制方法中,从而帮助研究者和开发者进一步优化控制性能。
此外,研究人员还进行了额外实验,将 SimpleFlight 部署到一款由团队自制的 250mm 轴距四旋翼无人机上。这款无人机配备了 Nvidia Orin 处理器,进一步验证了 SimpleFlight 在不同硬件平台上的适应性与效果。自制无人机的飞行视频和结果已上传至项目官网,供感兴趣的同行参考。
SimpleFlight 的五大核心秘诀
那么,SimpleFlight 是如何做到的呢?研究人员主要是从优化输入空间设计、奖励设计和训练技术三方面来缩小模拟到现实的差距,并总结出了以下 5 大关键因素:
另外值得注意的是,SimpleFlight 框架集成在研究人员自主开发的高效无人机仿真平台 OmniDrones,该平台基于 NVIDIA 的 Isaac Sim 仿真环境搭建,允许用户在 GPU 并行模拟之上轻松设计和试验各种应用场景,可以实现每秒超过 10^5 步的仿真速度,极大地加速了强化学习策略的训练。
图 4:OmniDrones 仿真平台示意图,来源:https://arxiv.org/abs/2309.12825
还等什么?赶快试试 SimpleFlight,把你的强化学习策略送上无人机吧!
Reference:
[1] Huang, K., Rana, R., Spitzer, A., Shi, G. and Boots, B., 2023. Datt: Deep adaptive trajectory tracking for quadrotor control. arXiv preprint arXiv:2310.09053.
[2] Eschmann, J., Albani, D. and Loianno, G., 2024. Learning to fly in seconds. IEEE Robotics and Automation Letters.