机器之心PRO · 会员通讯 Week 37
---- 本周为您解读 ⑤个值得细品的 AI & Robotics 业内要事 ----
1.「Robotics 跑酷」的成本快被 RL 打下来了?
Atlas 之后又有机器人跑酷视频?RL 如何压低机器人跑酷成本?成本能有多低?以前做机器人跑酷有多贵?波士顿动力用没用 RL?...
2. Dojo 超级计算机能让特斯拉摆脱英伟达 GPU?
Dojo 超算要如何为特斯拉增加 5000 亿美元市值?Dojo 超算将解决特斯拉哪些困境?Dojo 的 D1 芯片架构了解一下?特斯拉的 Dojo 超级计算有哪些独特需求?今年还有哪些 HPC、超级计算机等产品发布?...
3. 俄语大模型 YandexGPT 问世
Yandex 是谁?有哪些产品?除中美外,还有哪些国家的科技公司发布过 AI 大模型及其相关产品?...
4. GPT 平替模型全面汇总
都有哪些平替模型?平替模型评测效果如何?开发GPT平替模型,需要哪些先进微调/指令调优/量化技术?需要用到哪些语料库、数据集及开源工具库?…
5. 美知名风投评出 AI 技术人才储备 「八强」
Lightspeed 的评选标准是什么?这八家公司中有 OpenAI 吗?在此之外 Lightspeed 还评出了哪 11 家 AIGC 应用优质创企?...
...本期完整版通讯含以上 5 项专题解读 + 32 项本周 AI & Robotics 赛道要事速递,其中技术方面 11 项,国内方面 9 项,国外方面 12 项...
本期通讯总计 27703 字,可免费试读至 5 %
消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元)
要事解读 ①「Robotics 跑酷」的成本快要被 RL 打下来了?
时间:9 月 12 日
事件:上海期智研究院、斯坦福和上海科技大学等机构公布了一套基于强化学习方法的开源机器人跑酷系统,可让不同款式的低成本四足机器人掌握高障碍攀爬、大间隙跳跃、狭小缝隙穿越等技能。
低成本机器人跑酷技术了解一下?
1、该工作由来自上海期智研究院、斯坦福大学、上海科技大学、CMU 和清华大学的研究者联合提出,相关论文《Robot Parkour Learning》已经入选 CoRL 2023(Oral)。
2、该工作提出的低成本机器人「跑酷」技能学习框架主要针对四足机器人开发,并在宇树科技的 A1、Go1 两款机器人上完成部署和实验。
3、针对机器人的运动能力(locomotion),该工作所提方法通过两阶段强化学习,让机器人智能体在模拟环境中学习应对不同目标的行为策略,然后将其转移到现实世界。
① soft 动态约束(dynamics constraint)的强化学习预训练:将障碍物设置为可穿透,允许机器人在模拟中直接穿越障碍物,而不受硬动态约束的限制。同时设计了穿透奖励,配合自动课程让机器人学习穿越障碍物,鼓励机器人逐渐学会克服障碍。
② hard 动态约束的 RL 微调阶段:强制执行所有动态约束,并用现实动态(realistic dynamics)微调机器人在预训练阶段学到的行为。
4、该工作采用英伟达的 Isaac Gym 作为模拟器进来训练所有策略。在智能体完成两阶段强化学习习得奔跑、攀爬、跳跃、爬行、缝隙穿梭五项能力后,研究者使用 DAgger 将它们蒸馏成一个基于视觉的跑酷策略(由 RNN 参数化),该策略可以仅使用机载感知和计算部署到四足机器人上。
5、经测试,在部署跑酷策略后,四足机器人能够自主选择和执行适当的跑酷技能,仅使用机载计算、机载视觉传感和机载电源即可穿越开放世界中具有挑战性的环境。
波士顿动力的跑酷技术用过类似的方法吗?
谷歌大脑机器人团队的软件工程师曾于 2018 年在「劝退深度强化学习」 的文章中所引述的论文,波士顿动力所开发的 Atlas 人形机器人没有使用强化学习,而是采用经典机器人技术。而在波士顿动力于 2021 年所公布的 Atlas 跑酷技术解析中,虽然补充了许多技术细节,但依然没有明确提起对强化学习的使用。[21]
1、基于 MIT 于 2018 年发布的《Optimization-based locomotion planning, estimation, and control design for the atlas humanoid robot》,波士顿动力的 Atlas 人形机器人总体采用了经典机器人技术。[22]
① 行走规划:为了实现高效的行走,采用了一种脚步规划方法,结合机器人的动态模型。该方法通过 LIDAR 地形扫描来识别障碍物,然后使用优化问题计算出安全脚步区域和脚步序列。最后,计算出期望的压力中心轨迹用于控制机器人。
② 动态运动规划:对于复杂的动态全身动作,如爬出汽车或从地面站起来,采用更详细的运动学和动力学模型进行运动规划。提出了一种直接转录算法,它使用机器人的完整运动学和重心动力学来计算具有动力学可行性的轨迹。
③ 控制:采用时间变化的线性二次型调节器(LQR)来稳定机器人简化的动态模型的轨迹。结合了 LQR 成本与机器人的瞬时动态、输入和接触约束,以实现高效控制。还描述了用于在物理系统上高效计算控制解决方案的算法。
④ 状态估计:引入了低漂移状态估计器,融合了运动学、惯性和 LIDAR 信息,以提高对机器人状态的估计。实验结果表明,该方法在各种实验场景中能够显著减少与期望轨迹的漂移。
2、在波士顿动力 2021 年所发布的技术博客中,则进一步介绍了在当时 Atlas 跑酷视频背后所使用的技术,主要涉及感知层面所采用的多平面分割算法和高级地图、轨迹优化方面的动作模板以及模型预测控制方面所采用的控制器等(详情请见 Week 36 业内通讯)
表:机器人跑酷技术对比(波士顿动力 VS《Robot Parkour Learning》团队)[23] [27]
机器人跑酷技术的成本快被打下来了吗?[23]
过往工作中,诸如高昂的硬件成本、测试过程损耗以及诸如机器人在运动、导航、感知等方面的技术局限使得「机器人跑酷」任务充满挑战。对此,包含期智研究院本周公布的基于视觉的端到端跑酷策略,以及 ETH 于 6 月发布的基于 position 的深度强化学习策略已开始从不同的角度解决过往工作中的局限。