李飞飞团队ReKep：万能具身机器人！实时交互，还可搭载GPT-4o！

作者：3D视觉工坊发布时间：2024-09-05

来源：3DCV

添加小助理：CV3d008，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 这篇文章干了啥？

机器人操作涉及与环境中物体的复杂交互，这些交互通常可以在空间和时间领域表达为约束。以图1中向杯中倒茶的任务为例：机器人必须握住把手，在移动过程中保持杯子直立，使壶嘴与目标容器对齐，然后以正确的角度倾斜杯子进行倾倒。这里的约束不仅编码了中间子目标（如对齐壶嘴），还编码了过渡行为（如在移动过程中保持杯子直立），这些共同决定了机器人在与环境交互时的空间、时间和其他组合性动作要求。然而，为大量现实世界任务有效制定这些约束带来了重大挑战。虽然使用机器人与物体之间的相对姿态来表示约束是一种直接且广泛使用的方法，但刚体变换不描绘几何细节，需要事先获取物体模型，且不适用于可变形物体。另一方面，数据驱动的方法能够在视觉空间中直接学习约束。尽管这种方法更加灵活，但随着对象和任务中约束数量的组合增长，如何有效地收集训练数据仍不明确。因此，我们提出以下问题：如何表示操作中的约束，使其1) 具有广泛适用性：能够适应需要多阶段、野外、双手和反应式行为的任务；2) 可扩展地获得：有潜力通过基础模型的进步实现全自动化；3) 可实时优化：能够被现成的求解器有效求解以产生复杂的操作行为？

在本文中，我们提出了关系关键点约束（ReKep）。具体来说，ReKep将约束表示为Python函数，该函数将一组关键点映射到数值成本，其中每个关键点都是场景中特定于任务且具有语义意义的三维点。每个函数由关键点上的（可能非线性的）算术运算组成，并编码它们之间的期望“关系”，这些关键点可能属于环境中的不同实体，如机械臂、物体部件和其他代理。虽然每个关键点仅包含其在世界坐标系中的三维笛卡尔坐标，但如果有关键点之间的刚性约束，则多个关键点可以共同指定线、面和/或三维旋转。我们在顺序操作问题的背景下研究了ReKep，其中每个任务都涉及具有时空依赖性的多个阶段（例如，上述示例中的“抓取”、“对齐”和“倾倒”）。

虽然约束通常是针对每个任务手动定义的，但我们展示了ReKep的具体形式具有独特的优势，即它们可以通过预训练的大型视觉模型（LVM）和视觉语言模型（VLM）实现自动化，从而能够根据RGB-D观测和自由形式的语言指令在野外环境中指定ReKep。具体来说，我们利用LVM在场景中提出细粒度且具有语义意义的关键点，并利用VLM根据叠加了提议关键点的视觉输入编写约束作为Python函数。该过程可以解释为使用视觉指代表达式在VLM支持的输出模态（代码）中定位不易用自然语言指定的细粒度空间关系。有了生成的约束，就可以使用现成的求解器通过跟踪关键点重新评估约束来生成机器人动作。我们采用分层优化程序，首先求解一组作为子目标（表示为SE(3)末端执行器姿态）的路点，然后求解滚动时域控制问题以获得实现每个子目标的密集动作序列。通过适当的问题实例化，我们证明了对于本文考虑的任务，该算法可以可靠地以大约10 Hz的频率求解。

下面一起来阅读一下这项工作~

1. 论文信息

李飞飞团队重磅开源ReKep：万能具身机器人！实时交互，还可搭载GPT-4o！

2. 摘要

将机器人操作任务表示为将机器人与环境相关联的约束，是编码所需机器人行为的一种有前途的方法。然而，如何制定这些约束，使其能够1) 适用于多种任务，2) 无需手动标记，3) 可通过现成的求解器进行优化以实时生成机器人动作，这些问题尚不清楚。在本研究中，我们引入了关系关键点约束（ReKep），这是一种基于视觉的机器人操作约束表示方法。具体而言，ReKep 表示为 Python 函数，该函数将环境中的一组 3D 关键点映射到数值成本。我们证明了通过将操作任务表示为一系列关系关键点约束，我们可以采用分层优化过程来求解机器人动作（在 SE(3) 中表示为一系列末端执行器姿态），并以实时频率实现感知-动作循环。此外，为了避免对每个新任务手动指定 ReKep，我们设计了一种自动化程序，该程序利用大型视觉模型和视觉-语言模型从自由形式的语言指令和 RGB-D 观测结果中生成 ReKep。我们在轮式单臂平台和固定式双臂平台上实现了该系统，这些平台可以执行各种操作任务，包括多阶段、野外、双手和反应性行为，且无需特定任务的数据或环境模型。

3. 效果展示

4. 主要贡献

我们的贡献总结如下：1) 我们将操作任务表述为具有关系关键点约束的分层优化问题；2) 我们设计了一条使用大型视觉模型和视觉语言模型自动指定关键点和约束的管道；3) 我们在两个真实机器人平台上展示了系统实现，这些系统以语言指令和RGB-D观测为输入，为各种操作任务产生多阶段、野外、双手和反应式行为，而无需特定任务的数据或环境模型。推荐学习：国内首个面向具身智能方向的理论与实战课程

5. 基本原理是啥？

ReKep概述。给定RGB-D观测值和自由形式的语言指令，DINOv2用于在场景中的细粒度有意义区域上提出关键点候选。将叠加了关键点的图像和指令输入GPT-4o，以生成一系列ReKep约束，这些约束以Python程序的形式指定了在任务不同阶段（C(i)子目标）关键点之间所需的关系以及过渡行为（C(i)路径）的任何要求。最后，使用约束优化求解器获得SE(3)中的一系列密集末端执行器动作，这些动作受生成的约束限制。

6. 实验结果

7. 总结 & 未来工作

在本文中，我们提出了关系关键点约束（ReKep），这是一种结构化的任务表示方法，它使用约束来操作语义关键点，以指定机器人手臂、物体（部分）以及环境中其他代理之间的期望关系。结合点跟踪器，我们证明了ReKep约束可以在分层优化框架中反复且高效地求解，以作为以实时频率运行的闭环策略。我们还展示了ReKep的独特优势，即它可以由大型视觉模型和视觉-语言模型自动合成。我们在两个机器人平台上和多种任务上展示了结果，这些任务包括多阶段、野外、双手和反应性行为，所有这些都无需特定于任务的数据、额外训练或环境模型。

尽管前景广阔，但仍存在一些局限性。首先，优化框架依赖于基于刚性假设的关键点前向模型，尽管高频反馈回路降低了对模型准确性的要求。其次，ReKep依赖于准确的点跟踪来在闭环中正确优化动作，这本身就是一个具有挑战性的3D视觉任务，因为存在严重的间歇性遮挡。最后，当前公式假设每个任务都有固定的阶段序列（即骨架）。使用不同骨架进行重新规划需要以高频运行关键点提议和视觉-语言模型（VLM），这带来了相当大的计算挑战。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

3D视觉模组选型：www.3dcver.com