行业首次，具身智能有了类似自动驾驶的演进路线

作者：甲小姐甲子光年发布时间：2024-09-13

机器人正以前所未有的速度进入大众视野，近期世界机器人大会WRC盛况再次印证了这一趋势，各式各样的机器人集中亮相、大显神通，得益于“聪明的大脑”，它们有望逐步进入工厂、商超、甚至家庭等，帮助人类或独立完成各种各样的任务。

具身大模型驱动机器人进化

这里“聪明的大脑”，指的是大模型，更准确来说，是具身大模型。

当前大模型可以划分为两大类别：非具身大模型和具身大模型。

非具身大模型：以ChatGPT、GPT-4V、Sora、GPT-4o为代表，这类模型的主要特点是输入从单模态文本扩展到多模态的语音、图像、视频，其输出也包括了文本、音频、图像、视频等，面向的是人类。这些大模型功能强大，但并不直接针对机器人领域，更多还是在人机交互、内容生成等方面展现价值。

具身大模型：相比之下，具身大模型则直接面向机器人，核心特点对物理世界的感知或接收人类指令后，机器人能够直接高频输出动作。自动驾驶大模型（如特斯拉FSD）是最典型的代表，汽车通过实时接收视觉信号（主要是图像）的输入，可以直接控制汽车方向盘、踏板等机构，实现自动驾驶功能。

机器人作为更复杂的物理系统，机器人具身大模型的输入不仅包括实时视觉信号，还涉及到人类语言、触觉等多种模态，其动作空间的自由度也更高，还需要全身各部位（底盘、腿、手臂、手指等）的协同运动。

业界代表：谷歌RT-2

谷歌RT-2是机器人大模型的代表，RT-2是一个端到端的具身大模型，它将机器人的感知、理解、决策、规划、动作等融为一体，能够在开放的环境中机器人可以直接输出动作。

在谷歌山景城办公室的厨房测试中，RT-2展现了极高的任务执行成功率（近98%），但是，这一成绩的背后也暴露出RT-2端到端大模型面临的挑战。

首先，泛化性是一大难题。RT-2在特定厨房环境中的高成功率，一旦换到施工工地、嘈杂后厨等复杂场景，成功率便骤降至30%左右。

尽管谷歌为此组建了一个16人的团队，用13个机器人，花了17个月的时间，采集到了13万条数据，这些数据覆盖了移动、抓取、放下这些移动场景中很多任务，耗资了上千万美金。这表明，RT-2在数据规模和模型泛化上仍存在局限。

其次，这种端到端具身大模型的反应速度及运动频率也是一大挑战。RT-2等输出运动频率仅能达到1-3Hz，使得机器人的反射弧长达0.3秒甚至1秒，远远低于人类和许多实际应用场景的需求。

这表明当前机器人具身大模型还存在诸多不确定性，需要在数据采集、模型训练等各个层面探索新的思路和方法，特别针对具身大模型的发展路径上需要有一个指引。

自动驾驶的启示

可以从自动驾驶和人脑机制中获得一些灵感。

首先是自动驾驶，自动驾驶L1-L5技术演进路线为机器人提供了两种可能的路径：

一是以谷歌母公司Alphabet旗下Waymo的“一步到位”或者“跨越式”路线，全力拥抱L4+高级别自动驾驶技术；二是以特斯拉为代表的“渐进式路线”，它的思路是在量产车上优先搭载L2/L3级辅助驾驶，低成本收集数据，训练算法迭代技术，最终做到L4/L5。

当前Waymo路线似乎是遥遥无期，特斯拉的FSD离商用落地越来越近。

对于机器人而言，或许可以借鉴特斯拉的渐进式思路，先解决部分场景下的应用问题，再逐步向通用化迈进。

其次，人脑的双系统机制（系统一的快思考与系统二的慢思考）也能为我们提供了有益的启示。人脑有系统一和系统二，有快思考和慢思考，前者是小脑的能力，对应机器人里交互控制、灵巧操作等技能，可以依靠小模型来处理；后者更多是大脑的能力，包括认知、理解、规划等，可以用大模型解决。

上层大模型和下层小模型相互结合，这种分层架构不仅有助于提升机器人的反应速度和运动频率，还能增强系统的灵活性和可扩展性，有可能更快通向通用机器人。

机器人大脑演进路线新方案

无独有偶，国内头部机器人公司智元，近期在其年度新品发布会上，发布了具身智能G1~G5技术路线图，这也是行业首次对具身智能技术发展有了清晰的定义。

这一路线图借鉴了自动驾驶的等级划分思路，将具身智能技术的发展分为五个阶段：

G1阶段：基础自动化阶段。基于简单的机器视觉加上人工程序化编程，这一阶段的机器人系统设计和配置都针对特定的应用需求，缺乏泛化能力。

G2阶段：通过抽象出可复用的原子技能，机器人可以实现一定程度上的场景迁移和泛化。这一阶段的机器人已经能够基于大语言模型（任务编排大模型）进行任务编排，具备一定的智能水平。

G3阶段：端到端智能化系统的初步实现。在这一阶段，机器人将从传感器数据直接学习并生成控制指令，并形成了一套通用的技能训练框架，上层的任务编排大模型逐步演变为认知推理规划大模型。与G2阶段相比，G3最大的区别在于其原子能力不再依赖于手工设计，而是通过大量数据采集和端到端训练获得，并逐步形成了一个个小模型。这种数据驱动的方法减少了人工干预，显著提高了系统的泛化能力。在G3阶段，机器人将能够更灵活地适应不同场景和任务，通过持续学习不断优化自身性能。

G4阶段：通用操作大模型的诞生。在这一阶段，随着数据量不断增加，机器人将不再局限于单一技能的训练和优化，而是能够跨越不同任务领域，实现技能之间的关联和融合。例如，拧瓶盖和开门把手的技能在底层可能共享相似的动作模式，通过模型的训练，机器人能够理解这些技能之间的内在联系，并生成更加高效、通用的操作策略，即一个个小模型会泛化为通用操作大模型。通用操作大模型的出现将极大地提升机器人在复杂任务中的表现，使它们能够像人类一样灵活应对各种挑战。

G5阶段：迈向人工通用智能（AGI）的终极目标。在这一阶段，认知推理规划大模型和通用操作大模型将实现深度融合，形成一个真正的感知、决策、执行的端到端大模型。这个模型将具备跨任务的泛化能力，能够在不同场景和任务中自由切换，实现高度智能化的自主作业。G5阶段的机器人将不再是简单的工具或设备，而是能够与人类共同工作、相互协作的智能伙伴。它们将能够理解人类的意图和需求，提供个性化的服务和支持；同时，它们也将能够自我学习和进化，不断适应新的环境和任务。这样的机器人将极大地改变我们的生活方式和工作模式，推动社会向更加智能、高效、和谐的方向发展。

从具身大模型的兴起，到谷歌RT-2等前沿项目的探索与挑战，再到智元机器人G1~G5技术路线图的清晰规划，每一步都预示着机器人技术正朝着更加智能、灵活、通用的方向迈进。

未来，随着数据量的爆炸性增长、算法模型的持续优化以及跨学科技术的深度融合，机器人将不再局限于单一任务的执行，而是能够像人类一样具备多任务处理、自主学习和适应复杂环境的能力。

近期资讯

行业首次，具身智能有了类似自动驾驶的演进路线

具身大模型驱动机器人进化

业界代表：谷歌RT-2

自动驾驶的启示

机器人大脑演进路线新方案

推荐体验

相关资讯

ChatGPT技术原理、演进路线和应用场景（附下载）

如何转行进入自动驾驶行业

自动驾驶到哪一步了？

自动驾驶综述

具身智能：当ChatGPT有了身体？

近期资讯

环境监测方案、合同、监测方法、环境监测工、环境监测服务资质

研讨会邀请 | 2024海克斯康Romax风电传动技术研讨会

034计算机是如何认识文字的

司马诸葛AI数字员工赋能千行百业，撬动新质生产力发展

助力“双师型”教师队伍建设，海克斯康2024年暑期师资培训圆满收官

第14号热带风暴“普拉桑”路径图（9月18日5时）

四分五裂是哪四分哪五裂？

想买车的别着急，新款宏光MINI EV、领克Z20等一大批新车要来

铜铁共烧电感粉末伺服成型冷压机

分切机刀片损坏的原因

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响