当人形机器人来“敲门”，它距离真正会干活还有多远？

作者：36氪的朋友们发布时间：2024-09-20

在今年的世界人形机器人大会上，投资人们普遍对人形机器人略有失望。

但回顾整个2024年，人形机器人仍有一定对技术突破：从斯坦福大学大火的炒菜机器人ALOHA，到接入OpenAI大模型的Figure01，再到马斯克X上展示的会“叠衣服”Optimus Gen2，以及能与主人拥抱的NEO机器人，这些创新正代表着机器人泛化能力的进步，同时也反映出外界对人形机器人能够融入人类日常生活的美好期盼。

然而，这需要他们运动更自如，并能够处理更复杂的问题。这将对人形机器人的泛化能力和本体制造提出更高的要求。

北京时间9月19日，在2024云栖大会上，围绕《人形机器人的“图灵时刻”》主题，至顶科技CEO兼总编辑高飞，星纪动元创始人陈建宇，北大-银河通用具身智能联合实验室主任王鹤，宇树创始人、CEO王兴兴，逐际动力创始人张巍，五位嘉宾针对人形机器人的形态定义、核心技术含量衡量标准、投入实际应用的时间预期、大模型给人形机器人带来的影响展开了深入的讨论。

以下为云栖大会现场实录整理：

高飞：我是至顶科技的高飞，今天主持这个讨论环节。我们的主题是“图灵时刻”，大模型的出现让信息真假难辨，人和AI之间的界限越来越模糊，但目前的AI仍基于文本，并未进入物理世界。我们将讨论人形机器人作为物理世界的智能载体，如何在大模型的推动下发展，是否有一天它们能达到图灵时刻，难以分辨其与人类的区别，甚至会区分不出来“敲门”的是人类还是机器人。让我们请几位嘉宾交流。

首先问一个关于初心的问题。作为创业者，你们的初心很重要。王兴兴，我知道宇树科技成立多年，你曾一度反对做人形机器人，但近几年你们却快速推出了人形机器人。是什么让你改变了看法？

王兴兴：没错，几年前我坚决反对做人形机器人。当时的技术还无法支持复杂的人形机器人系统，过于复杂的系统难以维护。2009年、2010年时，我做过小型人形机器人，但发现在复杂或泛用性场景下，技术还不足以驾驭这些系统。所以当时我决定不做。然而，随着2016年新一波AI技术的兴起，到2018年、2019年，机器人领域的AI技术逐渐展现潜力。特别是到2022年，大语言模型的表现令人惊艳，AI技术的发展速度远超我的预期。因此，我们在2023年正式启动了人形机器人项目。

虽然起步晚，但一年多来我们发布了两款人形机器人，结果超出预期，无论硬件还是软件的发展速度都非常快。

高飞：明白了，是AI的发展促使你改变了态度。接下来问张巍总，你们是通用机器人公司，通用机器人是否一定要做人形？这是个有争议的问题。

张巍：我认为通用机器人必须做人形，尤其是双腿人形机器人。机器人和AI的使命不同，AI负责思考和决策，机器人代替人类行动。通用机器人本质需要具备两种能力：移动能力和操作能力，移动不一定需要双臂，但操作则必须有双腿，否则无法达到人类的工作场景。所谓通用机器人就是在这两个方面上能够达到跟人一样的适应能力和泛化化。

我觉得这一代AGI的发展，相比上一代的核心区别，就是从专用到通用的变化。可能在大模型出来之前，“通用”是一个贬义词，通用就是没什么用。但是大模型出来以后，大家发现像我们在专业领域里面收集数据做专项任务的方式，存在很大局限性。反而我们要构建基础的通用能力，然后在此基础上发展专用能力，才是解决泛化问题的关键。我认为大模型技术提供了通用软件算法，而机器人与物理世界的交互则依赖于人形机器人。

高飞：张巍总提到双腿的人形机器人，不过王鹤老师的机器人没有腿。王鹤老师，您如何定义人形机器人的形态？

王鹤：我们公司名为银河通用，目标自成立之初便是实现通用机器人。不过，通用机器人有一个发展过程，首先是在单一场景中实现多任务和可移动，然后逐步扩展到多场景、多任务，最终达到全场景、几乎全任务的能力。在这个过程中，不同阶段会有最适合、最经济、最稳定的机器人载体。因此，在当前人形机器人或通用机器人市场刚刚起步的阶段，我们选择从特定场景中的多任务操作入手，例如在零售商超中进行上货、下货，在工厂搬运箱子等。实际上，在平坦的地面环境中，使用轮子已经足够满足需求。

我们并非完全没有腿，而是将两条腿整合成一个360度可旋转的轮盘，能够下跪并触碰地面，以拾取物品。双手的设计是为了应对如搬运箱子等需要双手操作的任务，在超市中，一只手拿篮子、一只手取货也是同样的道理。我们的机器人采用360度旋转轮和整合的双腿，能够站立到1.75米，触及高度达2.4米，并且可以下蹲触地，确保以最低成本、最稳定的技术实现率先落地的应用场景。

高飞：每家公司对腿的定义不同。那么，陈建宇老师，具身智能和人形机器人这两个概念经常一起提到，您怎么看待这两个词？

陈建宇：具身智能和人形机器人虽然概念相近，但侧重点不同。具身智能主要关注智能本身的实现，它对形态没有严格要求，可以是人形、四足，甚至是能动的物体。人形机器人则特指形态为人形的智能体。我们公司重视具身智能与人形机器人的协同发展，正如人脑与身体同时成长，我们认为机器人的软件和硬件也必须协同发展。

高飞：不仅仅是腿的形态，具身智能涵盖更广。那么，下一个问题是关于技术含量的。人形机器人现在很热，有很多表演和展示，如何判断一个人形机器人是否有技术含量？陈建宇老师，您怎么看？

陈建宇：我们可以将人形机器人分为大脑、小脑和本体三部分。这三者同样重要，但我认为关键是“小脑”，即控制行动的部分。如果没有小脑，机器人无法执行任务，只是一堆一堆会思考的破铜。小脑承载了大脑的指令，是实现机器人与物理世界交互的核心部分。

目前相比较于其它部分，“小脑”技术是最薄弱的，同时也是技术不确定性最高、收敛性最差的部分。

大脑部分得益于强大的大语言模型技术，但小脑部分存在的局限性很明显。大多数机器人仍然依赖几十年前的工业机器人或扫地机的技术，这极大限制了其发展。我们希望人形机器人的双腿能像人类一样稳健、快速、灵活，使其能够到达任何地点；同时双手也要足够灵巧，能够处理从家庭到工厂的各种任务，具备上厅堂、下厨房、进工厂的能力。这是我们追求的目标，但目前尚未完全实现。

至于如何判断人形机器人的技术成熟度，可以从其行走和操作的泛化能力入手。比如，在演示过程中，可以对它制造一些干扰，例如突然踹它一脚，或者在它抓取物体时制造一些障碍，观察它能否稳定、智能地适应并完成任务。

高飞：王老师，您怎么看？

王鹤：银河通用最关注的是机器人上半身手、眼、脑的协调，这涉及大脑、小脑以及对本体的控制。我们首先在泛化抓取技术上取得了突破，体现了具身智能。泛化意味着机器人可以抓取各种材质的物体，无论是透明的、高光的或吸光的，像抱箱子、拿药盒等任务都是通过视觉引导完成的，不依赖二维码或任何标记，完全依靠图像理解，与大脑联动。部署过程实现了“零代码”，即无需编写复杂代码即可操作。

例如，我们展示了一个技术，机器人能够操作将卡皮巴拉放入金属杯中，并利用最前沿的端到端大模型技术，通过视频输入，在未曾见过的环境下根据人类的指令导航，完成任务。

因此，人形机器人的技术含量可以从两个方面衡量：一是其泛化能力，即能否真正实现通用功能；二是与人类的语言沟通能力，实现零代码的部署。

高飞：不仅能干活，还能交流。王兴兴，您怎么看？

王兴兴：对于人形机器人，人们期待的是一个AI模型，能够同时处理运动和操作。然而，目前运动和操作的训练还是较为分离。就全身运动而言，我希望到明年机器人能够执行复杂的全身运动表演，尽管我们现在已经完成了一部分，但大多数动作仍然是单独训练的，尚未形成连贯的整体，每次训练也消耗大量时间和人力。如果有一套更全面的系统，比如只需观看一个视频或简单演示就能学会完整的动作，这将为当前的表演带来巨大改变。

此外，我希望机器人在操作能力上有所突破，不仅能完成简单的桌面整理任务，还能处理复杂的生产装配，甚至更高级的推理任务。操作能力的提升，尤其是在生活中处理手臂相关的任务，将非常有价值。

虽然我们在这两方面已经取得了一定进展，但要实现真正的泛用性还存在距离。如果能够让机器人在全新的环境中，只通过简单的演示或自我强化学习就能自然完成任务，将具有非常大的价值。无论是购买一个机器人并部署到家中，还是在某个场馆中使用，只要给它简单的指令，它就能在大多数时间内自主完成任务。这是我对未来的期望，尽管目前还未完全实现。

高飞：您看到机器人时，第一眼会关注哪里？

王兴兴：可以看整体，每个人审美不同。

高飞：张巍老师，您怎么看？

张巍：我认为，理解机器人技术的关键在于两个关键词：泛化和通用。这两个词是本次变革的核心。具体来说，我们应该关注机器人的“大脑”、还是“手”，抑或其他？我提供一个视角：在评估人形机器人时，首先要关注它的腿。人形机器人之所以被视为一种新物种，而非传统机械臂的延续，根本原因在于它们需要具备两条腿。我认为，腿是机器人实现通用能力的基础。那么，在观察腿时，我们主要关注两个方面：首先，它是否具备应对各种地形的泛化能力；其次，它是否能够支撑双臂进行全身协同的通用操作，这也是腿的重要价值所在。

在我们的产品展示视频中，大家可以看到，小型双足机器人并没有脚掌，实际上就像人踩着高跷，这一设计是为了测试AI算法的能力。从视频中可以看出，机器人在不同地形上的适应能力和泛化能力已经接近类人水平。就像我个人在山地上踩高跷，如果有人推我，我也可能会失去平衡，这显示了我们在这方面取得的重要进展。

此外，视频中还展示了机器人在承载4公斤负载时的全身协同操作。这种展示在有负载的情况下相对较少见。双腿不仅需要保持自身的平衡，还要与四肢协同发力，以完成大负载的操作，这个过程需要通过腿部进行动态调整，全身协调面临一定挑战。我认为，这种全身协同的操作任务是区分人形机器人与固定双臂机器人的最重要特征，也是我们特别关注的技术点。

高飞：总结一下，大家的观点都强调机器人必须具备适应性，能够在不同环境下工作，还要有良好的移动和操作能力。接下来谈谈机器人什么时候能干活的问题。马斯克预测未来两三代机器人后，年产量可达100万台。各位怎么看待这个时间线？

陈建宇：应用落地需要定义。如果初步应用不严格要求，在一两年内我们可以看到工业、商用甚至家用的机器人开始投入使用。根据创新扩散理论，任何新产业都有早期使用者愿意尝试。至于像电影《Her》中那样的机器人进入家庭，规模应用可能还需要更长时间，尤其是家庭场景要求更高的泛化能力，而工业场景相对容易控制。

高飞：机器人“敲门”要多久实现？

陈建宇：我认为，从纯技术的角度来看，解决难点并不需要太长时间。如果仅仅是实现某个特定功能，比如让我们的机器人能够上下楼梯并在户外导航，这些都已经可以做到。机器人完全可以自主导航到门口并执行敲门的动作，这并没有技术上的难点。然而，真正的挑战在于，虽然早期的探索可能会很快取得进展，但要实现大规模应用，尤其是进入家庭环境，所需的时间相对较长。家庭环境没有明确的边界和泛化要求，而大规模应用更适合于工业场景，因为工业环境是有边界的，可以人为设定一些规则和标准场景，从而更容易进行控制。因此，在类似于ChatGPT这样的技术达到其图灵时刻之前，工业应用会更为迅速。

另一个难点在于，工业场景中可以将机器人与人隔离，并且机器人执行的任务相对固定。在这种情况下，只要小脑取得了一定的进展，就可以在工厂中投入使用，工人不需要具备复杂的数学能力，只需能够完成特定的工序即可。然而，对于人类的应用要求就高得多，同时也会引发更多的安全性问题。

高飞：其他几位能简短说下时间预期吗？

王鹤：银河通用的机器人现在已经能在零售场景下应用，比如在云栖大会上，观众通过iPad下单，机器人能从货架上拿取物品。我们预计明年将是商用元年，五年内目标是在零售和车厂场景中达到1万台。进入家庭的时间大概在十年左右，十五年内可能会有上千万级的市场。

王兴兴：我比较乐观，明年在工业和固定场景下实现商业落地不成问题。三年内全球可能会出现通用型AI机器人，五年内我们会看到天翻地覆的变化。

张巍：我同意各位的预测。我认为这个赛道是事件驱动型的，时间难以预测。关键在于AI技术的进展。需要避免过早商业化，技术开关还没找到时贸然推进会遇到很多挑战。

高飞：我补充最后一个问题，关于大模型与机器人之间的关系。我们今天讨论了很多大模型技术，它对人形机器人发展有什么影响？大家能否用两三句话总结一下观点？

张巍：影响非常大。机器人发展的动力来自AGI和大模型技术。我认为具身智能将成为多模态大模型的杀手级应用，包括无人驾驶。我想强调，大模型技术改变了我们的思维方式，从规则驱动到算法驱动，再到数据驱动。现在，我们先看有哪些数据，再决定采用什么算法进行训练。因此，我们的理念是“软件定义硬件，数据定义软件”。

王兴兴：我认为通用机器人，尤其是通用人形机器人，是大模型落地的最大载体，能解决大模型的落地问题，两者是非常好的组合。

王鹤：现在的通用机器人大多使用分立的小模型，大模型可以赋能这些技能。第一，大模型可以作为代理，规划长程任务。第二，它可以作为监控器，纠正小模型的错误，及时处理问题。第三，最有前景的是将动作作为大模型的输出，实现通用感知、规划和执行的一体化。

陈建宇：大模型给我们最大的启发是“Scaling Law”的存在。研究通用机器人需要匹配的通用智能，大模型引导我们思考如何实现机器人领域的Scaling Law，并带来了语言模型的技术，如Transformer架构、Token算法等。但机器人需要与物理世界交互，所以我们还需要在算法和数据层面进行更多探索。

高飞：您提到了算力和数据，我想追问现在合成数据、网络数据和仿真数据的比例情况，算力如何分配？是在云端还是本地？

陈建宇：目前数据比例还没有完全固定。比如在运动控制和行走方面，几乎全部依赖仿真数据，而操作方面则依赖真实世界的数据。未来可能会有更多发展。至于算力，机器人必须要有本地算力，尤其是对于延时和断网的零容忍问题。一般来说，小脑在本地，大脑在云端。

高飞：最后一个问题，图灵时刻能否实现？人形机器人能否做到真假难分？请用一个字回答。

陈建宇：能。

王鹤：一定能。

王兴兴：能。

张巍：一定和必须能。

高飞：我相信这个目标能实现。正如那句话所说，“预测未来最好的方法就是创造它”。如果大家共同努力，这个“能”字一定会实现。最后，感谢几位嘉宾的参与，感谢各位观众。

本文来自“腾讯科技”，作者：周小燕，36氪经授权发布。