虽然逛完世界机器人大会后,部分投资人对腾讯科技表示,在人形机器人赛道“一个也不想投了”,但看到OpenAI投资的人形机器人公司1X生产的NEO机器人后,他们竟又开始有信心了。
连一直反对将机器人做成人形的海银资本创始人王煜全也被惊讶到,他对腾讯科技表示,“NEO的动作非常地自然协调,完全摆脱了人们对于机器人的刻板印象”,“刚看到1X这款机器人时,我第一反应甚至是以为衣服下面有个真人。”
我们也同样被它的流畅惊艳到,但除此之外,我们更想了解的是,为何它会在家庭场景“轮式”模式的天下里,选择使用“双足”模式?
在上述的报道中我们曾提到,服务于工业场景的机器人,超过80%都会在下半身的设计里面采用“双足”模式。而家庭场景的任务标准化程度更低、任务更加琐碎并且突发状况更高频,这就要求家用机器人安全又安静。相比较于“双足”高成本、控制算法不成熟导致行走站立不稳定、噪音大等问题,轮式在平坦路面的运转更安静、稳定性更强。
而NEO另辟蹊径,它就是家庭场景中罕见的“双足”模式机器人。
在展示视频中,NEO十分“柔软”,若没有它背后吊着的那根线,乍看上去就像一个真实的人类正在厨房收拾高脚杯。
它能在没有任何指令的情况下,仅依靠自己的“观察”就预测出人类做家务的下一步操作。
NEO移动起来很安静,但调高展示视频的音量,还是可以听到NEO俯身拿起背包时,所发出的细微的嗡嗡声。
和很多看上去“人高马大”的人形机器人不同,NEO看上去就像一个邻家小哥,穿着休闲的服装来你家做客,在你做家务的时候可以帮忙打个下手。
NEO身高1.65米,全身拥有55个自由度,它的体重只有30公斤,几乎比大部分同级别身高的人形机器人轻1/3~1/2,但是NEO的力气并不小,据Medium报道,NEO负载20公斤,其握力足以举起70公斤(154磅)的重物。
(图:国内外“成年人身高”区间的人形机器人体重对比)
从参数来看,NEO“身板”小,但力气并不低于行业主流人形机器人。在这一众的双足人形机器人中,也只有NEO明确定位服务家庭应用场景,其它双足机器人基本都服务于工业场景。
那么,NEO是怎么能做到在家里“轻手轻脚”地走路?又是如何做到仅通过观察就能预测人类行动?难道,它已经克服了人形机器人的泛化问题了吗?
双足人形机器人在工业场景很合适,但一旦切换成家庭模式就会面临许多挑战。
挑战的核心在于,“双足”的机械结构复杂,需要调动更多关节来维持机器人运转,必然会需要更高的功率,如果要应用于家庭场景,就必须解决高功率损耗带来的一系列连锁问题,比如散热和噪音。
相比之下,在工业场景中,机器人通常在仓库或封闭的工厂中工作,这些地方往往已经配备了冷藏或降温设备来协助散热,因此双足机器人在这些环境下并不需要过多担心高温的影响。
作为“打工人”,对外形的要求也不高,它们可以半裸(裸露着零部件),甚至挂着电线在工厂走来走去,没有“衣服”也有助于散热,比如波士顿动力的液压Atlas就可以“凶猛”地来回奔跑。
(图:波士顿动力 液压Atlas)
此外,工业环境本身充斥着各种机械声响,双足机器人关节的移动声和行走时的脚步声也就显得不那么引人注意了。
但一旦切换到家庭场景,这些在工业场景里不显眼的问题就全部成了BUG:机器人的散热性能不高可能引发火灾,噪音太大可能令人神经衰弱,零部件外露尤其对于有孩子的家庭而言存在极大的安全隐患。
而轮式的功耗低,天然地少了散热、噪音这类烦恼。
这就意味着,要把“双足”机器人搬进家庭场景,必须从本体上进行优化和改造。
1X机器人AI副总裁Eric Jiang提供了生产NEO的解决思路,对机器人核心部件“电机”进行优化,他在最近的访谈中表示,和很多人形机器人采用“小电机、大齿轮比、高动能”的思路相反,NEO的关键密码是电机“高扭矩、小齿轮比、低动能。”
那么,如何理解Eric Jiang说的这句话呢?我们可以先简要理解一下人形机器人“电机”和“齿轮比”的关系。
类比人类,人形机器人的运动类型其实只有两种:直线运动和旋转运动。比如,在1X的展示视频中,有几秒钟NEO向人类“招了招手”,解剖这个动作的组成部分是:先右手伸手(直线运动),再摆手(旋转运动)。
如果尝试拆解,你会发现人形机器人的整个运动系统都是这两种运动的组合。
其中,直线运动由人形机器人的“电机+丝杠”组合实现,而旋转运动由“电机+减速器”实现,在这里我们重点关注旋转运动的实现,“电机+减速器”帮助机器人完成“关节”旋转,和轮式相比,“双足”主要涉及到的运动也体现在关节部分。
“齿轮比”核心影响到的正是旋转运动的速度,也就是“电机+减速器”的组合速度。
简单来说,“齿轮比”是指电机的输出速度与实际执行部件的速度之间的比例。举例来说,如果人形机器人双腿移动速度是V,高齿轮比意味着电机的运转速度高,低齿轮比意味着电机运转速度低。
很多人形机器人是高齿轮比(例如10:1),那么电机的速度经过齿轮减速后,机器人关节的运动速度会变慢。这种配置更适合需要大力量但不要求高速运动的场合。
如果采用的是低齿轮比(例如3:1),电机的速度经过较小的减速,机器人关节的运动速度会更快。这种配置适合需要快速反应和灵活操作的场合。
NEO通过低齿轮比的设置,降低电机的输出速度,就能够降低核心关节的功耗。
电机的低齿轮比,意味着牺牲了电机的运转速度,Eric Jiang在他写的技术文档《Motor Physics》中表示,NEO采用“高扭矩”来弥补电机低运转可能带来的力量不足问题,他也表示,“大多数电机的功率不足以施加大量扭矩,因此机械工程师采用高速电机并为其添加齿轮,以速度换取扭矩。”
(图:Eric Jiang发表的技术文档《Motor Physics》截图,表述机械工程师以电机速度换扭矩)
这就解释了为什么目前很多双足机器人只能在工业场景使用:“大多数人形机器人公司选择在工厂而不是家庭中部署他们的机器人,因为它们依赖于僵硬、高度齿轮化的驱动系统。这些系统在人群周围并不安全,必须用笼子围起来。”
从这个角度来看,1X团队寻找到了让双足机器人在家庭场景下,安全运转的硬件路径,所以NEO可以穿着人类的衣服,而不用担心因为散热性能差导致衣服燃烧。
其实,1X的上一代机器人EVE做的是轮式,在NEO这一代才转为双足,本质原因依旧是场景适配问题。
家庭场景十分复杂,会要求机器人将手伸到桌子底下取东西、从柜台上捡东西,一个轮式底盘的机器人,由于底座占据了空间,必须要“伸长”胳膊才能够到一些家庭角落,Eric Jiang认为,“这种情况下,机器人应该像人类一样利用自身重心的变化取东西”,比如遇到东西掉落在橱柜角落的情景时,机器人应该和人一样,可以抬起一条腿,并且将一只手按在桌子上,利用自己的重心变化够到物件。
Eric Jiang在访谈中还抛出一个例子,为什么很多书架的最底端都留有一定的空间缝隙?“就是为了方便人类将脚趾伸进去”,这样人可以身体贴着书架取书。
所以,双足可以缩小机器人的运动足迹,而轮子底座无法适配琐碎的家庭场景。
这是1X从轮式走向足式的逻辑,或许,家庭场景下,轮式确实“跑”不过足式。除此之外,在泛化和数据采集方面,NEO也有一些“独特”的配方。
作为一个能家用的机器人,除了安全,最重要的就是能做到真正的多面帮手。这就需要机器人能够“聪明”,能够听懂主人的需求,能够做到自主的操作,够泛化。
纵观OpenAI投资的所有机器人公司,他们产品的共同特点都是非常“聪明”,也就是能把大模型与机器人结合得很好。
比如Figure 01的惊艳的表现,很大部分都来自于它能够听懂指令和识别物品做出判断。而这正是多模态大模型和机器人结合的结果。
另一家被投公司Physical Intelligence虽然到目前为止都只有个网页,没有产品。但在采访中,这家公司表示其愿景就是“构建一个通用的人工智能模型,而非为在仓库或工厂执行重复任务的机器人提供动力,该模型可广泛应用于多种场景。”
至于机械部分,他们甚至宣称不会自行制造硬件,而是将购买多种类型的机器人来训练其软件。
(图:Physical Intelligence)
这与其说是机器人公司,不如说这是一家具身大模型公司。
而1X的机器人也不例外。
1X的AI副总裁Eric Jang对大模型融入机器人的相关经验相当丰富,在2022年加入1X之前,他曾经在谷歌Deepmind在SayCan的项目中领导一个小组。而这个项目是最早试图融合语言模型与机器人的具身智能尝试。
在今年2月,1X 就发布了自己旗下EVE进行全神经网络任务的视频,小火了一把。在一场24年4月的GRASP SFI分享会上,我们可以看出这个模型的整体运作逻辑。
其分开也是一个Pipeline(工作流形式)。首先运用一个DIT(Diffusion-Transformer)模型,结合自然语言的命令,用Diffusion去生成一个关于未来自身位置的预测图像。然后将这个预测和当前图像,以及目标物体放进一个新的Transformer模型中,去预测后续需要的机械活动。
从视频里我们可以看到,EVE可以分类物品、搬运,甚至能够自己给自己充电(怪不得叫EVE)。其中部分任务也能做到双手持握。但仔细判别这个视频,其实EVE当时的能力也仅限于识别、抓取,和放置物品上,之后将这些基础能力组合成一个个具体任务,比如装箱、搬运、分类。
到今年八九月的时候,基本上接入大模型赛道的机器人公司都可以做到这些能力了。
比如Figure 01 在二月末就放出了自家机器人用大模型驱动冲咖啡的视频,在其中它甚至还能自行纠错。
(图:Figure 01在演示视频中冲咖啡)
然而,在这之后,Figure 和 1X 就在模型上走向了不同的路径。
3月份Figure 选择了直接搭载GPT-4o,让它的机器人有了很强的对话和逻辑能力。他们用了一条Pipeline(工作流)来完成整合三个模型。
先由GPT-4o大模型来识别语言,规划动作。之后再由其自有神经策略层,也就是自己训练的端到端任务模型执行动作。同时用自己的身体控制模型来保持机器人的平衡。
(图:Figure官方解释其模型构成)
在交互成了他们机器人的最大亮点后,Figure 02也强调了其3倍算力带来的大脑水平的提升。在模型方面,更好的融合OpenAI的模型成了他们的发展重点。
但直到5月31日,1X才发布了他们的语言指令更新。在其展示视频中,机器人终于可以通过语音沟通理解任务并进行对应操作了。但即使到此为止,1X还是没有用上高级语言大模型。在其官网展示页的文档中,他们提到:“在构建了视觉到自然语言命令对的数据集之后,下一步就是利用 GPT-4o、VILA 和 Gemini Vision 等视觉语言模型来自动预测高级动作。”这也导致他们的机器人缺乏复杂任务规划的能力。
似乎1X的在智能上的表现落后了一大步。
但这可能是他们发力的方向并不相同。相比于交互和规划能力,1X更在意的任务的泛化。
在其3月的官方博客中,1X解释了一下自己正在构建的模型。他们在试图训练一个“基础模型”,使其理解一系列广泛的物理行为,从清洁、整理家居到拾取物品,再到与人类和其他机器人进行社交互动。之后,他们在通过累加更多的技能训练数据,给这个模型添加更具体的技能系列(例如,一个用于通用门操作的模型,另一个用于仓库任务)。也就是说,他们在尝试构建一个支持多任务泛化的机器人”基础模型“。
这就是任务能力的泛化,让单一机器人依靠单一模型去从事多种任务。这其实并不算特别,几乎所有在做机器人软件的公司都在进行多种单任务的训练。但我们在各种机器人的演示视频、大会的展览中却基本没有见到过一个机器人在同一时间内连续完成一个复杂的任务,比如打扫整个房间后去做饭。
这是因为当前没有模型能做到任务间的泛化。
Eric Jang在接受《The Robot Report》的采访中表示,“我们此前已证明,我们的机器人能够拾取并操作简单物体,但要拥有真正实用的家用机器人,必须能够流畅地串联执行多项任务。”但这不是简单通过一个“大脑”一样的高级模型去将一个复杂任务拆分成多个任务就能完成的。因为任务间起始的位置,条件都不同。
如果一个机器人必须执行第二个任务,它得先弥补第一个任务的不足。比如,如果第一个机器人没能到达桌子旁边的正确位置,那么第二个机器人就得伸长手臂去抓取物品,而第三个任务则需要进一步补偿。错误往往会累积。
1X的解决方法,是把模型做了个拆分。当前,它的模型包含两部分,一部分是对所有任务和”任务链“有理解的的基础模型,另一部分是许多对具体任务有更好理解的小模型。也成了某种Pipeline(工作流)了。
他们开发了一款自然语言界面,可以让员工通过语音去指导机器人完成多个小模型的组合行动,并在过程中干预错误。这就让模型串联成更长程的“任务链”。这些干预和整个多任务间关联的数据会被拿去训练大的“基础模型”。最终,他们将通过累积的任务数据和“任务链”的数据去调整和训练“基础模型”,让这个基础模型,既可以解决单个任务的执行,又可以解决任务间的联系问题。
(图:1X开发的自然语言控制界面)
因此,与Figure选择的重交互和规划之路不同。1X当下选择要核心解决的问题是任务间泛化能力。而这,可能才是当下机器人走向真正通用性的核心卡点。
那1X的任务间泛化进展如何?
在最新纪录片中,我们可以看到一个工作人员利用语音指使一个机器人一步步完成开门、进入厕所、关闭马桶盖再走出来的任务。这个任务并非一口气给予的,而是一个个单独给予,并连接起来的。
这看起来并不太“自动”,但它实际上证明了1X机器人已经初步具有在多个指令任务之间连续工作的能力。只要具备了“任务链”的基础执行能力,再加上GPT-4这样尖端模型的规划能力,很快就能实现自主完成复杂和连续的任务了。
Eric Jang似乎也这么认为。在今年3月名为《All Roads Lead to Robotics》的博客中,他写道,“许多人工智能研究者仍认为通用型机器人尚需数十年才能实现。但请记住,ChatGPT 的诞生仿佛一夜之间。我认为机器人领域也将迎来这样的变革。”
在他眼中,能泛化的通用机器人似乎已经在视线之内了。
但业界的不乐观也有其道理。他们的主要担心并不在算法,而是在于具身智能当下数据并不充裕,采集上也非常困难,缺乏标准。
但大量数据是Scaling Law中实现泛化的关键。比起单纯的语言大模型,具身智能因为包含图像, 动作,其需要达到通用所需的数据量可能更大。而收集这些数据需要大量的时间。
Eric Jang曾在纪录片中进行了与一般业界担忧相反的的表态,“很多人高估了数据采集方面的瓶颈。而从实践上看,在之后的12个月内,数据可能越来越不重要。“
他对数据的自信来源于过往实践。1X在数据采集上的逻辑一直和其他机器人企业略有不同。
其他的企业一般会利用所有可用的手段,尽可能收集大量的数据。其手段包括利用将模拟机器人放在类似虚幻5这样的模拟物理环境中去搜集大量数据,或利用视频数据截取人类对物品操作的视频,提取信息。
但当下其实最常用的主流方法,就是利用遥操作(Training From Demostration),通过人类佩戴VR给机器人演示的方法获取数据。
而这种遥操作的采集,一般都是将机器人放在一个非常固定的“数据采集工厂”环境中,尽可能的高效的采集足够多的数据。哪怕其中有一些重复和相似性。
(图:特斯拉的数据采集工厂)
据Eric Jang 表述,目前他们用的方法是种很“笨”的方法。与特斯拉所用的这种看似高效的集中采集模式相比,1X选择了坚持还原到多样的生活场景中去采集。所以我们能看到它们在很多极不相同的空间中进行采集,而非在工厂中。他们也没有采用视频训练和模拟数据,坚持只用遥操做采集的数据。
(图:EVE的训练场景,多样到惊人)
首席执行官 BerntBornich 在采访中曾表明,“多样性是人形机器人数据中最重要的方面。从消费级机器人非结构化环境中的多样性中学习,将使真正智能的通用型机器人成为可能。智慧源自思想的多样性。”
在X1看来,在机器人最终落地的家庭和办公环境因其无固定结构且随人类使用而不断变化,必须要有足够的多样性数据才有意义。因此Eric Jang给出的 1X数据采集公式是 “多样性>质量>数量>算法”。
为了实现这种采集的多样性,1X专门组织了一支机器人操作员团队,都精挑细选,他们都能通过一套简单的非编语言图形界面,去亲自训练一些行为模型。对此,Eric Jang在技术博客中写到,“1X是我所知的首家让数据采集员自行训练机器人能力的公司。这大大缩短了模型达到优良状态所需的时间,因为数据采集人员能迅速获得反馈,了解其数据质量如何以及实际需要多少数据才能解决机器人任务。我预见这将成为未来机器人数据采集的普遍模式。”
所以他们不是只有采集工人,而是有一群能直接微调模型的采集工程师。他们会在具体任务中识别哪些地方不工作,针对这些场景收集数据,然后重新训练和调整模型,并重复这个过程直到模型完善。采训一体。
(图:在1X的领英上,这些操作员的招聘全是正式工,非外包,月薪6000-8000美元,大约是美国平均月薪的1.5倍)
这些“笨”方法保证了采集数据的质量和多样性,每个数据都尽量“有用”。在近几天的采访中,Rric表示,“如果你在一个工厂部署机器人,那里重复执行完全相同的任务,这些数据基本没什么用。”
这种相对精细的采集毫无疑问会拖慢数据量级的增长,但它的效果是非常显著的。
(左图:1X搜集的数据小时数,右图:1X搜集的动作多样性)
根据Eric Jang的技术分享,直到2024年3月,他们总共收集了1400小时的训练数据,涉及7000种不同的独特动作。而他同时表示,EVE机器人在这些数据的训练下,目前能具有数百项独立能力。
对比之下,RT-2在训练中用了130,000个示例,13台机器人花了整整17个月进行搜集。这些如果平均每个示例5秒,这些示例的总长也能够达到上万小时。它能执行700个不同指令的任务。
这么看来,精细化数据采集的效果确实不错。用1/10的数据,至少达到1半的能力级别。欲速则不达这事儿,在机器人界也有效。
整体看下来,1X最大的“杀手锏”是对人的关注。
1X传递的企业文化,透露着一种“松弛感”,不论是之前的EVE还是近期的NEO,它的宣传片和冷冰冰、科技范儿的Figure完全不同,1X规避锋芒,没有刻意引发大规模的传播,这也不失为一种理想主义。
从NEO宣传片可以看出,1X在营造的是一个“邻家哥”一样的“暖男”形象,他身着紧身休闲服,凸显出类似人类男士的肌肉线条,他还会轻手轻脚地照顾家人起居,也会在你出门之前整理好包裹,并在分别之际给你一个温暖的拥抱。
另外,在演示视频里可以看出,NEO是可以看懂人类手势的,这也是一种对人类交流的深入理解。人与人的很多交流也并非依靠语言,人类也会有“词穷”的时候,所以,NEO能“读懂”人类的下一步,可以在彼此无言之中给出一份理解,显得格外地有“人”味儿。
从任务泛化和柔性设计等角度来看,NEO可以被称为是家庭场景下的第一款双足人形机器人。
如果未来机器人可以永恒,那么,我们到底需要一个什么样的机器人来陪伴自己乃至子孙后代?或许,NEO这个答案,是一个还不错的选项。
本文来自微信公众号“腾讯科技”,作者:郝博阳 周小燕,36氪经授权发布。