英伟达GEAR实验室的联合创始人JimFan博士在推特上表示:“2024年将是具身机器人、AI仿真之年。”无独有偶,资深机器人专家Eric Jang不久前曾预言,“ChatGPT 曾在一夜之间出现。我认为,有智慧的机器人技术也将如此。”
现如今,具身智能已经被用钱投票,不久前,人形机器人初创公司Figure宣布,已从亚马逊创始人贝索斯、英伟达、OpenAI和微软等巨头那里筹集了约6.75亿美元的资金,公司估值26亿美元。
而Figure本身,成立于2022年。从OpenAI 宣布介入与之合作,到今天它们共同推出一个能够自主对话和决策的机器人,只有13天。
浪潮已至
去年的 ITF World 2023半导体大会上,英伟达创始人兼CEO黄仁勋表示,人工智能下一个浪潮将是 “具身智能”,是能理解、推理、并与物理世界互动的智能系统,AI与机器人的融合,具有很好的想象空间。
他还介绍了英伟达的多模态具身智能系统Nvidia-VIMA,能在视觉文本提示的指导下,执行复杂任务、获取概念、理解边界、甚至模拟物理学,标志着AI能力的显著进步。
此外,在特斯拉召开2023年年度股东大会上,马斯克展示了人形机器人Optimus的全新型号,和具身智能机器人几乎划等。
马斯克表示,人形机器人将是今后特斯拉主要的长期价值来源,他也认为,以具身智能机器人为代表的产品有望成为AI的下一浪潮。
1950年,图灵在他的论文——《Computing Machinery and Intelligence》中首次提出了具身智能的概念。
具身智能(Embodied AI)指的是,有身体并支持物理交互的智能体,如智能服务机器人、自动驾驶汽车等,具身智能机器人指的是,像人一样能够与环境交互感知、自助规划、决策、行动、执行任务的机器人。
它包含人工智能领域几乎所有的技术,包括机器视觉、自然语言理解、认知和推理、机器人学、博弈伦理、机器学习等,横跨多个学科方向,是AI的集大成者。
2023年是生成式AI的爆发之年,也被业内人士称为“机器人觉醒之年”。ChatGPT等生成式AI与人形机器人行业结合,开启了具身智能的时代。
具身智能机器人热潮,从美国“吹”到了中国。连日来在国内A股市场上,有关人形机器人的个股纷纷上涨,多只触及涨停。
国家层面,智能机器人相关支持性政策频传,2023年11月工信部印发《人形机器人创新发展指导意见》,提出到2025年,人形机器人创新体系初步建立,“大脑、小脑、肢体”等一批关键技术取得突破,整机产品达到国际先进水平,并实现批量生产。
地方上也在积极响应,目前包括北京、上海、深圳等重要制造业基地,都发布了相应的“人形机器人”计划,推动当地的机器人产业落地应用。
去年8月,小米发布了全尺寸人形仿生机器人CyberOne(艺名“铁大”)。据官方透露,铁大身高177cm,体重52kg,定位家庭服务机器人。去年10月,小鹏汽车公布了自研双足人形机器人PX5。这款智能机器人拥有双足行走和跨越障碍能力,凭借高性能关节,可在室内外大步行走、敏捷运动。
中国电子学会数据显示,到2030年,我国人形机器人市场规模有望达约8700亿元。人形机器人正成为多方竞逐未来产业的新赛道。
尤其近日,斯坦福华人团队的这个炒菜机器人刷屏朋友圈。机器人硬件打造成本22万元,通过人工远程操作演示,让机器人学会完成各种复杂任务。
90后CMU回国创业者让具身智能真正商业化落地,完爆炒虾机器人
国产具身智能走在世界前沿
国内具身智能行业也毫不示弱,在一线科学家和创业者的努力下,走在了世界领先的水平。
邱迪聪,雅可比机器人的创始人,是一名90后创业者。他毕业于世界著名的卡耐基梅隆机器人研究院,一直以来都致力于通用人工智能(AGI)与机器人的强结合,在包括具身通用智能智能、基于心智理论(Theory of Mind)的机器人行为决策与规划、不确定性与非线性优化控制、强化学习和模仿学习等领域的前沿科研和工程化落地上有多年的积累,在相关领域定会上发表过多篇论文和多项国内/国际专利。他也曾主导/参与过美国航空航天局(NASA)火星车研发、人形机器人强化学习、L4级自动驾驶系统全技术栈研发等项目。
他长期专注于 AI 和机器人技术的结合,打造能在陌生开放环境中,可以与用户进行直接对话交互,能够自主理解用户意图和进行任务推理,并闭环完成各种复杂任务和操作的智能机器人。同时,结合我国产业优势,让该系列机器人能够以低成本推向市场,让通用具身智能/人形机器人有正向的ROI(投入产出比)落地,真正地提供价值,加速智能机器人进入到我们日常生活的进程。
“我们正在开发属于下一个时代机器人,结合着我们自主研发的多模态机器人大脑以及能持续自驱学习的全身运动控制和任务执行算法,我们的目标是让机器人能够实现和人类相近的认知能力,同时达到与人类相同甚至更高效的任务执行能力。”邱迪聪表示。
雅可比机器人创始人邱迪聪
在国外学习工作多年,同时在看到国内AI发展的浪潮后,邱迪聪决定回国创业,于2023年成立了一家具身通用智能机器人公司---雅可比(广州)机器人有限公司。
通过机器人逻辑思考大脑J-Mind和运动控制小脑J-Box, 机器人在不经过任何培训(Zero-shot)的情况下可以移动到所需补货的货架前,能够高效的识别货架的陈列状态,把雪碧精准地放到空缺位置中,严格遵守货品与货品之间的距离间隔,从而自动完成货架补货和整理,形成发现问题到解决问题的流程全闭环。
在邱迪聪看来,机器人有三个阶段的迭代,在1.0时代叫做纯机械控制时代,机器人在工厂里面通过一些机械运动去做固定重复任务的执行。
到了这个2.0时代,开始接入算法,但主要是解决单一的任务处理,例如在工厂、酒店或物流场景中,我们能看到2.0时代机器人。
但即使是接入了AI的能力获得了更高维度的感知,2.0时代机器人任务执行仍旧非常单一,在任务的理解和自己对世界的认知上面,还是完全空白的。
进入到3.0时代,随着大模型的诞生、开放世界感知模型的进化,以及基于模型和基于学习的机器人全身运动能力的革新,我们可以看到机器人开始逐步从封闭场景走向全开放的场景,解锁更多样化的应用,能够在一个场景中执行多项任务,甚至能够跨越多种场景交叉学习和完成多样化的任务。
雅可比机器人创始人邱迪聪
3.0时代的机器人,也是当前创业者们最聚焦的方向。其中,商用服务、家庭养老陪伴陪护和智能制造将是具身通用智能机器人和人形机器人的三大应用场景。
雅可比的发展路径,则涵盖了商用和家庭陪伴等服务领域。目前雅可比发布一款具身智能商超服务机器人,能够通过人类语音指令的控制,在商超场景下实现多任务执行能力,包括自主巡检、自动补货、货品分拣等功能。另外,他们也展示了该款机器人在跨场景学习和技能迁移的能力,能够零样本(zero-shot)完成其他商用服务场景的任务。目前该机器人已经与国内某大型连锁商超集团达成了POC合作协议,未来一段时间该机器人也将在该超市落地进行POC测试,充分验证机器人的闭环任务执行能力和可替代性,这也将成为国内甚至全球落地的第一款通用具身智能零售机器人,也充分证明了雅可比强大的商业化能力和工程化落地速度。
邱迪聪表示商超只是作为雅可比商业化落地的一个切入点,而不是商业化的天花板。商超现阶段一方面将为雅可比带来一定的商业化收入,另外一方面则将为雅可比通用具身智能机器人的不断进化提供海量的真实环境数据积累。未来雅可比机器人将不止在某一个场景执行某一个具体的任务,而是将成为人类的生活伙伴或者工作上的合作者,成为人类能力的延伸,能够横跨零售、仓储、办公行政、餐饮服务等一系列场景,最终希望机器人能进入家庭,为我们的家庭生活提供娱乐价值和情绪价值。
现阶段技术落点在劳动力的一个补充上,是在机器人和人力成本之间做平衡。在雅可比内部,把机器人的矩阵职能划分为了两个部分,一是情感线和情绪价值能力;二是功能和操作能力。
随着机器人在商超不断地与人交互,它的情感能力也会随之而升级,在交互的过程中,机器人能够持续加深对外部环境的认知,在数据上沉淀积累,也在交互算法和模型上不断优化情感理解的能力。
图灵奖获得者、中国科学院院士姚期智则指出,具身机器人目前遇到的主要有四大挑战:第一,机器人不能够像大语言模型一样有一个基础大模型直接一步到位,做到最底层的控制;第二,计算能力的挑战,即使谷歌研发的Robotics Transformer模型,要做到机器人控制,距离实际需要的控制水平仍有许多事情要做;第三,如何把机器人多模态的感官感知全部融合起来,仍面临诸多难题需要解决;第四,机器人的发展需要收集很多数据,其中也面临很多安全隐私等方面的问题。
“具身智能作为学术或者实验室研究课题它非常成立,但是如果说基于这个潮流,在今天就想去做一个通用机器人的话,我觉得挑战是非常大的。”有AI投资人表示。
对此,邱迪聪表示,对于雅可比未来5年的规划,非常有信心。“在创业之初,我们就做了许多理论验证,即使是我们第一阶段的商业服务机器人,也需要满足许多技术的瓶颈和关节点,我们知道自己的边界在哪里,超出这个边界就玩不动了,我们的未来规划以及前瞻性的预测都在边界条件之内。”
“Open AI的伟大之处其实不在于GPT有多火,而是它向全世界证明了这条路线是可行的。一旦可行,就把一个学术问题变成了工程化的问题,只要是工程化的问题它就会有一个确切的解决时间周期。”邱迪聪说。
持续探寻技术边界
通过大脑J-Mind和小脑J-Box, 机器人在不经过任何培训(zero-shot)的情况下可以移动到所需补货的货架前,能够高效的识别货架的陈列状态,把雪碧精准地放到空缺位置中,严格遵守货品与货品之间的距离间隔,从而自动完成货架补货和整理,形成发现问题到解决问题的闭环。
团队自研的机器人运动控制小脑J-Box根据行为指令直接对机器人进行控制,无需大量数据进行预训练。在多类货品中,机器人可以精准识别并抓取出用户所需的雪碧。
只需要口头对机器人说或者通过文字输入“xx货品不够了,需要补货”的需求,团队打造的机器人“大脑”J-Mind就能将抽象的需求和指令进行推理,并拆解成子任务,以及机器人可以执行的动作指令。
比如:
“货架上雪碧不够了,请你帮我补一下。”
几秒后,J-Mind就完成了自主推理和拆解任务,自动形成具体的任务指令。
“好的,我去为您补充雪碧。”
事实上,上述这些主要功能得以实现的背后,主要涉及感知、规划和执行三个层面的技术。雅可比研发的通用具身智能机器人,具备开放的机器人全栈能力,即开放的感知和认知能力,开放的业务逻辑推理和决策能力,开放的任务闭环执行能力。而将三个层面的技术结合在一起之后,就可以帮助机器人完成从感知端到决策端再到行为端,最终到物理世界的执行端的任务全闭环。
他认为,到了3.0时代的机器人,由于机器人对语言和环境理解能力的提升,而且还可以自主规划运动和技能。“新一代的机器人将有很强的泛化能力,而且编程训练的成本也大幅度降低,届时通用具身智能3.0时代的机器人,将有进一步走近人类生活的先决条件。”
“我们希望可以在商超的执行环境中,训练出机器人对各类物品的认知、对工作人员和顾客的交互,以及处理任务的等一系列能力,再将其推向人们的生活,让它能够独立地完成更多自主任务,以提升人类的生活幸福感,以及提高整个社会的价值。”邱迪聪说。
帮顾客点单、递送餐品、擦桌子、将顾客喝完的饮料瓶丢到垃圾桶等,也是该机器人已经拥有的其中一种开放场景服务能力。这也能够很好地体现机器人在跨场景的能力迁移。
他提到,雅可比非常关注通用人形机器人的任务执行能力,在通用人形机器人的实现路径上跟目前国内外的厂商会有很大区别,雅可比专注于通用人形机器人的上半身的任务执行能力,弥补了市面上通用人形机器人厂商只专注于双足的全地形移动能力的尴尬,雅可比将在解决通用人形机器人全开放场景的任务执行能力基础之上,同时覆盖机器人的移动能力。
据了解,雅可比机器人正在布局以下两方面的事务。其一,提升“大脑”J-Mind 的能力,让机器人可以更加通用地理解开放场景,并将其转化为抽象的行为执行过程。其二,基于共创模式,与来自商超、药企、餐饮等领域的客户共同打磨场景,以大幅地提升面向未来的具身智能机器人的行为能力,并走向真正的落地。