当前位置:首页|资讯|清华|AI大模型

清华团队推出“通识”机器人,基于AI大模型实现机器人决策的落地应用|Tech 100

作者:龙真梓发布时间:2023-08-31

文|李睿、真梓

前有英伟达创始人黄仁勋带火“具身智能”概念,后有斯坦福教授李飞飞发布“具身智能”新成果,将大模型接入机器人。不少行业人士认为,ChatGPT之后,通用机器人将开启通用AI的下一站。甚至还有观点表示,机器人,是人工智能的最终解决方案。

“机器人领域的前辈在定义机器人时,就将智能和通识这两点与机器人紧密绑定。通用机器人是所有机器人从业者都希望去做的一件事情。”「千诀科技」创始人兼CEO高海川告诉36氪。

「千诀科技」是一家专注于机器人决策大模型研发的高科技公司,希望使不同类型的机器人都具备持续学习、适应多变环境的通用智能。

创始人高海川在清华大学自动化系读博期间便萌生了让机器人具有“通识”的想法,为此他创建了VIPlab机器人组,主要研究通用智能在机器人领域的落地。在5年研究中,高海川和团队的学术成果包括:提出新型分布式强化学习框架、仿真现实迁移强化学习方法、机器人技能分层持续学习框架、开发语言引导的技能分层强化学习技术、面向部分可观测场景的因果推理强化学习技术。其团队所研发的“通识”机器人决策模型,正是产学研结合的产物。

高海川认为,以往“通识”机器人最大的门槛在于决策系统缺乏通识。也就是说,机器人的硬件形态和算法、模型很难从一个任务迁移到另一个任务,这也是现在机器人市场的痛点所在。而近年AI大模型通过丰富语料训练获得了认知和推理的通用能力,如果能将这种认知通用性落到对机器人的运动控制上,会突破长期以来机器人的通用性问题。

关于如何将大语言模型的通用性迁移至机器人,高海川介绍:“机器人所面对的新环境和新任务,对大语言模型而言,都是已经见过的老环境、老任务,所以一个好想法是用语言模型打造机器人的决策系统,将其通用认知能力赋予机器人。直观上来说,就是让机器人与语言模型对话咨询,当机器人不知道怎么做时,询问语言模型以获取指导,例如在导航任务中,机器人可以在未建立环境地图的情况下,咨询语言模型应该往哪个方向导航。”

高海川表示,“通识”机器人决策模型的技术核心是“动态规划与大模型相结合,将机器人感知、运动和操作映射到统一的语言空间,让机器人通过自我问答和树搜索等方式形成决策闭环”。

针对决策闭环这一设计,高海川给出了进一步阐述。他表示,通识机器人融合语言模型的认知链条与机器人的技能和感知链条,将团队自研的机器人多模态感知模型所侦测到的机器人周围的视觉信息、机器人的硬件及技能信息、机器人的工作环境以及历史记忆都翻译成语句,输入到团队自研的机器人垂类语言模型。之后,再将语言模型的输出翻译成机器人可执行的指令。机器人执行指令后,再反馈环境信息给语言模型,让另一个负责评估的语言模型基于机器人决策效果对决策语言进行打分进而实现决策模型的进化。“这样通过语言空间作为桥梁,连接语言模型的认知链条和机器人的技能链条,进而实现决策系统的闭环。”他说。

高海川提供的视频展示了“通识”机器人的具体工作流程:

“通识”机器人工作流程

在商业规划上,高海川提出“通识”机器人的产品落地将分为三条线。

第一条线是开发“通识”机器人脑坞,在一张显卡中内置面向机器人行业的通用决策模型。该接口产品可以连接不同品牌和类型的机器人,为其提供语言理解和决策能力,相当于为机器人提供一个可即插即用的通用机器人大脑。团队第一代脑坞产品围绕灵汐科技的新款“天机”类脑芯片打造,包括ANN-Transformer和Spiking-Transformer两种异构神经网络,供多种具身智能领域开发者使用。

“通识机器人脑坞是公司最核心的产品形态”,高海川介绍,“因为机器人行业的硬件千奇百怪,如果只针对某一款机器人硬件去做开发,它可能只能在某一些场景中做应用,而我们希望能够做一个面向机器人全行业的核心关键部件。”

第二条线是建立“通识”机器人共享平台,提供机器人“共享决策”云平台、云服务。不同行业的用户可以在线输入机器人形态和参数,共享通用决策系统。据介绍,这个平台可以快速积累多样性数据,促进决策模型的迭代更新。在这一方面,近期,千诀团队与两家科教型机器人公司建立合作,将团队所研发的机器人垂类决策模型以license的形式与每台售出的机器人绑定。高海川表示:“该模型在决策鲁棒性方面优于GPT-4,并额外学习过很多本土化的产品,相关论文处于预发表阶段。算力方面也有同为清华系的清醒异构为我们模型训练提供支持。”

第三条线是开发简易版的低成本通用双臂机器人,并结合通用决策大脑做一套软硬件系统。机器人手臂操作精度相对较低,仅执行日常生活中诸如抓、拧、拿、推、举等简单操作。高海川认为,“通识”机器人主打通用而非操作精度,更像是一只聪明的机械宠物,对于所交待的任何事情都会努力去做,但不一定要把每件事都做好,成本也可比扫地机器人更低。

另外他还表示,以通识决策模型为大脑,以机器人双臂操作技能为小脑,进而实现“通识”机器人系统的搭建,可以覆盖基本民用需求以及典型终端需求,潜在应用场景包括咖啡/餐厅、老人社区、办公室、公园、康养旅游等。

团队方面,高海川介绍,「千诀科技」核心团队由清华大学自动化系的3名博士和2名硕士组成。团队研究覆盖强化学习、机器人学习控制、多任务泛化等多个方向,在相关领域的顶级会议和期刊上发表过多篇论文,并在国际竞赛中获奖。近期,团队也在持续吸引多名机器人业界人才加入。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1