近日,微软在其官网发表了一篇名为《机器人 ChatGPT:设计原则和模型能力(ChatGPT for Robotics: Design Principles and Model Abilities)》论文,公布了他们正在把ChatGPT应用于机器人上的研究成果,展现出了新人工智能语言模型ChatGPT实现自然的人机交互的可能性,为如何将ChatGPT 融入机器人领域提供了一种全新的视角。
与纯文本的应用不同,研究人员希望ChatGPT能够帮助人们更轻松地与机器人互动,而无需学习复杂的编程语言或有关机器人系统的详细信息。但其中的关键难题就是如何教ChatGPT学习和确定物理定律、操作环境的背景以及了解机器人的物理行为如何改变世界状态,而且所生成机器人模型需要具备相当的常识性知识和符合实际的物理模型,以及与用户交互以解释和执行实际现实中可行的命令,并以此来解决指定的任务。
如何加快ChatGPT在机器人应用领域的开发,推动机器人向可执行任务的“人类助手”进化,研究者们正为此绞尽脑汁。以下介绍了几个全球范围内较为新颖的机器人+ChatGPT研究方向。
▍机器人复杂动作实时修正
ChatGPT拥有出色的语言理解和对话能力,但缺乏对于物理现实世界的直观感知。
我们从微软的方式中可以发现,其主要将视觉数据和大型语言模型结合起来进行机器人控制,其核心逻辑就是先用ChatGPT生成计算机代码,然后这些代码可以控制机器人。
已经有研究者发现,这种方式的局限性在于ChatGPT的训练学习样本具有固定性,代码表现就非常呆板,这直接导致一旦更换最新的硬件,机器人本身容易出现不兼容问题,缺乏作为开发人员的基本应变能力。
然而机器人控制工作如今的大方向就是柔性化,这意味着机器人控制的问题在于,计算机代码很难通过一两个固定程序实现,而是大多时候需要工程师在现场根据工况和特定的硬件量身定制。
斯坦福大学的一篇名为《“No, to the Right”-Online Language Corrections for Robotic Manipulation via Shared Autonomy》的文献中就指出了这种问题。文中提到,以语言为导向的人机交互系统必须满足适应性和学习效率两个关键需求才有望被广泛采用,但不幸的是,现有的语言转换指令集难以做到适应,尤其缺乏融入实时自然语言的能力,即便可以,也需要通过数百次的示教或者要让机器人去重新学习简单的策略。
为此,在他们的研究工作中,尝试通过一种人机协作环境下的自然语言界面学习框架(LILAC),采取人机融合的方式完成对自然语言的动作修正,去探索人类丰富操作中的变量。其研究表明,与现有的闭环编程控制方式相比,这种更开放的指令跟随和共同纠错协同方法获得了更高任务完成率,并且由于其可靠性、准确性和易用性更容易受到用户喜爱。
在研究中,他们发现,这种机制需要允许用户快速诊断问题并改进机器人的行为。例如在“让机器人拿起书并插入书架”的任务中,由于这是一个复合动作指令,机器人的末端执行器在抓取书籍后与书架的方向不一致,使得准确插入书架变得不可能。这就需要快速在线语言修正,改进机器人的行为,更明确、精确地控制机器人的动作方向。
为此,他们选择用Franka Emika开源版的机器人来完成这项复杂的操作任务,因为该机器人能够在人与机器人的共享交互过程中形成一个更容易调整的控制空间,这种控制方式不同于传统人机交互的离散控制,而是通过状态编码器快速帮助用户获取关节角度和末端效应器姿势,即便在低自由度下,也能够使得每一次实时校正都有大量能让人类再次细化控制的空间,实现更为精确、有效的行为扩展,因此对于环境的适应性更强。
另外作者认为,该机器人还带来一个额外的好处,那就是只需要机器人少量的演示学习,就可以完成特定任务的非线性映射,即学习一个单一的静态映射就可以用于整个场景事件,并快速覆盖多个关键故障问题。这无疑节省了大量的训练时间和成本。
▍更人性化的工业机器人对话系统
另外一项安徽财经大学与丹麦奥尔堡大学等高校合作进行的研究也非常有趣,这是一项关于将对话系统用于制造环境中机器人任务的研究,文献名为《ToD4IR: A Humanised Task-Oriented Dialogue System for Industrial Robots》。
该文献指出,此类研究的痛点问题在于该领域由于隐私等问题,整体训练数据集较少,同时大多早期的自然语言接口主要为社交机器人对话系统而设计,主要强调用户交互体验,但集成到工业行业就需要考虑到任务完成率上。
为了克服这些挑战,研究者建立了一个机器人领域的对话数据集(IRWOZ),涵盖四个机器人应用领域,包含提供超过401个工人和机器人之间的模拟讨论,以促进工业环境中的语言辅助人类机器人交互(HRI),并提供一个更自然和适应性更强的对话环境,以增加用户体验和参与度。
最后,研究者提出并评估了一种工业机器人面向任务的端到端任务导向对话 (TOD4IR),并使用两种预先训练的数据模型: GPT-2和GPT-Neo进行了一系列的对比试验,以验证其在真实制造环境中的性能。实验表明,ToD4IR优于三个下游任务导向的对话任务。
该研究通过 Franka Emika Panda协作机器人和MIR移动机器搭建了一个复合机器人平台,在IRWoZ数据集上进行对话状态跟踪、对话行为生成和响应生成,帮助模拟例如工业机器人的组装和定位任务,移动工业机器人的交付和定位任务等对话集,以提供更有意义的任务导向反应,指导机器人实现更人性化的响应生成指令,从而提高用户体验,并保证较高的任务完成率。
▍开发全新框架
斯坦福大学另外一项研究也非常有趣,他们正面向机器人复杂操作,开发基于“大语言模型”的任务规划新框架。该文献名为《Text2Motion: From Natural Language Instructions to Feasible Plans》。
该文献聚焦于如何在符号和几何层面上验证长期LLM(大语言模型)生成规划的正确性和可行性,并提出一种基于语言的规划框架Text2Motion,它将LLM与学习技能策略库和策略序列优化器连接起来,以解决几何上复杂的顺序操作任务。
该文献尝试了一种全新的集成搜索算法和规划终止方法,采取将LLM任务规划与策略序列优化交织在一起的方法,使得机器人可以针对训练期间技能策略看不到的任务,构建几何上可行的规划,并从自然语言指令中推断目标状态,以验证规划的完成情况。
论文研究发现的集成方法通过预测根据任务规划排序的学习技能的成功概率来确保LLM任务规划的可行性,从而确保其正确性。这使得其在一系列具有挑战性的桌面操作任务中实现了64%的成功率,远高于先前基于语言的规划方法13%的成功率。
在他们的研究中,同样采取了开源性更强的Franka Emika机器人。
▍结语与未来
更多研究人员相信,ChatGPT解锁了一种新的机器人范式,并允许潜在的非技术用户在循环中,在监控机器人性能的同时向大型语言模型 (LLM) 提供高级反馈,这使得有望将机器人技术推广到更广泛的受众,基于语言的机器人控制系统已经奠定了把机器人从科学实验室带到日常用户手中的基础。
负责Franka机器人在亚太区推广的卫卜源表示:全球针对ChatGPT的研究还处于初始阶段,机器人+ChatGPT的结合应用更是刚刚起步,还存在很多漏洞以及可完善的空间。但对于传统协作机器人来讲无疑是个巨大的机会与挑战。机器人+ChatGPT的结合应用跳过了传统的示教编程,这就意味着机器人只需要提供更加稳定的底层开发平台和反馈更加详细的底层数据,比如位置信息,速度信息,力反馈信息等。对于这个变化是否会给传统机器人行业带来翻天覆地的变化,让我们一起拭目以待!。
▍关于 Franka Emika
Franka Emika 是一家总部位于慕尼黑的机器人公司,由 Sami Haddadin和他的兄弟 Simon,以及一支经验丰富的机器人专家团队于 2016 年创立。公司自成立以来不断发展壮大,现有员工超200人。Franka Emika 是开发具有人类触觉的机器人技术的先驱,被认为是过去 140 年来德国最重要的发明之一。它具有类似于人类手臂的独特灵巧性,敏捷且安全。在中国区,Franka Emika全权委托TQ集团提供全流程的机器人服务。