LM-Nav是Google和UC Berkeley等大学发布的一种机器人导航系统。在LM-Nav中,使用自然语言对机器人进行控制可以大大简化人机交互的过程,增加机器人的使用便利性。举例来说,如果用户需要让机器人到达房间的某个位置,他可以用自然语言命令告诉机器人“去这个房间的XX位置”,机器人就会根据用户的指令进行导航。此外,在实际情况下,由于自然语言的歧义性,LM-Nav系统还可以对指令进行消歧,确保机器人能够正确地理解和执行指令。
LM-Nav利用了ChatGPT相关技术实现自然语言控制机器人视觉目标导航。具体而言,LM-Nav系统通过先前训练的自然语言处理、视觉处理和行动规划模型来实现此目标。在机器人领域,ChatGPT相关技术的应用和发展也是非常广泛的。例如,可以使用ChatGPT实现机器人对话系统。
这种机器人导航系统的突破性创新在于它不需要使用标记指令数据集,而是利用大型预训练模型来完成自然语言理解任务。通过这种方法,系统可以避免针对每种任务都要进行数据注释的高昂成本。此外,这种系统也可以通过训练大规模未注释轨迹数据集,从而实现更好的泛化能力。
LM-Nav系统中的三个大型预训练模型分别用于自然语言理解、将图像与语言相关联以及视觉导航。大型语言模型(GPT3)被用于完成自然语言理解的任务,它经过了大型网络文本语料库上的训练。将图像与语言相关联的模型(CLIP)则可以根据图像和相应的自然语言指令,为机器人提供目标位置的估计。视觉导航模型(ViNG)则被用于规划机器人的行动路径。
此类机器人导航系统具有广泛的应用前景。通过利用大型预训练模型,它可以避免需要对每种任务都进行数据注释的高昂成本。同时,通过训练大规模未注释轨迹数据集,它可以实现更好的泛化能力。因此,这种系统在通用人工智能方面具有重要的发展潜力。
参考:
[1] Shah D, Osiński B, Levine S. Lm-nav: Robotic navigation with large pre-trained models of language, vision, and action[C]//Conference on Robot Learning. PMLR, 2023: 492-504.
[2] https://sites.google.com/view/lmnav