当前位置:首页|资讯|清华|ChatGPT

清华大学提出首个自然语言级别的感知SLAM系统,利用ChatGPT!

作者:计算机视觉life发布时间:2023-04-24

以下内容来自小六的机器人SLAM学习圈知识星球每日更新内容

点击领取学习资料 → 机器人SLAM学习资料大礼包

#论文# LP-SLAM: Language-Perceptive RGB-D SLAM system based on Large Language Model

论文地址:https://arxiv.org/abs/2303.10089

作者单位:清华大学 

  SLAM是一项使自主机器人能够感知周围环境的关键技术。随着研究的深入,SLAM系统可以实现对环境的更高层次的感知,包括语义和文本层面,但目前的作品在实现自然语言层面对世界的感知方面能力有限。为了解决这一局限性,我们提出了LP-SLAM,这是第一个利用大型语言模型(LLMS)的语言感知SLAM系统。

  LP-SLAM有两个主要特点:(A)它可以检测场景中的文本,并在跟踪和地图绘制阶段确定它是否代表要存储的地标;(B)它可以理解人类的自然语言输入,并根据生成的地图提供指导。给出了LLM在系统中的三个应用,包括文本聚类、地标判断和自然语言导航。我们提出的系统代表了基于LLMS的SLAM领域的进步,并为自主机器人以更自然和直观的方式与环境交互开辟了新的可能性。

本文贡献如下:

1、作为第一个自然语言级的SLAM系统,LP-SLAM在三个主要方面具有语言感知能力:单文本判断、多文本聚类和自然语言驱动的导航导航。检测到的被判定为地标的文本将在地图绘制阶段存储在地图中。根据用户在自然语言中的需求,SLAM系统告诉用户到哪里去完成需求。

2、在建图阶段,将LMM的代表模型Chat-GPT引入LP-SLAM,用于处理从基于深度神经网络的场景极端认知(STR)模块中提取的文本信息。Chat-GPT还用于连接用户的自然语言和SLAM系统的导航数据。我们将演示如何将ChatGPT用作系统中的三个不同的关键功能。

3、引入了受人类认知启发的技术来处理STR误检和误识的情况。相似度分类策略是为了提高对文本误识别的鲁棒性而设计的。设计了一种受人类概念启发的长短期记忆策略,用于处理误检情况,减少计算量。

4、我们在模拟超级购物中心的环境中进行了实验,其中关键的地标是店名。结果表明,我们的LP-SLAM具有提高自主机器人以更自然、更直观的方式与环境交互的能力的潜力,为未来的研究提供了一个很有前途的途径。

以上内容来自小六的机器人SLAM学习圈 每日更新内容



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1