能看图推理、聊天对话的多模态DetGPT来了！

作者：CSDN发布时间：2023-05-23

【CSDN 编者按】人工智能飞速发展的今天，香港科技大学和香港大学的研究人员共同提出了一个全新的“推理型目标检测”任务，并提出多模态检测模型DetGPT对这一任务进行探索。DetGPT能够根据人类指令，依靠模型本身海量的知识储备以及推理能力，定位图中相关物体，让智能机器人的落地成为可能。

责编 | 夏萌

出品 | CSDN（ID：CSDNnews）

在人工智能飞速发展的今天，我们追求的不仅仅是一个对话机器人，而是希望能够打破界限，实现更为自然、高效、更解决实际问题的多模态交互。前段时间，来自来自香港科技大学和香港大学的研究人员共同提出了一个全新的“推理型目标检测”任务，并提出多模态模型--DetGPT对这一任务进行了探索。DetGPT能够根据人类指令，依靠模型本身海量的知识储备以及推理能力，定位图中相关物体，让智能机器人的落地成为可能。

已关注

关注

重播分享赞

关闭

观看更多

正在加载

退出全屏

视频加载失败，请刷新页面再试

刷新

视频详情

看图推理，聊天对话

目标检测的多模态任务模型DetGPT

DetGPT 是一个只需要语言交互就能够完成复杂推理和目标检测任务的多模态模型，这个功能将 ChatGPT 在真实场景落地更进一步，也将为我们的生活带来全新的体验。

DetGPT 典型的一大功能是“拍照问问”：用户拍一张照上传，后续不仅可以看图聊天，还可以解决复杂问题。这主要依赖于模型强大的跨模态理解和推理能力。

在 demo 里，该团队展示了给定一张没有饮料的厨房照片，人类发出“我想要一杯冷饮”的命令，DetGPT 会推理出冰箱里可能有冷饮，从而将冰箱确定为最佳选择；在回答“我想要明天早点起床”时，系统会在杂乱的桌子上标记闹钟；在回答“哪种水果有助于治疗高血压?”时，该系统在市场摊位上标记出可能有助于治疗高血压的水果；在回答“图上什么东西对小孩来说不合适”时，系统会在复杂的场景中把烟标记出来。更加激动人心的是，DetGPT 在推理出物体后，可以将物体定位标注出来，这也就意味着，一旦未来接上机械手臂，可以直接落地家居场景，化身家居机器人，帮你直接拿饮料、拿闹钟。这还不快来体验？

在线 Demo：https://detgpt.github.io/

开源代码：https://github.com/OptimalScale/DetGPT

项目背景

鉴于大语言模型的成功，许多研究探索了大模型的视觉-语言交互能力，由此出现了许多多模态模型。

最近，由于 LLaMA 强大的语言能力，DetGPT 团队从 LLaVA 和 MiniGPT-4 等工作上见证了多模态交互的潜力。然而已有的模型缺乏局部定位能力，使得他们在智能机器人、自动驾驶等需要精确位置信息的领域应用有所局限。

将图片中物体定位是目标检测任务的核心内容，但传统的目标检测器只能基于用户给定的具体物体类别进行预测，无法理解复杂用户指令。DetGPT一并解决了这一难题：DetGPT赋予了多模态语言模型强大的物体检测能力，允许用户通过语言指令控制对相关物体的识别。作者们利用一个视觉编码器来获取图片视觉特征，进而通过一个对齐函数将视觉特征对齐到文本空间。在文本空间中利用大语言模型的理解和推理能力来理解用户问题，进行复杂推理，结合视觉信息，得到用户真正感兴趣的物体。然后将物体名称提供给预训练好的检测器(Grouding-DINO)进行具体位置的预测。这样一来，模型可以根据用户的任何指令分析图片，精准地预测出用户感兴趣物体的位置。

DetGPT 使用场景

以下是作者团队在官网上放出的使用场景示例。

在家居场景中，DetGPT 可以帮忙去冰箱里找冷饮、找闹钟、找缓解高血压的水果，甚至还能帮忙解锁塞尔达游戏关卡。

除了家居场景，作者团队还展示了一系列安全场景的潜力。DetGPT 可以充当安全助手，帮助人类识别作业场景和日常生活场景中的危险，帮助我们化危为安。

DetGPT 功能解读

DetGPT 的核心竞争力在于其强大的跨模态定位能力，它可以轻松应对复杂场景，直接指出图片中的相关对象，实现与图像中对象相关的特定信息和操作, 这一创新性的功能将使 DetGPT 成为未来生活中不可或缺的助手。

与此同时，DetGPT 还具有以下特点：