当前位置:首页|资讯|ChatGPT

能看图推理、聊天对话的多模态DetGPT来了!

作者:CSDN发布时间:2023-05-23

原标题:能看图推理、聊天对话的多模态DetGPT来了!

【CSDN 编者按】人工智能飞速发展的今天,香港科技大学和香港大学的研究人员共同提出了一个全新的“推理型目标检测”任务,并提出多模态检测模型DetGPT对这一任务进行探索。DetGPT能够根据人类指令,依靠模型本身海量的知识储备以及推理能力,定位图中相关物体,让智能机器人的落地成为可能。

责编 | 夏萌

出品 | CSDN(ID:CSDNnews)

在人工智能飞速发展的今天,我们追求的不仅仅是一个对话机器人,而是希望能够打破界限,实现更为自然、高效、更解决实际问题的多模态交互。前段时间,来自来自香港科技大学和香港大学的研究人员共同提出了一个全新的“推理型目标检测”任务,并提出多模态模型--DetGPT对这一任务进行了探索。DetGPT能够根据人类指令,依靠模型本身海量的知识储备以及推理能力,定位图中相关物体,让智能机器人的落地成为可能。

已关注

关注

重播分享

关闭

观看更多

更多

正在加载

    正在加载

    退出全屏

    视频加载失败,请刷新页面再试

    刷新

    视频详情

    看图推理,聊天对话

    目标检测的多模态任务模型DetGPT

    DetGPT 是一个只需要语言交互就能够完成复杂推理和目标检测任务的多模态模型,这个功能将 ChatGPT 在真实场景落地更进一步,也将为我们的生活带来全新的体验。

    DetGPT 典型的一大功能是“拍照问问”:用户拍一张照上传,后续不仅可以看图聊天,还可以解决复杂问题。这主要依赖于模型强大的跨模态理解和推理能力。

    在 demo 里,该团队展示了给定一张没有饮料的厨房照片,人类发出“我想要一杯冷饮”的命令,DetGPT 会推理出冰箱里可能有冷饮,从而将冰箱确定为最佳选择;在回答“我想要明天早点起床”时,系统会在杂乱的桌子上标记闹钟;在回答“哪种水果有助于治疗高血压?”时,该系统在市场摊位上标记出可能有助于治疗高血压的水果;在回答“图上什么东西对小孩来说不合适”时,系统会在复杂的场景中把烟标记出来。更加激动人心的是,DetGPT 在推理出物体后,可以将物体定位标注出来,这也就意味着,一旦未来接上机械手臂,可以直接落地家居场景,化身家居机器人,帮你直接拿饮料、拿闹钟。这还不快来体验?

    在线 Demo:https://detgpt.github.io/

    开源代码:https://github.com/OptimalScale/DetGPT

    项目背景

    鉴于大语言模型的成功,许多研究探索了大模型的视觉-语言交互能力,由此出现了许多多模态模型。

    最近,由于 LLaMA 强大的语言能力,DetGPT 团队从 LLaVA 和 MiniGPT-4 等工作上见证了多模态交互的潜力。然而已有的模型缺乏局部定位能力,使得他们在智能机器人、自动驾驶等需要精确位置信息的领域应用有所局限。

    将图片中物体定位是目标检测任务的核心内容,但传统的目标检测器只能基于用户给定的具体物体类别进行预测,无法理解复杂用户指令。DetGPT一并解决了这一难题:DetGPT赋予了多模态语言模型强大的物体检测能力,允许用户通过语言指令控制对相关物体的识别。作者们利用一个视觉编码器来获取图片视觉特征,进而通过一个对齐函数将视觉特征对齐到文本空间。在文本空间中利用大语言模型的理解和推理能力来理解用户问题,进行复杂推理,结合视觉信息,得到用户真正感兴趣的物体。然后将物体名称提供给预训练好的检测器(Grouding-DINO)进行具体位置的预测。这样一来,模型可以根据用户的任何指令分析图片,精准地预测出用户感兴趣物体的位置。

    DetGPT 使用场景

    以下是作者团队在官网上放出的使用场景示例。

    在家居场景中,DetGPT 可以帮忙去冰箱里找冷饮、找闹钟、找缓解高血压的水果,甚至还能帮忙解锁塞尔达游戏关卡。

    除了家居场景,作者团队还展示了一系列安全场景的潜力。DetGPT 可以充当安全助手,帮助人类识别作业场景和日常生活场景中的危险,帮助我们化危为安。

    DetGPT 功能解读

    DetGPT 的核心竞争力在于其强大的跨模态定位能力,它可以轻松应对复杂场景,直接指出图片中的相关对象,实现与图像中对象相关的特定信息和操作, 这一创新性的功能将使 DetGPT 成为未来生活中不可或缺的助手。

    与此同时,DetGPT 还具有以下特点:

    • 深入理解复杂人类命令:DetGPT 能够准确理解用户的需求,使得用户能够自然地与智能助手进行交流。

    • 图像中物体的精确定位:DetGPT 可以在图像中精确地找到相关物体,从而实现与图像对象相关的特定信息和操作。

    • 跨模态推理能力:DetGPT 具备跨模态推理能力,将用户的需求与图像中的物体信息结合起来,提供更为全面的解决方案。

    设想一下,在未来的生活中,当我们遇到一个复杂问题时,只需拍摄一张照片,DetGPT 便能够为我们提供正确的答案。无论是家庭生活中的琐事,还是工作场景中的难题,DetGPT 都能够轻松应对,为我们提供有效的解决方案。

    DetGPT 的出现将极大地拓展智能助手的应用领域。家庭机器人将能够更好地满足家庭成员的需求,实现更为个性化的服务;工业机器人也将能够与人类工作人员更加自然地协作,实现智能化的决策和操作。

    随着 DetGPT 的发展,我们有理由相信,跨模态智能助手将引领未来生活新潮流,为我们的生活带来更多便捷、高效和人性化的服务。让我们拭目以待,看DetGPT如何颠覆传统智能助手的局限,成为未来生活中的得力助手。

    在线Demo:https://detgpt.github.io/,亦或者点击『阅读原文』直达!

    用 ChatGPT 9 个月“写”了 97 本书,他赚了 2000 美元!

    ▶深度解读字节跳动开源的云原生数据仓库 ByConity

    ▶微软许建志:AI-First App,一个既残酷、又美好的时代


    Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1