超火迷你GPT-4视觉能力暴涨，GitHub两万星，华人团队出品

作者：量子位发布时间：2023-10-18

白交发自凹非寺

量子位 | 公众号 QbitAI

GPT-4V来做目标检测？网友实测：还没有准备好。

虽然检测到的类别没问题，但大多数边界框都错放了。

没关系，有人会出手！

那个抢跑GPT-4看图能力几个月的迷你GPT-4升级啦——MiniGPT-v2。

△（左边为GPT-4V生成，右边为MiniGPT-v2生成）

而且只是一句简单指令：[grounding] describe this image in detail就实现的结果。

不仅如此，还轻松处理各类视觉任务。

圈出一个物体，提示词前面加个 [identify] 可让模型直接识别出来物体的名字。

当然也可以什么都不加，直接问~

MiniGPT-v2由来自MiniGPT-4的原班人马（KAUST沙特阿卜杜拉国王科技大学）以及Meta的五位研究员共同开发。

上次MiniGPT-4刚出来就引发巨大关注，一时间服务器被挤爆，如今GItHub项目已超22000+星。

此番升级，已经有网友开始用上了~

多视觉任务的通用界面

大模型作为各文本应用的通用界面，大家已经司空见惯了。受此灵感，研究团队想要建立一个可用于多种视觉任务的统一界面，比如图像描述、视觉问题解答等。

「如何在单一模型的条件下，使用简单多模态指令来高效完成各类任务？」成为团队需要解决的难题。

简单来说，MiniGPT-v2由三个部分组成：视觉主干、线性层和大型语言模型。

该模型以ViT视觉主干为基础，所有训练阶段都保持不变。从ViT中归纳出四个相邻的视觉输出标记，并通过线性层将它们投影到 LLaMA-2语言模型空间中。

团队建议在训练模型为不同任务使用独特的标识符，这样一来大模型就能轻松分辨出每个任务指令，还能提高每个任务的学习效率。

训练主要分为三个阶段：预训练——多任务训练——多模式指令调整。

最终，MiniGPT-v2 在许多视觉问题解答和视觉接地基准测试中，成绩都优于其他视觉语言通用模型。

最终这个模型可以完成多种视觉任务，比如目标对象描述、视觉定位、图像说明、视觉问题解答以及从给定的输入文本中直接解析图片对象。

感兴趣的朋友，可戳下方Demo链接体验：

https://minigpt-v2.github.io/

https://huggingface.co/spaces/Vision-CAIR/MiniGPT-v2

论文链接：https://arxiv.o‍rg/abs/2310.09478

GitHub链接：https://github.com/Vision-CAIR/MiniGPT-4

参考链接：https://twitter.com/leoyerrrr

— 完—

「量子位2023人工智能年度评选」开始啦！

今年，量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项！欢迎扫码报名

MEET 2024大会已启动！点此了解详情。

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

近期资讯

如何通过电脑高效操作手机的多种方法与技巧

在现代社会，手机和电脑几乎是我们生活中不可或缺的工具。手机让我们随时随地保持联系，而电脑则提供了更大的屏幕和更强的处理能力。有时候，我们可能会想，能不能用电脑来操作手机呢？答案是肯定的！接下来，我就来聊聊如何通过电脑来操作手机，帮助你更高效地使用这两种设备。最直接的方法就是通过USB线将手机连接到电脑。

新报观察 2024-12-29

如何轻松解压7z文件：详细步骤与工具推荐指南

好了，今天我们聊一聊如何解压缩一个7z文件。也许你已经遇到过这种情况，朋友或者同事给你发了一个7z格式的压缩包，结果你一头雾水，不知道该怎么打开它。别担心，接下来我会一步一步教你怎么搞定这个问题。首先，什么是7z文件呢？7z是一种由7-Zip软件创建的压缩文件格式，通常它的压缩率比较高，能把文件压得更小。

新报观察 2024-12-29

如何在CorelDRAW中轻松绘制美丽的波浪线技巧

在绘图和设计的过程中，波浪线是一种常见的元素。无论是在图表、插图还是其他视觉作品中，波浪线都能增添一种动感和活力。今天，我们就来聊聊如何画出漂亮的CDR波浪线。CDR是CorelDRAW的文件格式，很多设计师和插画师都喜欢用它来进行矢量图形设计。接下来，我们将一步一步地探讨如何在CorelDRAW中绘制波浪线。

新报观察 2024-12-29

手机测量长度功能的实用性与注意事项解析

手机测量长度的功能越来越受到大家的欢迎，尤其是在日常生活中，很多人都希望能用手机来代替传统的尺子或者卷尺。毕竟，手机是我们随身携带的工具，能随时随地帮助我们解决问题，测量长度也不例外。现在，很多手机都内置了测量应用，或是通过下载其他软件来实现这一功能。接下来，就来聊聊手机是怎么测量长度的，以及我们在使用过程中需要注意些什么。

新报观察 2024-12-29

如何轻松查看vivo手机上的WiFi密码，实用方法全解析

在日常生活中，WiFi已经成为我们不可或缺的一部分。无论是在家里、办公室，还是在咖啡馆，WiFi都为我们提供了便捷的网络连接。不过，有时候我们可能会忘记WiFi密码，尤其是当我们需要连接其他设备时。这时候，如何查看vivo手机上的WiFi密码就成了一个很实用的问题。接下来，我就来和大家聊聊这个话题。

新报观察 2024-12-29

如何轻松安装小米摄像头内存卡，保障家庭安全

在现代家庭中，智能摄像头已经成为了很多人安全防护的首选。不过，很多新手在安装和使用过程中，常常会对内存卡的使用感到困惑。今天，我们就来聊聊小米摄像头内存卡怎么安装，这个过程其实并没有想象中那么复杂。

新报观察 2024-12-29

如何顺利绑定微信账号，享受便捷生活的全面指南

在这个信息化的时代，微信已经成为我们生活中不可或缺的一部分。无论是聊天、购物、还是支付，微信都能为我们带来很多方便。而绑定微信账号是使用这个应用的第一步，让我们来聊聊怎么绑定微信吧。首先，下载微信应用是必须的。如果你是安卓用户，可以在应用商店中搜索“微信”，然后点击下载。

新报观察 2024-12-29

如何在WPS Office中轻松调整行间距提升文档美观性

在日常办公中，WPSOffice是一个非常常用的办公软件，它的功能强大，操作简单，深受用户喜爱。如果你选择“多倍行距”，你可以输入一个小数，比如“1.2”，这样行距就会根据你输入的倍数进行调整。

新报观察 2024-12-29

红米手机：高性价比与强劲性能的完美结合，值得预算有限消费者考虑

红米，这个名字在手机圈子里可谓是耳熟能详。作为小米旗下的子品牌，红米一直以来都以高性价比著称。无论是从外观设计、性能配置，还是使用体验上，红米都给了消费者不少惊喜。今天，就让我们聊聊红米手机到底怎么样。先说外观。红米手机的设计风格逐渐从最初的简单实用向时尚潮流发展。现在的红米手机在外观上越来越注重细节，采用了更加精致的材料和工艺。

新报观察 2024-12-29

详细步骤教你如何在苹果手机上开启国际漫游服务

需求。希望这篇文章能帮助到你，让你的国际旅行更加顺利愉快！无论你是去旅游还是出差，保持与家人朋友的联系总是很重要的。祝你旅途愉快，万事顺利！希望这篇文章符合你的要求！如果需要进一步的修改或补充，请告诉我。

新报观察 2024-12-29

超火迷你GPT-4视觉能力暴涨，GitHub两万星，华人团队出品

推荐体验

相关资讯

华人团队迷你GPT-4抢跑 OpenAI有的它都有已被挤爆

华人团队迷你GPT-4抢跑看图聊天：OpenAI有的它都有，服务器已被挤爆

超越GPT-4！华人团队爆火InstructBLIP抢跑看图聊天，横扫多项SOTA

GPT-4推理能力暴涨32%，谷歌新型思维链效果超CoT

超越GPT-4！华人团队爆火InstructBLIP抢跑看图聊天，开源项目横扫多项SOTA

近期资讯

如何通过电脑高效操作手机的多种方法与技巧

如何轻松解压7z文件：详细步骤与工具推荐指南

如何在CorelDRAW中轻松绘制美丽的波浪线技巧

手机测量长度功能的实用性与注意事项解析

如何轻松查看vivo手机上的WiFi密码，实用方法全解析

如何轻松安装小米摄像头内存卡，保障家庭安全

如何顺利绑定微信账号，享受便捷生活的全面指南

如何在WPS Office中轻松调整行间距提升文档美观性

红米手机：高性价比与强劲性能的完美结合，值得预算有限消费者考虑

详细步骤教你如何在苹果手机上开启国际漫游服务

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响