华人团队迷你GPT4抢跑看图聊天：OpenAI有的它都有，服务器被挤爆

作者：量子位发布时间：2023-04-19

梦晨发自凹非寺

量子位 | 公众号 QbitAI

GPT-4识图功能迟迟不开放，终于有人忍不住自己动手做了一个。

MiniGPT-4来了，Demo开放在线可玩。

传一张海鲜大餐照片上去，就能直接获得菜谱。

传一张商品效果图，就可以让AI写一篇带货文案。

手绘一个网页，可以给出对应的HTML代码

除了生产力拉满，也支持根据常识推理图上内容是否合理、解释表情包为什么好笑，以及看截图找电影等娱乐玩法。

可以说，GPT-4发布时展示过的功能，MiniGPT-4基本也都有了。

这下网友直接把Demo服务器挤爆，开发团队连开4台备用服务器，都有几十人在排队。

不等OpenAI了，现在就能玩

除了研究团队给出的示例，网友也用MiniGPT-4玩出了各种花样

有人上传自己画的画，让AI评价评价。

有人上传一张从车道拍摄的飞机坠毁瞬间，让MiniGPT-4尽可能详细地描述，并思考自动驾驶AI能不能理解这个场面。

做到这么好的效果，MiniGPT-4实现起来却并不复杂。

把图像编码器与开源语言模型Vicuna（小羊驼）整合起来，并且冻结了两者的大部分参数，只需要训练很少一部分。

传统预训练阶段，使用4张A100在10个小时内就可完成，此时训练出来的Vicuna已能够理解图像，但生成能力受到很大影响。

为解决这个问题，团队让MiniGPT-4与ChatGPT合作创建了3500个图像文本的高质量数据集，也一并开源。

用新的数据集微调可以显著提高模型的生成可靠性和整体可用性，而且计算效率很高，使用单个A100只需要7分钟。

并且团队正在准备一个更轻量级的版本，部署起来只需要23GB显存。

也就是消费级显卡中拥有24GB显存的3090或4090就可以本地运行了。

MiniGPT-4开发团队来自KAUST（沙特阿卜杜拉国王科技大学），包括4位华人成员和他们的导师 Mohamed Elhoseiny。

两位正在读博的共同一作还在GitHub页面上特别标注正在找工作。

有意向的公司要抓紧抢人了～

在线Demo：

https://minigpt-4.github.io

开源代码：

https://github.com/Vision-CAIR/MiniGPT-4

论文：

https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf

相关资讯

华人团队迷你GPT-4抢跑看图聊天：OpenAI有的它都有，服务器已被挤爆

看美食图写菜谱、手绘网页变代码

GPT-4 OpenAI 编程

量子位 2023-04-19

MiniGPT-4抢跑看图聊天：OpenAI有的它都有，服务器已被挤爆

梦晨发自凹非寺量子位 | 公众号 QbitAIGPT-4识图功能迟迟不开放，终于有人忍不住自己动手做了一个。 MiniGPT-4来了，Demo开放在线可玩。传一张海鲜大餐照片上去，就能直接获得菜

OpenAI MiniGPT

量子位 2023-04-21

华人团队迷你GPT-4抢跑 OpenAI有的它都有已被挤爆

GPT-4识图功能迟迟不开放，终于有人忍不住自己动手做了一个。MiniGPT-4来了，Demo开放在线可玩。传一张海鲜大餐照片上去，就能直接获得菜谱。传一张商品效果图，就可以让AI写一篇带货文

GPT-4 MiniGPT OpenAI

2023-04-20

超越GPT-4！华人团队爆火InstructBLIP抢跑看图聊天，横扫多项SOTA

新智元报道编辑：桃子拉燕【新智元导读】碾压GPT-4识图能力的多模态生成模型来了。华人团队最新提出的InstructBLIP在多项任务上实现SOTA。 GPT-4看图聊天还没上线，就已经被

GPT-4

新智元 2023-05-14

超越GPT-4！华人团队爆火InstructBLIP抢跑看图聊天，开源项目横扫多项SOTA

新智元报道编辑：桃子拉燕 GPT-4看图聊天还没上线，就已经被超越了。近来，华人团队开源了多模态基础模型InstructBLIP，是从BLIP2模型微调而来的模型。 BLIP家族中增加了一个

GPT-4

新智元 2023-05-15

近期资讯

从零实现LevelDB 3. MemTable实现

在本节，我们将会了解并实现： 1. LevelDB的内部键InternalKey和LookupKey及对应的比较器 2. Memtable

李沐阳_ 2024-12-29

MVCC原理以及解决脏读、不可重复读、幻读问题

MVCC是什么？有什么作用？ MVCC即多版本并发控制，每行数据存在多个事务版本，通过对数据多个版本的访问可以使读操作不会阻塞写操作，写操作不会阻塞读操作。我们所使用的mysql，其默认引擎为innd

轻浮j 2024-12-29

使用vscode以及chrome调试yarn源码

在已经打包出带有sourcemap的yarn产物后可以通过vscode以及chrome对yarn源码进行调试

一只小川 2024-12-29

Pandas数据应用：股票数据分析

一、引言在当今的金融领域，股票市场是一个复杂且动态的系统。每天都有大量的交易发生，这些交易记录了价格、成交量等信息。对于投资者和分析师来说，如何从海量的数据中提取有用的信息是至关重要的。Pandas

Jimaks 2024-12-29

Vben5登录过期无法再次登录问题，http状态码

记录vben在登录过期时出现了无法再次登录的问题，axios拦截器的问题，修改后端响应使用http状态码即可

无奈何杨 2024-12-29

MySQL数据库连接池

关键技术点 MySQL数据库编程单例模式 queue队列容器 C++11多线程编程、线程互斥、线程同步通信和 unique_lock 基于CAS的原子整形、智能指针shared_ptr lambda

暗渡 2024-12-29

深入探索前端开发中的浏览器事件模型与请求处理

深入探索前端开发中的浏览器事件模型与请求处理在前端开发领域，浏览器事件模型和请求处理是构建交互性强、高性能网页应用的核心要素。作为前端开发者，深入理解这些概念并熟练运用相关技术，对于打造优质用户体验

十里八乡有名的后俊生 2024-12-29

Java中的String.valueOf()和toString()方法详解

在Java编程中，字符串操作是开发者日常编程任务中不可或缺的一部分。尤其是在处理对象和基本数据类型时，将其转换为字符串是一种常见需求。

Huooya 2024-12-29

Java面向对象知识总结

202402150352 第1章初识Java与面向对象程序设计核心概念和知识点 Java是一种非常流行的编程语言，它简单易学，并且具有很强的安全性和跨平台特性。这意味着你可以在一个平台上编写Jav

用户98299515565 2024-12-29

Java 异常处理：原理、实践与最佳策略

Java 异常处理：原理、实践与最佳策略在程序开发中，异常处理是一项重要的技能。无论是读取文件、访问数据库还是处理用户输入，异常随时可能发生。通过合理的异常处理，程序可以更具健壮性，避免因未处理的异

Java移动技术栈 2024-12-29

华人团队迷你GPT4抢跑看图聊天：OpenAI有的它都有，服务器被挤爆

推荐体验

相关资讯

华人团队迷你GPT-4抢跑看图聊天：OpenAI有的它都有，服务器已被挤爆

MiniGPT-4抢跑看图聊天：OpenAI有的它都有，服务器已被挤爆

华人团队迷你GPT-4抢跑 OpenAI有的它都有已被挤爆

超越GPT-4！华人团队爆火InstructBLIP抢跑看图聊天，横扫多项SOTA

超越GPT-4！华人团队爆火InstructBLIP抢跑看图聊天，开源项目横扫多项SOTA

近期资讯

从零实现LevelDB 3. MemTable实现

MVCC原理以及解决脏读、不可重复读、幻读问题

使用vscode以及chrome调试yarn源码

Pandas数据应用：股票数据分析

Vben5登录过期无法再次登录问题，http状态码

MySQL数据库连接池

深入探索前端开发中的浏览器事件模型与请求处理

Java中的String.valueOf()和toString()方法详解

Java面向对象知识总结

Java 异常处理：原理、实践与最佳策略

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响