MiniGPT-4，开源了！

作者：CodeSheep发布时间：2023-04-20

上个月GPT-4发布时，我曾写过一篇文章分享过有关GPT-4的几个关键信息。

当时的分享就提到了GPT-4的一个重要特性，那就是多模态能力。

比如发布会上演示的，输入一幅图（手套掉下去会怎么样？）。

GPT-4可以理解并输出给到：它会掉到木板上，并且球会被弹飞。

再比如给GPT-4一张长相奇怪的充电器图片，问为什么这很可笑？

GPT-4回答道，VGA 线充 iPhone。

用户甚至还可以直接画一个网站草图拍照丢给GPT-4，它就可以立马帮助生成代码。

但是时间过去了这么久，GPT-4像这样的识图功能也迟迟没有开放。

就在大家都在等待这个功能开放的时候，一个名为MiniGPT-4的开源项目悄悄做了这件事情。

没错，就是为了增强视觉语言理解。

MiniGPT-4背后团队来自KAUST（沙特阿卜杜拉国王科技大学），是几位博士开发的。

项目除了是开源的之外，而且还提供了网页版的demo，用户可以直接进去体验。

在线体验：https://minigpt-4.github.io
GitHub仓库：https://github.com/Vision-CAIR/MiniGPT-4
论文：https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf

MiniGPT-4也是基于一些开源大模型来训练得到的。

团队把图像编码器与开源语言模型Vicuna（小羊驼）整合起来，并且冻结了两者的大部分参数，只需要训练很少一部分。

训练分为两个阶段。

传统预训练阶段，在4张A100上使用500万图文对，10个小时内就可以完成，此时训练出来的Vicuna已能够理解图像，但生成能力有限。

然后在第二个调优阶段再用一些小的高质量数据集进行训练。这时候的计算效率很高，单卡A100只需要7分钟。

并且团队正在准备一个更轻量级的版本，部署起来只需要23GB显存，这也就意味着未来可以在一些消费级的显卡中或许就可以进行本地训练了。

这里也给大家看几个例子。

比如丢一张食物的照片进去来获得菜谱。

或者给出一张商品的照片来让其帮忙写一篇文案。

当然也可以像之前GPT-4发布会上演示的那样，画出一个网页，让其帮忙生成代码。

可以说，GPT-4发布会上演示过的功能，MiniGPT-4基本也都有。

这一点可以说非常amazing了！

可能由于目前使用的人比较多，在MiniGPT-4网页demo上试用时会遇到排队的情况，需要在队列中等待。

但是用户也可以自行本地部署服务，过程并不复杂。

首先是下载项目&准备环境：

git clone https://github.com/Vision-CAIR/MiniGPT-4.git cd MiniGPT-4 conda env create -f environment.yml conda activate minigpt4

然后下载预训练模型：

最后在本地启动Demo：

python demo.py --cfg-path eval_configs/minigpt4_eval.yaml

通过这个项目我们也再一次看出大模型在视觉领域的可行性，未来在图像、音频、视频等方面的应用前景应该也是非常不错的，我们可以期待一下。

好了，今天的分享就到这里了，感谢大家的收看，我们下篇见。

相关资讯

MiniGPT-4 ，开源了！

这是一个拥有类似 GPT-4 图像对话能力的 AI 开源项目。该项目能提供类似 GPT-4 的图像理解与对话能力，让你先人一步感受到图像对话的强大之处。

GPT-4 MiniGPT

GitHubDaily 2023-04-20

MiniGPT-4：看图聊天、教学、创作、搭网站......还开源了

“在技术层面上，他们正在做一些非常简单的事情......但结果非常惊人。最重要的是，它在 OpenAI 的 GPT-4 图像模态之前出现。（这是）开源 AI 的真正胜利。”

OpenAI GPT-4 MiniGPT

学术君 2023-04-18

MiniGPT-4原理与搭建

前言在之前OpenAI推出的GPT-4中，我们可以OpenAI的Greg Brockman给GPT-4导入手绘的一张网页图纸，它就能自动生成网站的代码，引起新一轮轰动。由此可见，GPT-4的已经具备

MiniGPT GPT-4 OpenAI 编程

GoGeekBaird 2023-05-05

MiniGPT-4安装避坑指南

MiniGPT-4有多神奇，我就不赘述了，大家可以自行搜索一下。这个语言模型的成熟度号称强过ChatGPT，但限于只能使用本地数据，所以知识方面是他的短板。废话不多说，开始安装。1、先确认一下自己的机器是否能安装这个软件，官方网站上介绍这个软件要求Linux系统，Nvidia显卡至少12G显存。是不是一下子劝退好多人？经我测试，windows上是可以安装的，需要避一个坑，后面会介绍。但是12G Nvidia显卡，这个条件是必不可少的，如果这个不达标，就先买一张显卡吧。2、基础软件安装。先把AI软件需要用到

MiniGPT ChatGPT

虎喷忠狼将 2023-05-20

首发！MiniGPT-4 发布，代码模型开源，支持在线体验，好用再下载！！

首发:AINLPer微信公众号（获取分享干货！！）编辑: ShuYini校稿: ShuYini时间: 2023-04-17引言相比ChatGPT，GPT-4展示出了非凡的多模态能力，它可以利用

MiniGPT ChatGPT GPT-4 编程

2023-04-23

近期资讯

上海航天能源取得一种基于本安关联的电源专利，降低产品成本

金融界2024年12月25日消息，国家知识产权局信息显示，上海航天能源股份有限公司取得一项名为“一种基于本安关联的电源”的专利，授权公告号CN222192144U，申请日期为2023年12月。

金融界 2024-12-25

10个产品细节剖析，看高手是如何做趣味设计的？

在这个春节，各大产品设计师们用他们的创意和匠心，为我们带来了一场视觉和情感的盛宴。本文精选了10个产品细节案例，揭示了设计师们是如何巧妙地将节日元素融入用户体验中，创造出既有趣又温馨的互动。

姝斐suphie 2024-12-25

产品要想卖出去，产品经理得具备哪些特质？

在当今瞬息万变的商业世界中，产品经理的角色变得越来越关键。他们不仅是产品的创造者，更是市场成功的关键推手。本文将深入探讨产品经理如何通过自信、狼性精神、营销思维和硬技能的全面提升，来确保产品在市场中的成功。

武林 2024-12-25

小红书AIPS人群资产模型（最新最全实战解析）

在数字化营销时代，品牌如何在小红书这样的社交平台上精准把握用户心理，实现从认知到购买再到分享的全链条营销？本文深入解析小红书AIPS人群资产模型，揭示品牌如何通过这一模型管理用户关系，优化营销策略，并最终实现销售增长和品牌忠诚度提升。

瑾益 2024-12-25

盘点2024年十大营销事件

从品牌与体育明星的合作到游戏IP的传奇，从央视春晚的意外曝光到电影的热议，每一个事件都是营销创新的缩影。本文带你回顾这一年中十大最具影响力的营销事件，让我们一起感受营销的力量。

加薪在这 2024-12-25

金融界 2024-12-25

供应链金融在物流平台领域创新发展案例（一）

前面的文章，我们都是分析的纯物流行业的公司。本文的案例聚焦于供应链金融的创新实践，通过物联网技术和数字化，如何实现供应链整体竞争力的提升。

物流小兵说 2024-12-25

“微信送礼”重燃战火，电商格局迎来新变数？

随着春节的临近，微信推出了一项新功能“送礼物”，允许用户在微信小店中互赠商品，这一举措不仅为用户的社交互动增添了新趣味，也可能为电商行业带来新的变数。

新播场 2024-12-25

MiniGPT-4，开源了！

推荐体验

相关资讯

MiniGPT-4 ，开源了！

MiniGPT-4：看图聊天、教学、创作、搭网站......还开源了

MiniGPT-4原理与搭建

MiniGPT-4安装避坑指南

首发！MiniGPT-4 发布，代码模型开源，支持在线体验，好用再下载！！

近期资讯

上海航天能源取得一种基于本安关联的电源专利，降低产品成本

10个产品细节剖析，看高手是如何做趣味设计的？

产品要想卖出去，产品经理得具备哪些特质？

小红书AIPS人群资产模型（最新最全实战解析）

盘点2024年十大营销事件

赛博传单，为300多万人的生活托底

从RayBan Meta起头，聊聊智能眼镜

力零科技申请用于带电作业的并沟线夹安装工具专利，提升并沟线夹带电作业效率

供应链金融在物流平台领域创新发展案例（一）

“微信送礼”重燃战火，电商格局迎来新变数？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响