当前位置:首页|资讯|MiniGPT|ChatGPT|GPT-4|编程

首发!MiniGPT-4 发布,代码模型开源,支持在线体验,好用再下载!!

发布时间:2023-04-23
首发:AINLPer微信公众号(获取分享干货!!
编辑: ShuYini
校稿: ShuYini
时间: 2023-04-17

引言

相比ChatGPT,GPT-4展示出了非凡的多模态能力,它可以利用手写文本生成网站并且还能够识别出图片中的幽默元素。这些优秀的能力在以前的视觉语言模型中很难实现。**对于GPT-4惊人的多模态生成能力,其主要原因是使用了更先进的大型语言模型 (LLM)**。那么能否利用目前比较先进的大型LLM进行微调从而尽可能达到GPT-4的性能呢?那么今天给大家分享的这篇文章就从该角度出发,提出了MiniGPT-4,该模型在文本方面可以达到90% ChatGPT的能力,在视觉感知方面,同样具备与GPT-4的多模态功能。注意:MiniGPT-4开源,并支持在线体验。地址:minigpt-4.github.io/

背景介绍

近年来,大型语言模型 (LLM) 经历了快速发展。 凭借出色的语言理解能力,这些模型可以通过零样本学习的方式执行各种复杂的语言任务。 值得注意的是,最近推出的 GPT-4,它是一种大型多模态模型,并向我们展示了许多令人印象深刻的功能。 例如,GPT-4 可以产生非常详细和准确的图像描述,解释异常的视觉现象,甚至可以根据手写文本指令构建网站。「尽管 GPT-4 展现出了非凡的能力,但其非凡能力背后的方法仍然是个谜。 作者认为这些惊人的技能可能源于对更高级的大型语言模型 (LLM) 的利用」

为了证实以上猜想,作者提出了一个名为 MiniGPT-4 的新模型:它使用先进的大型语言模型 (LLM)--Vicuna(其中 Vicuna 是基于 LLaMA 构建的)进行调优,在文本语言方面可以达到 ChatGPT 能力的90%。在视觉感知方面,作者采用了与BLIP-2相同的预训练视觉组件,其中该组件由EVA-CLIP的ViT-G/14和Q-Former组成。MiniGPT-4 只添加了一个映射层,将编码的视觉特征与Vicuna语言模型对齐,冻结了所有视觉和语言组件参数。

然而,简单地将视觉特征与 LLM 对齐不足以训练像聊天机器人这样具有视觉对话能力的高性能模型,并且原始图像文本对背后的噪声可能导致语言输出不连贯。因此,作者收集了另外 3,500 个高质量对齐的图像文本对,以使用设计的聊天模板进一步微调模型,以提高生成语言的自然性和可用性。

MiniGPT-4

MiniGPT-4 旨在将来自预训练视觉编码器的视觉信息与先进的大型语言模型 (LLM) 对齐。 具体来说,在文本方面,作者利用 Vicuna 作为语言解码器,在视觉感知方面,使用了与BLIP-2相同的视觉编码器,并且语言和视觉模型都是开源的。本文的主要目标就是使用线性映射层来弥合视觉编码器和 LLM 之间的差距,模型架构图如下所示:

在MiniGPT-4训练阶段,作者提出了一种两阶段训练方法。在第一阶段,因为在大量对齐的图像-文本对上对进行模型预训练,以获取视觉语言知识。在第二阶段,使用较小但高质量的图像文本数据集对预训练模型进行微调,以增强模型的生成可靠性和可用性。

预训练第一阶段

在初始预训练阶段,该模型旨在从大量对齐的图像文本对中获取视觉语言知识。 在整个预训练过程中,预训练的视觉编码器和 LLM 都保持冻结状态,只有线性映射层被预训练。作者使用 Conceptual Caption、SBU和 LAION的组合数据集来训练我们的模型。 其中模型经历了 20,000 个训练步骤,批量大小为 256,覆盖了大约 5 百万个图像-文本对。 整个过程需要大约 10 个小时才能完成,使用了 4 个 A100 (80GB) GPU。

第一阶段预训练存在的问题。 在第一个预训练阶段之后,MiniGPT-4 具备了处理大量知识并对人类查询提供合理回应的能力。 然而,它却难以产生连贯的语言输出,例如:会产生重复的单词或句子、支离破碎的句子或不相关的内容。 这些问题阻碍了 MiniGPT-4 与人类进行流畅的视觉对话的能力。

预训练第二阶段

为了使生成的语言更加自然并增强模型的可用性,第二阶段对齐过程必不可少。 虽然在 NLP 领域,指令微调数据集和对话很容易获得,但视觉语言领域不存在等效的数据集。「为了解决这一缺陷,作者精心制作了一个高质量的图像文本数据集(数据集开源)」,该数据集用于在第二阶段对齐过程中,以实现对MiniGPT-4的微调。

在第二阶段,作者使用精选的高质量图像文本对来微调我们的预训练模型。 在微调期间,我们使用以下格式的预定义提示:

###Human: <Img><ImageFeature></Img> <Instruction>###Assistant:

在此提示中,“<Instruction>” 表示从预定义指令集中随机抽取的指令,其中包含指令的变体形式,例如“详细描述此图像”或“您能为我描述此图像的内容吗”。 需要重要的注意的是,作者在这里不计算此特定文本图像提示的回归损失。 因此,MiniGPT-4 现在能够产生更自然、更可靠的反馈结果。 此外,作者还观察到该模型的微调过程非常高效,只需要 400 个训练步骤,批量大小为 12,使用单个 A100 GPU 只需短短 7 分钟即可完成。

实验结果

实验结果,发现 MiniGPT-4 拥有许多类似于 GPT-4 所展示的功能。 例如,MiniGPT-4 可以生成复杂的图像描述,根据手写文本指令创建网站,以及解释不寻常的视觉现象。

例如,MiniGPT-4可以通过观察令人垂涎欲滴的食物照片、工艺故事或受图像启发的说唱歌曲直接生成详细的食谱,为图像中的产品撰写广告,区分照片中显示的问题并提供相应的解决方案,并检索关于人的丰富事实, 电影或直接来自图像的艺术,以及其他功能。

推荐阅读

[1] ChatGPT等大语言模型(LLMs)测试数据集--整理分享

[*]不经意间!发现 GPT-4 标注性能已超越人类:模型目标与道德行为的权衡

[*]追赶GPT-4!微软发布最新研究成果:利用GPT-4追赶GPT-4(中文适用 & 含数据)

[*] Baize:一个以中国神兽(白泽)命名的LLM模型,可单卡GPU运行

[2]含源码!继续分享8篇NLP论文,看如何提升大模型复杂推理能力

[3]谷歌、MIT等最新研究成果!其中,麻省理工(MIT)的研究:可能重塑你对LLMs的理解

[4] 「自然语言处理(NLP)」 你必须要知道的 “ 十二个国际顶级会议 ” !

[5] 2023年!自然语言处理 10 大预训练模型

[6] 分享 8 篇NLP论文,有研究惊奇发现:大语言模型除了学习语言还学到了... ...

[7] 收藏!「自然语言处理(NLP)」你可能会用到的「中文」数据集(第一弹)

[8] 2023年,请不要忽略!图神经网络(GNN)这一匹黑马!

[9] NLP不断突破界限,2023 十篇必读的顶级NLP论文!

[7] 颠覆传统神经网络!19个神经元驾驶一辆车!

[10] 分享10篇最新NLP顶级论文,有研究竟提出:给大型语言模型(LLM)增加水印

[11] Language Is Not ALL You Need && 知识图谱的两种应用

[12] ChatGPT等大语言模型(LLMs)测试数据集--整理分


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1