多模态大模型MiniGPT4和LLaVA开源（GPT4图文对话平替）；MOSS等模型放出权重

作者：AI试库の小土同学发布时间：2023-04-24

本周带来的 8 个 SOTA 模型分别用于多模态对话、对话系统、文本到语音生成、中文医学对话等；1 个工具用于三维视觉重建；1 个数据集用于自然语言处理。

阿卜杜拉国王科技大学开源MiniGPT-4，具备类GPT-4的图像理解与对话能力的多模态大模型

MiniGPT-4 是阿卜杜拉国王科技大学开源的一款多模态大模型，同时具备图像理解与对话能力。它使用 BLIP-2 的冻结视觉编码器和 Vicuna 的冻结 LLM，仅使用一个投影层进行对齐。MiniGPT-4 的训练分为两个阶段。第一阶段是传统的预训练阶段，使用 4 个 A100 GPU，大约 10 小时内训练了大约 500 万个图像和文本对。第二阶段针对对话模板进行微调，实现了类似 GPT4 性能的视觉语言能力，例如细的图像描述生成、从手写草稿创建网站等。项目目前已经在 github 开源，提供在线试用，安装环境和模型权重的步骤，可在本地运行 demo，以重新训练。

获取资源：

https://sota.jiqizhixin.com/project/minigpt-4

Stability AI的首个大型语言模型StableLM开源，可轻松实现本地部署

StableLM 是 Stable AI 开源的大型语言模型，该模型一种使用开源数据集 the Pile 进行训练的模型，该数据集包含来源于维基百科、Stack Exchange 和 PubMed 等多个数据源。Stability AI 在 the Pile 的基础上进行扩展，使得所使用的数据集大小达到标准 the Pile 的 3 倍。目前，Stability AI 已经将 StableLM 模型发布到了 GitHub 上，提供便携丰富的 API 接口供开发者使用或进行调整后再使用。虽然 StableLM 模型目前仍处于 Alpha 阶段，但其参数数量较少，仅为 30 亿和 70 亿个，未来他们还将推出参数数量为 150 亿到 650 亿的模型。

获取资源：

https://sota.jiqizhixin.com/project/stablelm

Suno AI开源基于Transformer的文本到语音模型Bark，可以生成高度逼真、多语种的语音

Bark 是基于 Transformer 的文本到语音模型，可以生成高度逼真、多语种的语音以及其他音频，包括音乐、背景噪声和简单的音效；模型还可以产生笑、叹气和哭泣等非语言交流。目前，项目已在 github 开源，仓库提供了大量使用例程、推理加速方法和多种语言的支持。

获取资源：

https://sota.jiqizhixin.com/project/bark

复旦提出的支持中英双语和多种插件的开源对话语言模型MOSS，参数仅有160亿

MOSS 是一个支持中英双语和多种插件的开源对话语言模型，但参数数量比 ChatGPT 少得多。在 v0.0.2 之后，团队持续对其进行调整，推出了 MOSS v0.0.3，也就是目前开源的版本。相比于早期版本，团队构造了约 30 万插件增强的对话数据，包含搜索引擎、文生图、计算器、方程求解等。项目目前在 github 开源了针对不同任务的模型权重和使用 demo，支持模型量化、支持本地部署和分布式部署，提供调用 API，而功能插件等还有待更新。

获取资源：

https://sota.jiqizhixin.com/project/moss

微软开源多模态视觉语言大模型LLaVA，多模态对话方面具备GPT4级别的能力

LLaVA 是由微软联合威斯康星麦迪逊分校发布的一个多模态大模型。与 MiniGPT-4 不同的是，该模型将 instruction-tuning 放到了多模态模型上，这是将指令调整扩展到多模态空间的首次尝试。模型首先使用 ChatGPT/GPT-4 将图像-文本对转换为适当的指令跟随格式。同时，该模型将 CLIP 视觉编码器与语言解码器 LLaMA 连接起来，并进行端到端微调得到了出色的表现。目前项目已在 github 开源其实现代码、数据集、模型微调权重，并提供在线演示 demo。

获取资源：

https://sota.jiqizhixin.com/project/llava

商汤开源Anything-3D，将SAM扩展到3D领域的视觉应用

Anything-3D 是商汤开源的基于 SAM 的三维视觉应用项目 Anything-3D，让自然图像中的二维物体实现快速的三维重建。通过使用 BLIP、NeRF 等技术与强大的分割模型 SAM 集成，项目实现了可靠且通用的单一视角下的三维重建。目前，项目仓库已经在 github 搭建，同时提供大量的演示 demo，但具体工程代码仍有待更新。

获取资源：

https://sota.jiqizhixin.com/project/anything-3d

哈工大开源中文医学大型语言模型Huatuo，基于中文医学指令微调

Huatuo 是针对中文医学文本的大型语言模型，项目开源了经过中文医学指令微调的 LLaMA-7B 模型。项目首先通过医学知识图谱和 GPT3.5 API 构建了中文医学指令数据集，并在此基础上对 LLaMA 进行了指令微调，提高了 LLaMA 在医疗领域的问答效果。项目目前已在 github 开源，提供模型权重、详细的数据集构建方法以及本地部署指导。

获取资源：

https://sota.jiqizhixin.com/project/huatuo

Meta提出完全自监督的视觉大模型DINOv2，在多个下游任务实现最优
DINOv2: Learning Robust Visual Features without Supervision

DINOv2 是第一个基于图像数据的 SSL 工作，旨在通过在大型图像数据集上预训练图像编码器来获得具有语义的视觉特征。这些特征可以用于广泛的视觉任务，无需微调即可获得与有监督模型相当的性能。该方法的关键是构建大规模的图像数据集，并使用额外技术改进。目前项目已在 github 同时开源了源码和不同场景下的试用 demo。

获取资源：

https://sota.jiqizhixin.com/project/dinov2

加州大学圣巴巴拉分校开源开放、十亿规模的图像与文本交错语料库Multimodal C4

Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved With Text

Multimodal C4 (mmc4) 是一个开放且规模达十亿的图像与文本交错语料库。数据集搭建使用了线性分配算法，并结合了 CLIP 技术，将图像嵌入到较长的文本正文中。语料库涵盖了各种日常话题，如烹饪、旅行、技术等。该语料库包含了 1.03 亿份文件，其中包含了 5.85 亿张图像和 43B 个英语标记交错排列。这个规模庞大的语料库可以用于许多计算机视觉和自然语言处理任务，如图像标注、图像分类、文本分类等。

获取资源：平台收录新数据集：2023/04/14

中国科学技术大学提出基于SAM的多功能图像修复大模型Inpaint Anything

Inpaint Anything: Segment Anything Meets Image Inpainting

Inpaint Anything（IA）是一种图像修复模型，由来自中国科学技术大学和东方理工高等研究院的研究团队开发。该模型采用了一种新的图像修补范式，称为“修补一切”（Inpaint Anything，简称 IA）模型。该模型不需要精细化操作生成掩码，只需要一键点击，就可以实现移除、填补和替换图像中的任何物体和场景。IA 模型结合了 SAM、Lama 等视觉基础模型，实现了对用户操作友好的无掩码化图像修复，并支持“傻瓜式”人性化操作。

获取资源：

https://sota.jiqizhixin.com/project/inpaint-anything