一个令人惊艳的ChatGPT项目，开源了！

作者：CodeSheep发布时间：2023-04-03

最近在GitHub上发现了一个爆火的开源项目。

好家伙，凑近一看，居然还是由微软开源，并且和最近炙手可热的ChatGPT息息相关。

项目的名字叫做：Visual ChatGPT。

https://github.com/microsoft/visual-chatgpt

这个项目最早是3月上旬微软开源的，项目宣布开源后仅用了短短一周，就斩获了2w+ star。

到现在为止，距离当初项目开源大约过去了3周多，仓库star数则来到了28k+，亦可谓是火箭式上涨（doge）。

众所周知，ChatGPT自2022年11月推出以来，持续走红。

ChatGPT具备强大的会话能力，可以理解文字、聊天、写小说、解答问题、编写代码... 但是目前还并不能直接处理或生成图像。

而Visual ChatGPT这个项目则可以把ChatGPT和一系列视觉基础模型（VFM，Visual Foundation Model）给联系起来，以便实现在ChatGPT聊天的过程中来发送和接收图像，也使得ChatGPT能够处理更为复杂的视觉任务。

讲白了，就是通过Visual ChatGPT，可以把一系列视觉基础模型给接入ChatGPT，使得ChatGPT能胜任更为复杂的视觉处理任务。

Visual ChatGPT的整体技术架构图如上所示，我们可以清楚地看到ChatGPT和视觉基础模型（VFM，Visual Foundation Model）分别位于其中的位置。

一方面，ChatGPT(或LLM)作为一个通用接口，继续发挥它本身的优势，提供对不同话题的智能理解。另一方面，基础视觉模型VFM则通过提供特定领域的深入知识来充当领域专家，它们通过交互管理模块（Prompt Manger）进行连接和适配。

这样聊可能比较抽象，我们可以拿官方给的一个例子来进行说明：

1、首先是用户：输入一张黄色的向日葵图片，并且要求ChatGPT根据该图像预测深度来生成一朵红花，然后再一步一步将其做成卡通画。

2、接着是交互管理模块（Prompt Manger）发挥作用，在它的协调和控制下，VFM模块开始发挥作用：

首先需要运用深度估计模型来预测并生成图像的深度信息；
然后需要运用深度图像模型来生成对应空间深度的红花图像；
最后运用Stable Diffusion的风格迁移模型来完成图像风格的变换。

3、最后Visual ChatGPT系统再将最终结果返回给用户，完成本次对话。

说到这里，有兴趣的小伙伴可以可以看看微软给出的一篇有关Visual ChatGPT的论文。

里面关于这部分的流程解释得非常详细，而且还给出了多轮对话的案例、以及实验结果，有兴趣的小伙伴可以看看。

好了，今天的分享就到这里了，感谢大家的收看，我们下篇见。

相关资讯

做了一个和ChatGPT有关的开源项目

《ChatGPT AI 问答助手》开源免费项目，涵盖爬虫接口、ChatGPT API对接、DDD架构设计、镜像打包、Docker容器部署，小巧精悍，流程全面。对于编程伙伴来说，非常具有学习价值

ChatGPT 编程

小傅哥 2023-01-30

一个令人惊艳的模糊图片高清化重绘神器：SUPIR来了！

大家好，我是每天分享AI应用的萤火君！本文给大家分享一个将模糊图片还原为照片级高清图像的AI项目：SUPIR。这个项目以尖端的大规模人工智能革新图像恢复技术，通过文本驱动、智能修复，将AI技术与创新思维相结合，赋予每张图像全新的生命力。这个项目的修复能力本质上是一种重绘能力，很多搞设计的同学都说挺不错。效果展示经过我的实测，这个项目特别适合低分辨率和模糊照片的高清化处理，比Stable Diffusion WebUI中的高清化效果要好上很多。话不多说，先看效果：风景图片感觉这个项目对风景图和物件等真实图片

人工智能 Stable Diffusion WebUI Stable Diffusion

萤火遛AI 2024-04-17

一个悄然崛起的AI开源项目！

生成式AI ChatGPT Stable Diffusion AI绘画

CodeSheep 2023-06-19

好家伙，这个开源项目硬生生复制了一个 ChatGPT Plus 出来

最近有一款聊天机器人框架 Lobe Chat 火出了天际，它不仅支持多模态，支持语音会话，还有一个强大的 Function Calling 插件生态系统（可以作为 ChatGPT 插件的平替）。最重

ChatGPT

米开朗基杨 2023-12-20

Latte：一个类似Sora的开源视频生成项目

本文给大家介绍一个类似Sora的视频生成项目：Latte。为什么说它类似Sora呢？这个项目的全称是：Latent Diffusion Transformer for Video Generation

Sora

萤火架构 2024-03-02

一个令人惊艳的ChatGPT项目，开源了！

推荐体验

相关资讯

做了一个和ChatGPT有关的开源项目

一个令人惊艳的模糊图片高清化重绘神器：SUPIR来了！

一个悄然崛起的AI开源项目！

好家伙，这个开源项目硬生生复制了一个 ChatGPT Plus 出来

Latte：一个类似Sora的开源视频生成项目

近期资讯

小红书AIPS人群资产模型（最新最全实战解析）

用时16小时，深入解析大众点评积分商城产品运营策略

Chat GPT崩溃后，全球学术水平瞬间回落五年

当“网瘾老年”变成一门生意

谈一谈我对ERP的理解（一）

吴柳芳的下一步：国风博主？

产品要想卖出去，产品经理得具备哪些特质？

下一个短视频风口，关于视频号，你想知道的都在这里

用户拉新+会员唤醒+转化率提升300%？一起聊聊会员营销

微信小店、视频号小店、小程序商城有什么区别？该怎么选？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响