微软JARVIS使用分析，识图聊天绘图多种模型整合未来人工智能已来

作者：AI画师大阳发布时间：2023-05-04

微软人工智能 ChatGPT Hugging Face

先看百科名词解释：强人工智能（Strong AI）或通用人工智能（英语：Artificial General Intelligence）是具备与人类同等智能、或超越人类的人工智能，能表现正常人类所具有的所有智能行为。

不知道大家对钢铁侠里托尼的人工智能管家贾维斯还有没有印象，他就像一个看不见的真人一样，可以跟你对话分析，可以帮你做事，贾维斯这样的人工智能可能离我们不远了。

最近微软推出了JARVIS项目，它是一个多模型协作的系统，通过chatgpt控制HuggingFace上多个专用模型分别实现某一功能然后汇总完成一个完整的任务。首先看一下官方的演示图。

以图片为例，要求：生成一个小女孩读书的图片，小女孩的姿势要与示例图片中男孩的姿势一样，然后用语音描述一下新生成的图片。

AI将一个完整的任务拆分成四个阶段：

任务规划：使用ChatGPT分析用户的请求，了解他们的意图，并将其拆解成可能的可解决任务。
模型选择：为解决计划任务，ChatGPT 根据描述选择托管在 Hugging Face 上的专家模型。
任务执行：调用并执行每个选定的模型，并将结果返回给 ChatGPT。
Response Generation : 最后使用ChatGPT整合所有模型的预测，生成response。

这个任务中包含多个功能部分，生成图片、图片转文本、文本转语音等，由ChatGPT分析并调度执行各个模块功能，并做最后的总结输出，JARVIS也给出了任务执行过程及其中用到的模型，首先分析示例图片得出小男孩及姿势，然后生成姿势骨架，然后根据读书的小女孩的文本生成新的图片，然后对新图片中的物体进行分析，得出新的图片中的内容描述，然后将文本转换为语音。

JARVIS还没有开源，就算开源估计很多人也用不了，它对系统配置要求极高。

默认配置（推荐）

系统Ubuntu 16.04 长期支持版
显存 >= 24GB
内存 > 12GB（最小）、16GB（标准）、80GB（完整）
硬盘 > 284GB

42GB 用于damo-vilab/text-to-video-ms-1.7b
126GB 用于ControlNet
66GB 用于stable-diffusion-v1-5
50GB 给其他人

我们无法本地部署，但是可以在线体验一下，项目地址：https://github.com/microsoft/JARVIS

huggingface在线体验链接：https://huggingface.co/spaces/microsoft/HuggingGPT

在线体验需要输入两个KEY才能正常使用。

openai api申请链接：https://platform.openai.com/overview

huggingface token可以登录网站后，点击页面右上角，选择setting,【Access Tokens】然后点击【new token】按钮生成token。

两个key都输入后就可以在线体验微软JARVIS了。

由于对话不能上传图片，你必须输入一个在线图片网址才行。

chatgpt已经不单纯的是能跟你聊天对话了，它已经开始能“看见”你了，chatgpt就好像一个大脑，图像识别就好像一双眼睛，文本转语音就好像嘴巴，语音转文本就好像是耳朵，并将chatgpt赋予互联网搜索功能，再加上波士顿动力灵活的机器人身躯，chatgpt真的就变成一个无所不知，什么都能做，极其强大的“人”了，估计那个时刻不会很远了。