先看百科名词解释: 强人工智能(Strong AI)或通用人工智能(英语:Artificial General Intelligence)是具备与人类同等智能、或超越人类的人工智能,能表现正常人类所具有的所有智能行为。
不知道大家对钢铁侠里托尼的人工智能管家贾维斯还有没有印象,他就像一个看不见的真人一样,可以跟你对话分析,可以帮你做事,贾维斯这样的人工智能可能离我们不远了。
最近微软推出了JARVIS项目,它是一个多模型协作的系统,通过chatgpt控制HuggingFace上多个专用模型分别实现某一功能然后汇总完成一个完整的任务。首先看一下官方的演示图。
以图片为例,要求:生成一个小女孩读书的图片,小女孩的姿势要与示例图片中男孩的姿势一样,然后用语音描述一下新生成的图片。
AI将一个完整的任务拆分成四个阶段:
任务规划:使用ChatGPT分析用户的请求,了解他们的意图,并将其拆解成可能的可解决任务。
模型选择:为解决计划任务,ChatGPT 根据描述选择托管在 Hugging Face 上的专家模型。
任务执行:调用并执行每个选定的模型,并将结果返回给 ChatGPT。
Response Generation : 最后使用ChatGPT整合所有模型的预测,生成response。
这个任务中包含多个功能部分,生成图片、图片转文本、文本转语音等,由ChatGPT分析并调度执行各个模块功能,并做最后的总结输出,JARVIS也给出了任务执行过程及其中用到的模型,首先分析示例图片得出小男孩及姿势,然后生成姿势骨架,然后根据读书的小女孩的文本生成新的图片,然后对新图片中的物体进行分析,得出新的图片中的内容描述,然后将文本转换为语音。
JARVIS还没有开源,就算开源估计很多人也用不了,它对系统配置要求极高。
默认配置(推荐)
系统Ubuntu 16.04 长期支持版
显存 >= 24GB
内存 > 12GB(最小)、16GB(标准)、80GB(完整)
硬盘 > 284GB
42GB 用于damo-vilab/text-to-video-ms-1.7b
126GB 用于ControlNet
66GB 用于stable-diffusion-v1-5
50GB 给其他人
我们无法本地部署,但是可以在线体验一下,项目地址:https://github.com/microsoft/JARVIS
huggingface在线体验链接:https://huggingface.co/spaces/microsoft/HuggingGPT
在线体验需要输入两个KEY才能正常使用。
openai api申请链接:https://platform.openai.com/overview
huggingface token可以登录网站后,点击页面右上角,选择setting,【Access Tokens】然后点击【new token】按钮生成token。
两个key都输入后就可以在线体验微软JARVIS了。
由于对话不能上传图片,你必须输入一个在线图片网址才行。
chatgpt已经不单纯的是能跟你聊天对话了,它已经开始能“看见”你了,chatgpt就好像一个大脑,图像识别就好像一双眼睛,文本转语音就好像嘴巴,语音转文本就好像是耳朵,并将chatgpt赋予互联网搜索功能,再加上波士顿动力灵活的机器人身躯,chatgpt真的就变成一个无所不知,什么都能做,极其强大的“人”了,估计那个时刻不会很远了。
bili_48169286213 2024-12-26
勇无止境在线 2024-12-26
安在软件 2024-12-26