作者 | Sergio De Simone
译者 | 平川
策划 | 丁晓昀
浙江大学和微软亚洲研究院的研究人员最近发表了一篇论文,探讨使用大型语言模型(LLM)作为控制器来操纵 Hugging Face 等社区中已有的人工智能模型。
这项研究背后的核心思想是使用 LLM(如 ChatGPT)的高级语言理解和生成能力将不同领域现有的 AI 模型连接起来。
具体来说,在接收到用户请求时,我们使用 ChatGPT 进行任务规划,根据 Hugging Face 社区提供的模型功能描述选择模型,然后使用所选的 AI 模型执行每一项子任务,并汇总执行结果生成响应。
研究人员宣称,他们的方法使解决语言、视觉、语音及其他领域的复杂人工智能任务成为可能。
为了在 ChatGPT 和 Hugging Face 模型之间建立连接,HuggingGPT 使用了 Hugging Face 库中的模型描述,并将它们提供给 ChatGPT 提示符。
这个过程的第一个阶段是 任务规划:ChatGPT 分析用户请求并将其分解为可以使用库中模型解决的任务。第二个阶段是 选择最适合规划任务的模型。下一个逻辑步骤是 执行任务并将结果返回给 ChatGPT。最后,ChatGPT 通过整合所有模型的预测来 生成响应。
在任务规划阶段,HuggingGPT 使用了任务规范(specifications)和示范(demonstrations)。一个任务规范包括 4 个槽,分别定义了ID、任务类型(如视频、音频等)、依赖关系(定义前置任务)和任务参数。示范将用户请求与任务规范序列关联在一起。例如,用户请求“In image /exp2.jpg, what is the animal and what is it doing?”会与一个包含 4 项任务的序列相关联:图像到文本、图像分类、对象检测以及最后的问题回答任务。
论文的 6 位作者表示,他们使用 HuggingGPT 进行了一系列实验,包括简单任务和涉及多个子任务的复杂任务。
HuggingGPT 以 ChatGPT 为中心整合了 Hugging Face 上的数百个模型,涵盖了文本分类、对象检测、语义分割、图像生成、问答、文本转语音、文本转视频等 24 项任务。实验结果证明了 HuggingGPT 在处理多模态信息和复杂人工智能任务方面的能力。
根据其创建者的说法,HuggingGPT 还有一些局限性,包括:效率和延迟,这主要与每个阶段都至少要和大型语言模型交互一次有关;上下文长度限制,这与 LLM 可以接受的最大词元数有关;系统稳定性可能因 LLM 偶尔不遵守指令而降低,也可能因为 LLM 控制的某个模型失败而降低。
原文链接:
https://www.infoq.com/news/2023/04/hugginggpt-complex-ai-tasks/
相关阅读:
一部手机就可运行,精通 Python 等 20 种语言!谷歌终于能与 OpenAI 打擂台了,全新 PaLM 2 比肩 GPT-4](https://www.infoq.cn/news/8rtmSJNmCIZauii2I7ju)
AIGC 在保险行业有哪些应用落地的可能性?](https://www.infoq.cn/article/vuj21tZF1q1qiB9zOQhw)
IBM 加入 AI 大战!发布生成式 AI 平台 watsonx,最早将于 7 月推出](https://www.infoq.cn/news/wAM6PJiYjiyyj3l2jt4x)
声明:本文为 InfoQ 翻译,未经许可禁止转载。
点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!
今日好文推荐
因低薪、高强度工作感到被公司“虐待”,一程序员跳槽前炮制惊天数据窃取案,勒索上千万终获刑
阿里取消 CTO 岗位;星火大模型“套壳”OpenAI?科大讯飞回应;近一半微软员工担心被 AI 抢饭碗|Q资讯
“Type不值得!”前端框架Svelte作者宣布重构代码,反向迁移到Java引争议
谷歌终于能与OpenAI 打擂台了!全新PaLM 2比肩GPT-4:一部手机就可运行,精通Python等20种语言