当前位置：首页|资讯|Hugging Face|微软|大语言模型|人工智能

HuggingGPT：借力 LLM 使用 Hugging Face 模型来解决复杂的 AI 任务

作者：InfoQ发布时间：2023-05-16

Hugging Face 微软大语言模型人工智能

作者 | Sergio De Simone

译者 | 平川

策划 | 丁晓昀

浙江大学和微软亚洲研究院的研究人员最近发表了一篇论文，探讨使用大型语言模型（LLM）作为控制器来操纵 Hugging Face 等社区中已有的人工智能模型。

这项研究背后的核心思想是使用 LLM（如 ChatGPT）的高级语言理解和生成能力将不同领域现有的 AI 模型连接起来。

具体来说，在接收到用户请求时，我们使用 ChatGPT 进行任务规划，根据 Hugging Face 社区提供的模型功能描述选择模型，然后使用所选的 AI 模型执行每一项子任务，并汇总执行结果生成响应。

研究人员宣称，他们的方法使解决语言、视觉、语音及其他领域的复杂人工智能任务成为可能。

为了在 ChatGPT 和 Hugging Face 模型之间建立连接，HuggingGPT 使用了 Hugging Face 库中的模型描述，并将它们提供给 ChatGPT 提示符。

这个过程的第一个阶段是 任务规划：ChatGPT 分析用户请求并将其分解为可以使用库中模型解决的任务。第二个阶段是 选择最适合规划任务的模型。下一个逻辑步骤是 执行任务并将结果返回给 ChatGPT。最后，ChatGPT 通过整合所有模型的预测来 生成响应。

在任务规划阶段，HuggingGPT 使用了任务规范（specifications）和示范（demonstrations）。一个任务规范包括 4 个槽，分别定义了ID、任务类型（如视频、音频等）、依赖关系（定义前置任务）和任务参数。示范将用户请求与任务规范序列关联在一起。例如，用户请求“In image /exp2.jpg, what is the animal and what is it doing?”会与一个包含 4 项任务的序列相关联：图像到文本、图像分类、对象检测以及最后的问题回答任务。

论文的 6 位作者表示，他们使用 HuggingGPT 进行了一系列实验，包括简单任务和涉及多个子任务的复杂任务。

HuggingGPT 以 ChatGPT 为中心整合了 Hugging Face 上的数百个模型，涵盖了文本分类、对象检测、语义分割、图像生成、问答、文本转语音、文本转视频等 24 项任务。实验结果证明了 HuggingGPT 在处理多模态信息和复杂人工智能任务方面的能力。

根据其创建者的说法，HuggingGPT 还有一些局限性，包括：效率和延迟，这主要与每个阶段都至少要和大型语言模型交互一次有关；上下文长度限制，这与 LLM 可以接受的最大词元数有关；系统稳定性可能因 LLM 偶尔不遵守指令而降低，也可能因为 LLM 控制的某个模型失败而降低。

原文链接：

https://www.infoq.com/news/2023/04/hugginggpt-complex-ai-tasks/

相关阅读：

一部手机就可运行，精通 Python 等 20 种语言！谷歌终于能与 OpenAI 打擂台了，全新 PaLM 2 比肩 GPT-4](https://www.infoq.cn/news/8rtmSJNmCIZauii2I7ju)

AIGC 在保险行业有哪些应用落地的可能性？](https://www.infoq.cn/article/vuj21tZF1q1qiB9zOQhw)

IBM 加入 AI 大战！发布生成式 AI 平台 watsonx，最早将于 7 月推出](https://www.infoq.cn/news/wAM6PJiYjiyyj3l2jt4x)

声明：本文为 InfoQ 翻译，未经许可禁止转载。

点击底部阅读原文访问 InfoQ 官网，获取更多精彩内容！

今日好文推荐

因低薪、高强度工作感到被公司“虐待”，一程序员跳槽前炮制惊天数据窃取案，勒索上千万终获刑

阿里取消 CTO 岗位；星火大模型“套壳”OpenAI？科大讯飞回应；近一半微软员工担心被 AI 抢饭碗｜Q资讯

“Type不值得！”前端框架Svelte作者宣布重构代码，反向迁移到Java引争议

谷歌终于能与OpenAI 打擂台了！全新PaLM 2比肩GPT-4：一部手机就可运行，精通Python等20种语言

推荐体验

相关资讯

HuggingGPT：借力LLM使用Hugging Face模型来解决复杂的AI任务

用LLM作为控制器来操纵Hugging Face等社区中已有的人工智能模型。

Hugging Face 人工智能

Sergio De Simone 2023-05-15

如何使用Hugging Face LLM DLC部署大型语言模型到Amazon SageMaker?

如何使用Hugging Face LLM DLC部署大型语言模型到Amazon SageMaker?[本文由亚马逊云渠道商[聚搜云] [www.4526.cn]撰写]一、介绍Hugging Fa

Hugging Face 大语言模型亚马逊

朱玲利 2023-08-18

LLM+模仿学习，解决真实世界中的复杂任务：AI2提出SwiftSage

GPT-4等大型语言模型（LLM）在许多推理任务上表现出色，然而，大部分现有研究仅关注静态环境下的任务，如回答问题或解数学题。那么，LLM能否在真实世界中完成复杂的交互式任务呢？进一步地，我们还可以将SwiftSage等模型视为一种利用LLM作为控制器或规划器，用于分解复杂任务并调用API工具。

GPT-4 大语言模型

机器之心Pro 2023-06-15

使用 Hugging Face 微调 Gemma 模型

来自 Google Deepmind 开放权重的语言模型 Gemma 现已通过 Hugging Face 面向更广泛的开源社区开放。该模型提供了两个规模的版本：2B 和 7B 参数，包括预训练版本和经过指令调优的版本。它在 Hugging Face 平台上提供支持，可在 Vertex Model Garden 和 Google Kubernetes Engine 中轻松部署和微调。Gemma 模型系列同样非常适合利用 Colab 提供的免费 GPU 资源进行原型设计和实验。在这篇文章中，我们将简要介绍如何

Hugging Face 谷歌

HuggingFace 2024-02-25

如何使用🤗hugging face的模型库?

🤖 开始你的Hugging Face🤗之旅: 快速上手快速熟悉 Hugging Face 的基本功能，并展示一些简单实用的例子

freecoder 2023-04-24

近期资讯

利泰检测振动在线监测系统：提升设备维护效率与延长设备寿命

在现代工业中，设备的正常运行至关重要，而设备的故障往往会导致停机、生产中断和高昂的维修成本。为了有效避免这种情况，振动监测作为一种重要的预测性维护手段，得到了越来越广泛的应用。利泰检测振动在线监测系统是一种基于持续监测、实时数据上传和智能分析的创新技术，旨在帮助企业全天候监测设备运行状况，提前发现潜在问题，从而减少设备停机时间，延长设备使用寿命。 [图片] 1. 振动监测：设备健康的“诊断仪” 设备的振动数据是反映其运行状态的重要指标。过大的振动往往意味着设备内部存在问题，如轴承磨损、齿轮箱故障或不平衡等

利泰检测 2024-12-26

windows文件夹哪些可以删除？如何查找重复文件夹和空文件夹？一文了解

windows文件夹哪些可以删除？大家使用电脑过程中是不是跟我一样，常常疑惑电脑C盘空间为什么越来越小，随着电脑的时间时长增加，各种软件的安装、更新以及日常的文件操作，使得Windows文件夹变得愈发臃肿杂乱。到底哪些文件夹是可以安全删除的呢？与此同时，我们还常常会发现系统中存在着许多重复的文件夹以及空文件夹，进一步加剧了磁盘的混乱程度。那么，又该如何快速有效地查找并清理这些重复文件夹和空文件夹呢？接下来，我们通过具体的操作，告诉大家应该如何查找重复文件夹、空白文件夹以及哪些文件夹是可以删除的。 wind

江上科技 2024-12-26

网络准入控制系统排名：热门 NAC 解决方案大对比

在网络安全日益受到关注的今天，网络准入控制（NAC, Network Access Control）已成为企业确保数据安全的关键工具。市面上的 NAC 系统种类繁多，各具特色，那么如何选择适合自己企业的方案呢？本文将为您深度解析八款国外热门 NAC 解决方案，助您找到最适合的选择。 [图片] 1. OneNAC 优势与特点：全面设备识别：支持 IoT 设备、BYOD、自带设备等多种终端的精准识别和管理。灵活的认证机制：提供 802.1X、MAC 地址、Web Portal 等多种认证方式，满足复杂接入

安在软件 2024-12-26

从第一台相机到行业巨头，佳能的百年摄影传奇！

说到相机品牌，很多人都会想到佳能。这家拥有百年历史的公司，不仅见证了摄影行业的变迁，还用一代代技术革新改变了摄影的玩法。在重庆摄影培训的课程中，我们常常推荐学员了解佳能的品牌故事，从中汲取摄影的灵感与热情！今天就和树莓教育一起，走进佳能的辉煌发展历程！佳能的起源：从零开始的梦想佳能的故事始于1933年，当时它还是一家默默无闻的小公司。1936年，佳能推出了第一台自主研发的相机Kwanon，这也是日本第一台35mm焦平面快门相机。这个名字源自观音菩萨，寓意守护与智慧，展现了佳能对摄影技术的追求和

重庆树莓教育 2024-12-26

2025年上海虹口区专精特新中小企业认定申请条件及材料流程详解

近年来，上海虹口区大力推动专精特新中小企业的发展，鼓励创新、提升技术实力，致力于为更多优秀企业提供成长的沃土。而“专精特新”是指那些在某一行业中专注于技术创新、产品精细化、服务特色化、管理现代化的中小企业。对于符合条件的企业，获得“专精特新”认定，不仅能够提升企业的行业竞争力，还能够享受到政府在政策扶持、资金补贴等方面的巨大优惠。1.专精特新企业认定的意义“专精特新”企业，意味着企业具备了技术创新、市场前景以及核心竞争力。获得这一认定后，企业将会在人才引进、科技创新、市场拓展等方面获得政策倾斜。

湘应企服 2024-12-26

揭秘：全自动发盘机发餐盘规律一人一次仅发一张餐盘

自动发盘机，也称为智能取餐盘机或自助餐具发放机，是现代食堂和餐饮场所中采用的一项智能化技术。这种设备主要基于数字化、自动化和人工智能技术，旨在提升食堂管理效率和用餐者的体验。以下是自动发盘机的几个关键方面：利物乙自动发盘机，刷脸卡自动发餐盘，取代专人值守发餐盘核心功能与技术智能识别与发放：自动发盘机通过面部识别、IC卡或扫码支付等方式验证身份，随后自动发放餐盘，实现无接触取餐，提高卫生标准。数智化管理平台：与智能就餐管理系统集成，支持灵活的餐补规则设定、智能扣费、多场景消费支持（如线上订餐、外卖等

利物乙智能餐盘机 2024-12-26

LIMS系统在现代实验室中的关键优势与选择策略

一、LIMS系统的主要优势LIMS系统是现代实验室不可或缺的工具，它集合了数据管理、流程优化和法规遵从性等多重优势。1.简化工作流程，提高生产力：LIMS系统通过提供从记录、存储、处理到即时检索的单一窗口患者数据管理，显著简化了实验室工作流程。这降低了对单独人员或资源的需求，从而大幅提升了生产力。2.操作自动化，减少错误：自动化数据存储和处理是LIMS系统的另一大优势。通过计算机笔划直接输入关键样本信息，如来源、日期、时间和收集地点，LIMS系统能够准确追踪样本，减少人为错误。3.确保法规遵从性：在医疗领

白码科技 2024-12-26

怎么把mp4转换成mp3？（视频转音频）收藏着这8款格式转换工具！

怎么把mp4转换成mp3？总所周知，视频mp4、音频mp3格式是非常流行的常见格式。将视频转化为音频，这一项需求的本质就是从录屏、视频、影视剧中提取出音频，将这些人声、背景音乐、乐器声进行二次创作，使得画面呈现更加艺术的效果。除了这些媒体人常常使用的场景外，制作手机铃声、自己录制的博客、短视频的配音素材等等，都经常需要将视频转换为音频，即mp4转mp3。今天小编为了解决这个问题，无损分享8款格式转换工具，帮助我们快速转换不同格式的视频，提取想要的音频mp3素材！怎么把mp4转换成mp3「手机端●如何将m

江右软件 2024-12-26

均价2元的云电脑，竟比上万块的ThinkPad还保值？

说到“商务本”，相信大多数人第一个想到的就是ThinkPad。在90年代，如果你拥有一台ThinkPad笔记本，那派头就堪比拥有一台“大哥大”手机，走在路上你就是整条街的焦点。 [图片] 如今“大哥大”手机已经成为时代的眼泪，但ThinkPad的精彩仍在延续。作为一个已经诞生30多年的品牌，ThinkPad给大家带来过太多惊喜。全球第一款内置打印机的笔记本电脑、全球第一款进入太空的笔记本电脑……ThinkPad以多个第一走在行业前列。 [图片] 大家也许很难说出它的每一款机型，但只要看到黑色、有小红点的笔

ToDesk云电脑 2024-12-26

临床实验室管理软件：优化实验室运营的关键工具

一、临床实验室管理软件在实验室运营中的作用临床实验室管理软件是现代实验室不可或缺的工具，它负责样本编目、标本跟踪、数据存储和安全、设备集成维护以及结果报告等关键任务。通过自动化和集成化，LIMS显著提高了实验室的运营效率和准确性。1.样本分类与跟踪：LIMS能够立即记录患者信息并为样本分配唯一标识符，确保样本在检测过程中的精确跟踪。这种能力对于大型实验室来说尤为重要，因为它们每天需要处理大量样本。2.数据存储与安全：LIMS提供安全的数据存储解决方案，将测试结果存储在云端，消除了本地系统管理成本，并增强了

白码科技 2024-12-26

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2025 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1