微软亚洲研究院宋恺涛：拥抱Agent | Agent Insights

作者：绿洲资本发布时间：2024-03-04

《HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face》

解决问题：利用 ChatGPT 为代表的大模型解决多任务规划问题，同时使 Agent 具备多模态任务解决能力，在细分领域达到专家模型水平

模型架构：利用 ChatGPT 的语言能力对用户需求进行目标拆解，拆分为子任务后，根据 HuggingFace 中的模型描述，利用自身的语言分析能力理解并选择最合适的模型执行子任务

使用效果：能够解决图像识别、姿势检测、文生图、对象检测、图像分类、文生语音等多模态任务，在单一任务、序列任务、图任务、人工标注数据集中验证了 HuggingGPT 的可行性

应用空间：多功能 Agent 及细分领域 Agent，例如 WebAgent、教育 Agent、购物 Agent 等

HuggingGPT任务规划过程

任务规划： 分析用户请求后分解成一系列结构化任务，同时需要分解任务之间的依赖关系和执行顺序，提高 LLM 中的规划效率，进行基于规范的指令和演示的解析 Prompt 设计

1、基于规范的指令： LLM 遵循特定规范解析任务（JSON格式），提供标准化模版，定义参数包括 Task、Id、Dep、Args，分别表示任务名称、唯一标识符、依赖关系、参数

2、基于演示的解析： 更好的理解任务规划的意图和标准，在提示中加入多个演示，每个演示都由一个用户请求及其响应输出组成，代表解析任务的预期顺序，通过整合依赖关系可以理解任务逻辑关系

人类评估标准性能测试

测试结果： 在各类任务中，使用 HuggingGPT 框架的 GPT-3.5 在任务规划方面展现出了突出的规划能力，强于 Alpaca-7b 和 Vicuna-7b，尤其体现在复杂任务（顺序任务和图形任务）中

绿洲：能和我们分享一下您对 Agent 的看法么？

宋老师：Agent 是一个代表未来的理念，很多人认为它是实现 AGI 的前一步。LLM 已经落地了，如何将其能力外推，Agent 就是最直观的应用场景。目前构建的都是“LLM-based Agent”，Agent 现在火爆的原因，就是 LLM 强大的泛化能力被外推到了丰富的细分场景，对包括代码、自动驾驶、教育、在线服务等很多领域确实已经开始，或可预见地改变传统的生产生活方式。

我个人认为当下的 Agent 属于实验性质的探索，大部分还停留在科研层面。大家可以发现，Agent 目前虽然可以实现很多能力，但实际都是人类去定义和要求，甚至都在卷 Prompt Engineering。而真正的 AGI 是需要具有自主思考能力的。但 5-10 年之后，随着 LLM 自身的发展，很多厂商可能自己搭建大模型，私有化，开源和修改，包括化学、生物、物理和其他各种学科上的开放性社区会更多，那时候 Agent 在特定场景下扮演的角色势必会更强。

绿洲：您和团队在 ChatGPT 发布不到 4 个月的时间，就迅速推出了 HuggingGPT，这其中的思考是怎样的呢？

宋老师：在 ChatGPT 刚出来的时候，我们发现它的语言理解和生成能力非常强。这让我们思考如何扩展它的语言能力。因为 ChatGPT 的语言能力如果达到人类水平，那么像人类一样灵活解决其他任务，包括学习、模仿、执行应该都能实现。利用外部资源将大模型本身任务解决能力进一步外推，就像人类大脑，或者计算机操作系统一样。因此，我们团队选择了以机器模型为主的开源库 Hugging Face 作为社区（提供大量免费模型及模型描述），让 ChatGPT 自身去探索并理解用户需求，使用模型解决任务。

这种方式可以让我们摆脱不同任务对大模型的依赖，使其通过利用外部资源、模型、知识强化自身任务解决能力，具备像开源生态一样无限拓宽的社区能力，外推到更广的任务领域并能解决复杂的用户需求，利用工具或者视觉识别等能力扩展 Agent 任务范围。

绿洲：HuggingGPT 的具体步骤是什么？哪一部分最能体现大模型能力呢？

宋老师：HuggingGPT 分为任务规划、模型选择、任务执行、答复生成四个步骤。第一步，利用 ChatGPT 做任务规划，分析任务并进行步骤规划；第二步，根据任务分析结果选择最适合的模型；第三步，通过机器学习执行计算；最后一步将执行结果返回，展现给用户 UI。

整体而言，每个部分都很重要，但最能体现大模型泛化能力的是任务规划。在实际场景中，很多用户指令非常分散，并不会按照规范的模式提问，所以在这一点上尤其依赖大模型的语言泛化和理解能力。ChatGPT 需要将用户指令分解成精准的小任务再进行执行。

人对于任务的规划路线不是唯一的，我们也在构思如何从 Multi-Agent 的角度发展各种任务规划，看哪种路径最优，再进行选择。

绿洲：从长期来看，Agent 需要像人一样的思考，需要拥有持续学习的自我迭代能力。您觉得 Memory 和 RAG（检索增强生成）是 Agent 长期积累学习经验快速迭代的有效方式吗？

宋老师：这都是临时解决方式，并没有从根本解决问题。他们本质上增强了 LLM 的能力，弥补了不足。人虽然有记忆，但他肯定不靠召回机制回答，而是依靠自己大脑记忆结合语言能力构建答案，形成这样的机制需要研究人长期学习的迭代能力。

人的记忆是个数据库，中间有些记忆是硬记忆，有些是软记忆。在收到问题的时候人会停留或者思考，思考过程中构建答案，这种记忆回溯并生成答复的机制是值得研究的。

绿洲：完成 HuggingGPT 研究后，您觉得它最可能的应用空间在哪里？

宋老师：很多细分领域都有应用模型，例如教育、线上购物、社区交互等场景。通过组合各种各样专家模型、工具，Agent 能够非常好的解决细分任务。其实，HuggingGPT 更像一套框架模式，后端可以接很多开源社区，不一定是 Hugging Face。公司最强的护城河是经验和数据，用 Agent 框架把这些数据导入就能形成各种各样垂类 Agent，满足各种应用空间的需求。

绿洲：未来您觉得 HuggingGPT 会有什么进一步的尝试？

宋老师：首先我们会持续构建并对齐更多真实场景数据，希望能够在计算机科学以外的其他领域挖掘更多的开源社区。最后从长远的角度来看，我们会思考如何让 Agent 具备真正像人一样能够持续学习并提升的能力，把这些行为习惯绑定在大模型本身，使 Agent 能力更好地适应真实场景。

绿洲：你对 AGI 的展望是怎样的呢？

宋老师：AGI 本身是很广泛的概念，是长远的目标，其目标是为了对齐人类。我个人觉得在特定场景或者角色中，可以在一定程度上实现。但如果要对齐真实的人类，我还是持观望和怀疑态度。人类有一个很大的特点，就是多样化。在回答一个问题时，不同的人在不同的时刻都会给出不同的答案。当然了，当下 AI 和 LLM 已经开始对人类的使用习惯产生影响，比如有人觉得围棋的棋路已经被 AI 局限了。所以，我们也要学会思考和面对在 AI 的冲击下，如何让人类保持创新的能力？人类是否还能拥有本手、妙手和俗手？

本文来自微信公众号“緑洲资本 Vitalbridge”（ID:Vitalbridge），作者：参赞生命力，36氪经授权发布。