《HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face》
解决问题:利用 ChatGPT 为代表的大模型解决多任务规划问题,同时使 Agent 具备多模态任务解决能力,在细分领域达到专家模型水平
模型架构:利用 ChatGPT 的语言能力对用户需求进行目标拆解,拆分为子任务后,根据 HuggingFace 中的模型描述,利用自身的语言分析能力理解并选择最合适的模型执行子任务
使用效果:能够解决图像识别、姿势检测、文生图、对象检测、图像分类、文生语音等多模态任务,在单一任务、序列任务、图任务、人工标注数据集中验证了 HuggingGPT 的可行性
应用空间:多功能 Agent 及细分领域 Agent,例如 WebAgent、教育 Agent、购物 Agent 等
HuggingGPT任务规划过程
任务规划: 分析用户请求后分解成一系列结构化任务,同时需要分解任务之间的依赖关系和执行顺序,提高 LLM 中的规划效率,进行基于规范的指令和演示的解析 Prompt 设计
1、基于规范的指令: LLM 遵循特定规范解析任务(JSON格式),提供标准化模版,定义参数包括 Task、Id、Dep、Args,分别表示任务名称、唯一标识符、依赖关系、参数
2、基于演示的解析: 更好的理解任务规划的意图和标准,在提示中加入多个演示,每个演示都由一个用户请求及其响应输出组成,代表解析任务的预期顺序,通过整合依赖关系可以理解任务逻辑关系
人类评估标准性能测试
测试结果: 在各类任务中,使用 HuggingGPT 框架的 GPT-3.5 在任务规划方面展现出了突出的规划能力,强于 Alpaca-7b 和 Vicuna-7b,尤其体现在复杂任务(顺序任务和图形任务)中
绿洲:能和我们分享一下您对 Agent 的看法么?
宋老师:Agent 是一个代表未来的理念,很多人认为它是实现 AGI 的前一步。LLM 已经落地了,如何将其能力外推,Agent 就是最直观的应用场景。目前构建的都是“LLM-based Agent”,Agent 现在火爆的原因,就是 LLM 强大的泛化能力被外推到了丰富的细分场景,对包括代码、自动驾驶、教育、在线服务等很多领域确实已经开始,或可预见地改变传统的生产生活方式。
我个人认为当下的 Agent 属于实验性质的探索,大部分还停留在科研层面。大家可以发现,Agent 目前虽然可以实现很多能力,但实际都是人类去定义和要求,甚至都在卷 Prompt Engineering。而真正的 AGI 是需要具有自主思考能力的。但 5-10 年之后,随着 LLM 自身的发展,很多厂商可能自己搭建大模型,私有化,开源和修改,包括化学、生物、物理和其他各种学科上的开放性社区会更多,那时候 Agent 在特定场景下扮演的角色势必会更强。
绿洲:您和团队在 ChatGPT 发布不到 4 个月的时间,就迅速推出了 HuggingGPT,这其中的思考是怎样的呢?
宋老师:在 ChatGPT 刚出来的时候,我们发现它的语言理解和生成能力非常强。这让我们思考如何扩展它的语言能力。因为 ChatGPT 的语言能力如果达到人类水平,那么像人类一样灵活解决其他任务,包括学习、模仿、执行应该都能实现。利用外部资源将大模型本身任务解决能力进一步外推,就像人类大脑,或者计算机操作系统一样。因此,我们团队选择了以机器模型为主的开源库 Hugging Face 作为社区(提供大量免费模型及模型描述),让 ChatGPT 自身去探索并理解用户需求,使用模型解决任务。
这种方式可以让我们摆脱不同任务对大模型的依赖,使其通过利用外部资源、模型、知识强化自身任务解决能力,具备像开源生态一样无限拓宽的社区能力,外推到更广的任务领域并能解决复杂的用户需求,利用工具或者视觉识别等能力扩展 Agent 任务范围。
绿洲:HuggingGPT 的具体步骤是什么?哪一部分最能体现大模型能力呢?
宋老师:HuggingGPT 分为任务规划、模型选择、任务执行、答复生成四个步骤。第一步,利用 ChatGPT 做任务规划,分析任务并进行步骤规划;第二步,根据任务分析结果选择最适合的模型;第三步,通过机器学习执行计算;最后一步将执行结果返回,展现给用户 UI。
整体而言,每个部分都很重要,但最能体现大模型泛化能力的是任务规划。在实际场景中,很多用户指令非常分散,并不会按照规范的模式提问,所以在这一点上尤其依赖大模型的语言泛化和理解能力。ChatGPT 需要将用户指令分解成精准的小任务再进行执行。
人对于任务的规划路线不是唯一的,我们也在构思如何从 Multi-Agent 的角度发展各种任务规划,看哪种路径最优,再进行选择。
绿洲:从长期来看,Agent 需要像人一样的思考,需要拥有持续学习的自我迭代能力。您觉得 Memory 和 RAG(检索增强生成)是 Agent 长期积累学习经验快速迭代的有效方式吗?
宋老师:这都是临时解决方式,并没有从根本解决问题。他们本质上增强了 LLM 的能力,弥补了不足。人虽然有记忆,但他肯定不靠召回机制回答,而是依靠自己大脑记忆结合语言能力构建答案,形成这样的机制需要研究人长期学习的迭代能力。
人的记忆是个数据库,中间有些记忆是硬记忆,有些是软记忆。在收到问题的时候人会停留或者思考,思考过程中构建答案,这种记忆回溯并生成答复的机制是值得研究的。
绿洲:完成 HuggingGPT 研究后,您觉得它最可能的应用空间在哪里?
宋老师:很多细分领域都有应用模型,例如教育、线上购物、社区交互等场景。通过组合各种各样专家模型、工具,Agent 能够非常好的解决细分任务。其实,HuggingGPT 更像一套框架模式,后端可以接很多开源社区,不一定是 Hugging Face。公司最强的护城河是经验和数据,用 Agent 框架把这些数据导入就能形成各种各样垂类 Agent,满足各种应用空间的需求。
绿洲:未来您觉得 HuggingGPT 会有什么进一步的尝试?
宋老师:首先我们会持续构建并对齐更多真实场景数据,希望能够在计算机科学以外的其他领域挖掘更多的开源社区。最后从长远的角度来看,我们会思考如何让 Agent 具备真正像人一样能够持续学习并提升的能力,把这些行为习惯绑定在大模型本身,使 Agent 能力更好地适应真实场景。
绿洲:你对 AGI 的展望是怎样的呢?
宋老师:AGI 本身是很广泛的概念,是长远的目标,其目标是为了对齐人类。我个人觉得在特定场景或者角色中,可以在一定程度上实现。但如果要对齐真实的人类,我还是持观望和怀疑态度。人类有一个很大的特点,就是多样化。在回答一个问题时,不同的人在不同的时刻都会给出不同的答案。当然了,当下 AI 和 LLM 已经开始对人类的使用习惯产生影响,比如有人觉得围棋的棋路已经被 AI 局限了。所以,我们也要学会思考和面对在 AI 的冲击下,如何让人类保持创新的能力?人类是否还能拥有本手、妙手和俗手?
本文来自微信公众号“緑洲资本 Vitalbridge”(ID:Vitalbridge),作者:参赞生命力,36氪经授权发布。
绿洲资本 2024-07-29
皕赫国际18001942024 2024-12-20