认知架构之路：概念与方式

作者：沧海九粟发布时间：2023-11-29

认知架构（Cognitive Architecture）是通用人工智能研究的一个子集，始于 1950 年代，其最终目标是对人类思维进行建模，这将使我们更接近构建人类水平的人工智能。简单来说，认知架构描述了一个智能体进行思考、获取信息、做出决策等的整体机制与流程。它回答了“一个智能体是如何思考的”这个最核心的问题。

对我们人类来说，大脑的结构及工作方式就是我们特有的认知架构。它让我们可以感知环境，存储记忆，运用知识推理解决问题。对一个人工智能系统而言，研究者也需要为其设计一个类似的认知架构，让其具有获取输入、处理信息、产生输出的能力。

目前最引人瞩目的人工智能系统无疑是大型语言模型（LLM）。它们可通过自然语言进行交互，并在特定领域展现出接近人类专家的智能。但我们不能简单地将 LLM 视为一个完整的智能体。严格意义上，它们只是实现了智能体的“思考推理”这一部分。

要构建一个真正的智能体，我们还需要解决获取输入信息和产生输出这两个问题。这就需要在 LLM 之外，设计一个完整的系统架构，即认知架构。它负责决定如何向 LLM 提供交互性的输入，以及如何处理 LLM 产生的输出。

简而言之，认知架构解决了“上下文输入”和“推理输出”这两个关键问题:

上下文输入：它决定了 LLM 能够感知到的上下文信息，这直接影响到 LLM 的思考和决策质量。上下文输入可以是对话历史、外部知识源、用户特征等。
推理输出：它负责解释和处理 LLM 的输出，将其转化为对用户或环境的实际影响。这可能是显示输出、调用 API、控制机器人等。

可以看出，一个完善的认知架构不仅要包含强大的 LLM 核心，还必须解决输入输出的连接问题。只有做到这两点，才能构建出真正智能、实用的人工智能助手。

近年来，包括 OpenAI 在内的许多公司都在积极构建自己的认知架构方案。我们简要总结了几种主流的方式：

基于对话的认知架构：最简单的方式是与 LLM 通过自然语言对话。我们通过输入对话上下文让 LLM 理解当前状态，LLM 则用对话响应反馈。这种交互方式最为直观，但只适用于仅需要输出文本的场景。
工具型认知架构：为了产生更多样的输出，我们还可以为 LLM 连接各种“工具”，如代码编译器、网页浏览器等。LLM 指挥这些工具采取行动，同时将观察的结果反馈回对话中。这种结构增强了输出的多样性。
链式或状态机式：更复杂的认知架构会设定明确的状态状态转移流程，步骤间相互关联，形成链条或网络。在这样的架构下，LLM 负责在给定状态空间内导航，转移到最优决策。这样可以构建多步决策过程。

可以看出，高质量的认知架构设计对构建强大 AI 系统意义重大。它不仅决定了交互形式和获取环境信息的方式，也决定了如何解析和处理 LLM 的输出，将之转化为对环境的实际影响。

为了得到进一步的自动化，Agent 认知架构（也可称为“代理人”、“智体”架构）也就应运而生了。Agent 认知架构是当前较为先进的一种设计方式，其核心思路是让语言模型自主地像一个代理人一样思考和做决定。具体来说，Agent 认知架构包含这样一个循环: