认知架构(Cognitive Architecture)是通用人工智能研究的一个子集,始于 1950 年代, 其最终目标是对人类思维进行建模 ,这将使我们更接近构建人类水平的人工智能。简单来说,认知架构描述了一个智能体进行思考、获取信息、做出决策等的整体机制与流程。它回答了“一个智能体是如何思考的”这个最核心的问题。
对我们人类来说,大脑的结构及工作方式就是我们特有的认知架构。它让我们可以感知环境,存储记忆,运用知识推理解决问题。对一个人工智能系统而言,研究者也需要为其设计一个类似的认知架构,让其具有获取输入、处理信息、产生输出的能力。
目前最引人瞩目的人工智能系统无疑是大型语言模型(LLM)。它们可通过自然语言进行交互,并在特定领域展现出接近人类专家的智能。但我们不能简单地将 LLM 视为一个完整的智能体。严格意义上,它们只是实现了智能体的“思考推理”这一部分。
要构建一个真正的智能体,我们还需要解决获取输入信息和产生输出这两个问题。这就需要在 LLM 之外,设计一个完整的系统架构,即认知架构。它负责决定如何向 LLM 提供交互性的输入,以及如何处理 LLM 产生的输出。
简而言之,认知架构解决了“上下文输入”和“推理输出”这两个关键问题:
上下文输入:它决定了 LLM 能够感知到的上下文信息,这直接影响到 LLM 的思考和决策质量。上下文输入可以是对话历史、外部知识源、用户特征等。
推理输出:它负责解释和处理 LLM 的输出,将其转化为对用户或环境的实际影响。这可能是显示输出、调用 API、控制机器人等。
可以看出,一个完善的认知架构不仅要包含强大的 LLM 核心,还必须解决输入输出的连接问题。只有做到这两点,才能构建出真正智能、实用的人工智能助手。
近年来,包括 OpenAI 在内的许多公司都在积极构建自己的认知架构方案。我们简要总结了几种主流的方式:
基于对话的认知架构:最简单的方式是与 LLM 通过自然语言对话。我们通过输入对话上下文让 LLM 理解当前状态,LLM 则用对话响应反馈。这种交互方式最为直观,但只适用于仅需要输出文本的场景。
工具型认知架构:为了产生更多样的输出,我们还可以为 LLM 连接各种“工具”,如代码编译器、网页浏览器等。LLM 指挥这些工具采取行动,同时将观察的结果反馈回对话中。这种结构增强了输出的多样性。
链式或状态机式:更复杂的认知架构会设定明确的状态状态转移流程,步骤间相互关联,形成链条或网络。在这样的架构下,LLM 负责在给定状态空间内导航,转移到最优决策。这样可以构建多步决策过程。
可以看出,高质量的认知架构设计对构建强大 AI 系统意义重大。它不仅决定了交互形式和获取环境信息的方式,也决定了如何解析和处理 LLM 的输出,将之转化为对环境的实际影响。
为了得到进一步的自动化,Agent 认知架构(也可称为“代理人”、“智体”架构)也就应运而生了。Agent 认知架构是当前较为先进的一种设计方式,其核心思路是让语言模型自主地像一个代理人一样思考和做决定。具体来说,Agent 认知架构包含这样一个循环:
从用户或环境中获取输入;
将输入和当前的状态作为提示送入大语言模型;
语言模型会产生一个决策,比如需要调用工具、进行检索等;
将语言模型的输出转化为具体操作,并观察执行的结果;
将上一步的操作和观察结果反馈给语言模型作为新状态;
回到第 2 步,进入新一轮决策。
这个循环充分利用了大语言模型根据当前状态自主做决定的能力。语言模型自己决定下一步操作,职责更加独立,也更加主动。这类似于人类代理人分析当前环境,自主决定下一步计划的工作方式。
这种高度自治的架构方式非常符合构建通用 AI 的目标。它减少了外部系统的导向和约束,让语言模型基于自己的理解来推理、计划和解决问题。从理想状态来说,这使得语言模型的行为更加智能和人类化。
但是,Agent 架构也面临一定的难题:
自治程度高了,可解释性就较差,用户和开发者难以预测和控制整个流程。
如果语言模型自己的决策存在错误,后果也会更严重。没有外部系统校验和纠正。
长时间运行稳定性较差,容易积累状态导致失败。
所以这是一个典型的“高风险高收益”的设计选择。它代表了实现通用 AI 的未来方向,但实际落地仍面临调优空间。
OpenAI 等公司正积极推动这种 Agent 架构范式,例如推出了 GPTs 和 Assistants API。而开源社区如 LangChain,则更强调在此基础上增加外部控制,构建混合智能系统。这也引发了认知架构设计的开源与闭源两个不同发展思路,我们会在后文进一步讨论,请继续关注!