大型模型智能体：最先进的合作范式、安全与隐私以及未来趋势

作者：中国指挥与控制学会发布时间：2024-10-06

摘要—大型模型智能体（LM agents），由如 GPT-4 和 DALL-E 2 等大型基础模型驱动，代表了实现人工通用智能（AGI）的重要一步。LM 智能体展示了自主性、具身性和连接性等关键特征，使其能够在物理、虚拟和混合现实环境中无缝与人类、其他智能体及周围环境互动。本文提供了对 LM 智能体最前沿技术的全面调查，重点讨论其架构、合作范式、安全性、隐私和未来前景。具体而言，我们首先探讨 LM 智能体的基础原则，包括一般架构、关键组件、使能技术和现代应用。随后，我们从数据、计算和知识的角度讨论 LM 智能体的实际合作范式，以促进其连接智能。此外，我们系统分析了与 LM 智能体相关的安全漏洞和隐私泄露，特别是在多智能体环境中。我们还探讨了其底层机制，并回顾现有和潜在的对策。最后，我们概述了构建稳健和安全的 LM 智能体生态系统的未来研究方向。

关键词—大型模型、人工智能智能体、具身智能、多智能体合作、安全、隐私。

I. 引言

A. 大型模型智能体的背景

在1950年代，艾伦·图灵提出了著名的图灵测试，以评估机器是否能够表现出与人类相当的智能，为人工智能（AI）的发展奠定了基础。这些被称为“智能体”的人工实体，是AI系统的核心组件。一般来说，AI智能体是能够理解并响应人类输入、感知环境、做出决策并在物理、虚拟或混合现实环境中采取行动以实现其目标的自主实体[1]。AI智能体的范围从遵循预定义规则的简单机器人到通过经验学习和适应的复杂自主实体[2]。它们可以是基于软件的或物理实体，能够独立运行或与人类或其他智能体合作。

自20世纪中叶以来，AI智能体的发展取得了显著进展[3]–[5]，如深蓝、AlphaGo和 AlphaZero，如图1所示。尽管取得了这些进展，之前的研究主要集中在精细化专业能力上，如符号推理或在特定任务（如围棋或国际象棋）中表现优异，往往忽视了在AI模型中培养通用能力，如长期规划、多任务泛化和知识保留。创造能够灵活适应广泛任务和复杂环境的AI智能体的挑战仍然在很大程度上未得到探索。为了进一步推动AI智能体的边界，开发强大的基础模型以整合这些关键属性是至关重要的，为下一代AI智能体提供多功能的基础。

LM智能体被视为实现人工通用智能（AGI）的一重要步骤，并广泛应用于网络搜索[16]、推荐系统[17]、虚拟助手[18][19]、元宇宙游戏[20]、机器人技术[21]、自动驾驶汽车[22]和电子设计自动化（EDA）[23]等领域。据MarketsandMarkets[24]报告，2023年全球自主AI和自主智能体市场的估值为480亿美元，预计到2028年将以43%的年均增长率增长，达到285亿美元。LM智能体引起了全球关注，包括Google、OpenAI、Microsoft、IBM、AWS、Oracle、NVIDIA和百度等领先科技巨头正在进入LM智能体行业。

B. LM智能体的路线图和关键特征

图3描绘了LM智能体的未来愿景，其特征为三个关键属性：自主性、具身性和连接性，为实现AGI铺平道路。

自主智能。LM智能体的自主智能指的是它们独立运行的能力，能够在没有持续人类输入的情况下主动做出决策。如图2(a)所示，LM智能体可以维护一个内部记忆，随着时间的推移积累知识，以指导未来的决策和行动，使其能够在动态环境中持续学习和适应[25]。此外，LM智能体可以自主利用各种工具（例如，搜索引擎和外部API）收集信息或创建新工具来处理复杂任务[26]。通过与人类或其他智能体合作或竞争，LM智能体可以有效提升其决策能力[27]。
具身智能。尽管近年来取得了一些进展，LM通常被动地响应人类在文本、图像或多模态领域的命令，而不直接与物理世界互动[7]。而具身智能体可以主动感知和作用于其环境，无论是数字、机器人还是物理环境，使用传感器和执行器[21][25]。向LM赋能的智能体的转变涉及创建能够理解、学习和解决现实世界挑战的具身AI系统。如图2(b)所示，LM智能体主动与环境互动，并根据实时反馈调整行动。例如，一台负责清洁的家庭机器人LM智能体可以通过分析房间布局、表面类型和障碍物来生成量身定制的策略，而不仅仅是遵循通用指令。
连接智能。连接的LM智能体超越了单个智能体的能力，在应对复杂的现实任务中发挥关键作用[28]。例如，在自动驾驶中，作为LM智能体的连接自动驾驶汽车共享实时传感数据，协调运动，并在交叉路口协商通行，以优化交通流量并提高安全性。如图3所示，通过将众多LM智能体互联成“LM智能体互联网”，连接的LM智能体可以自由分享感知数据和任务导向知识。通过充分利用各种专业LM的计算能力，它促进了合作决策和集体智能。因此，跨数据、计算和知识领域的协作增强了各个智能体的性能和适应性。此外，这些互动使得LM智能体能够形成社会联系和属性，助力智能体社会的发展[29][30]。

C. 保障连接LM智能体的动机

尽管LM智能体的未来光明，但安全和隐私问题仍然是其广泛采用的重大障碍。在LM智能体的整个生命周期中，可能会出现多种漏洞，从对抗样本[31]、智能体中毒[32]、LM幻觉[33]到普遍的数据收集和记忆[34]。

安全漏洞。LM智能体容易出现“幻觉”，即其基础LM生成似是而非但不符合现实的输出[33]。在多智能体环境中，幻觉现象可能传播错误信息，损害决策，导致任务失败，并对物理实体和人类构成风险。此外，维护用于训练和推理的感知数据和提示的完整性和真实性至关重要，因为偏见或受损的输入可能导致不准确或不公平的结果[35]。诸如对抗性操控[31]、中毒[36]和后门[37]等攻击进一步威胁LM智能体，允许恶意行为者操控输入并欺骗模型。在协作环境中，智能体中毒行为[32]，即恶意智能体破坏其他智能体的行为，可能破坏协作系统。此外，将LM智能体集成到网络物理社会系统（CPSS）中，扩大了攻击面，使对手能够利用互联系统中的漏洞。
隐私泄露。LM智能体广泛的数据收集和记忆过程带来了严重的数据泄露和未经授权访问的风险。这些智能体通常处理大量个人和敏感的商业信息，涉及面向消费者（ToC）和面向企业（ToB）应用，增加了对数据存储、处理、共享和控制的担忧[38]。此外，LMs可能无意中记住训练数据中的敏感细节，可能在互动过程中暴露私人信息[34]。在多智能体合作中，隐私风险进一步加剧，LM智能体在通信和任务执行过程中可能无意中泄露有关用户、其他智能体或其内部操作的敏感信息。

D. 相关调查与贡献

现有的LM智能体调查主要集中在单个LLM智能体和多智能体系统的一般框架设计及其在特定应用中的潜力上。本综述不同于上述现有调查，重点关注LM智能体的网络方面，包括一般架构、启用技术和合作范式，以构建在物理、虚拟或混合现实环境中联网的LM智能体系统。此外，随着LM智能体的进展，研究它们在未来AI智能体系统中的安全性和隐私性变得迫在眉睫。本研究全面回顾了LM智能体的安全和隐私问题，并讨论了现有和潜在的防御机制，这些内容在现有调查中常被忽视。表I比较了本调查与LM智能体领域先前相关调查的贡献。
在本文中，我们系统性地回顾了单个和连接的LM智能体的最新进展，重点关注安全和隐私威胁、现有和潜在的对策以及未来趋势。我们的调查旨在：1）提供对LM智能体如何工作以及如何在多智能体场景中互动的更广泛理解；2）审视与LM智能体及其互动相关的安全和隐私挑战的范围和影响；3）强调有效的策略和解决方案，以防御这些威胁，保护LM智能体在各种智能应用中的安全。该工作的主要贡献有四个方面：
我们全面回顾了LM智能体构建的最新进展，包括一般架构、关键组件（即规划、记忆、行动、互动和安全模块）以及启用技术。还讨论了LM智能体的工业原型和潜在应用。
我们系统地对LM智能体的互动模式（即智能体-智能体、智能体-人类和智能体-环境互动）及其互动类型（即合作、部分合作和竞争）进行了分类。我们探讨了LM智能体在数据合作、计算合作和知识合作方面的实际合作范式。
我们全面分析了现有和潜在的安全和隐私威胁、其基本机制、分类及单个和连接的LM智能体面临的挑战。我们还回顾了最新的对策，并检验其在保护LM智能体方面的可行性。
最后，我们讨论了开放的研究问题，并从能源高效和绿色LM智能体、公平和可解释的LM智能体、网络物理社会安全智能体系统、智能体生态系统的价值网络等角度指出未来的研究方向，旨在提升LM智能体的效率和安全性。

E. 论文组织

本文其余部分组织如下。第二节讨论单个LM智能体的工作原理，第三节介绍连接LM智能体的合作范式。第四节和第五节分别介绍LM智能体的安全和隐私威胁的分类，以及最新的对策。第六节概述LM智能体领域的开放研究问题和未来方向。最后，第七节给出结论。图4描绘了本综述的组织结构。

II. 大型模型智能体：工作原理

在本节中，我们首先介绍现有的LM智能体标准。然后，讨论连接LM智能体的一般架构，包括关键组件、通信模式、主要特征和启用技术。接下来，介绍典型原型并讨论LM智能体的现代应用。

LM智能体的操作系统（OS）：根据[45]，[46]，LM智能体的操作系统架构由三层组成：应用层、内核层和硬件层。

应用层承载智能体应用（如旅行、编码和机器人智能体），并提供抽象系统调用的SDK，简化智能体开发。
内核层包括普通的操作系统内核和额外的LM智能体内核，重点在于不改变原始操作系统结构。LM智能体内核中的关键模块包括任务规划和优先级调度的智能体调度器、LM状态管理的上下文管理器、短期数据的记忆管理器、长期数据保留的存储管理器、外部API交互的工具管理器，以及隐私控制的访问管理器。
硬件层包含物理资源（CPU、GPU、内存等），通过操作系统系统调用间接管理，因为LM内核不直接与硬件交互。

LM智能体的构建模块：根据[1]，[8]–[10]，LM智能体一般有五个构建模块：规划、行动、记忆、互动和安全模块（详细见节II-C）。这些模块共同使LM智能体能够高效、安全地感知、规划、行动、学习和互动于复杂动态环境中。

通过大型模型，规划模块利用记忆模块生成策略和行动计划，实现知情决策[7]，[10]。
行动模块执行这些具体的行动，根据实时环境反馈调整行动，以确保上下文适当的响应[9]，[42]。
记忆模块作为累积知识（如过去经验和外部知识）的存储库，促进持续学习和改进[10]。
互动模块使智能体与人类、其他智能体和环境之间实现有效的沟通与协作。
安全模块贯穿于LM智能体的操作中，确保主动防护威胁并维护数据和过程的完整性和机密性。

LM智能体的引擎：LM智能体的引擎由一系列前沿技术驱动，包括大型基础模型、知识相关技术、互动、数字双胞胎和多智能体协作（详细见节II-D）。

知识相关技术通过整合知识图谱、知识库和RAG系统增强LM智能体，使其能够访问、利用和管理大量外部知识源，确保知情和上下文相关的行动[47]。
HMI技术通过自然语言处理、多模态接口以及增强/虚拟/混合现实（AR/VR/MR）实现人类与智能体之间的无缝互动，促进动态和自适应的交互[48]。
数字双胞胎技术通过智能体内部的通信实现物理身体和数字大脑之间的数据和状态的高效同步[49]。
多智能体协作技术使LM智能体能够高效协同工作，分享数据、资源和任务，通过智能体间的通信制定合作、竞争和合作竞争策略，解决复杂问题[28]。

LM智能体的通信模式：每个LM智能体由两个部分组成：（i）位于云端、边缘服务器或终端设备的LM赋能大脑，以及（ii）相应的物理身体，如自主车辆。每个LM智能体可以主动与其他LM智能体、虚拟/现实环境和人类互动。对于连接的LM智能体，存在两种典型的通信模式：内部通信用于智能体内大脑与物理身体之间的无缝数据/知识同步，外部通信则用于LM智能体之间的高效协调。表III总结了这两种通信模式的比较。

内部通信是指单个LM智能体内部的数据/知识交换。这种通信确保LM智能体的不同组件（包括规划、行动、记忆、互动和安全模块）协同工作。例如，LM智能体通过其物理身体收集多模态感知数据，然后将解释的信息传达给LM赋能的大脑。大脑中的规划模块制定响应或行动计划，随后由行动模块执行。这种信息的无缝流动对于维持LM智能体在实时动态场景中的功能性、一致性和响应性至关重要。
外部通信涉及多个LM智能体之间的信息和知识交换。它促进了智能体之间的协同任务分配、资源共享和协调行动，推动集体智能的发展。例如，在智能城市应用中，管理交通信号灯、公共交通和应急服务的各种LM智能体共享实时数据，以优化城市流动性和安全性。有效的外部通信依赖于标准化协议，以确保兼容性和互操作性，从而促进LM智能体网络的高效和同步操作。

人类世界与LM智能体之间的信息流：人类通过自然语言、移动智能设备和可穿戴技术与LM智能体互动，使LM智能体能够理解人类指令并有效解决现实问题。LM智能体反过来从人类输入中获取新知识和数据，帮助其持续改进和学习。这一持续更新和优化模型的过程，使LM智能体能够提供越来越准确和有用的信息。在AR和VR环境中，LM智能体能够在虚拟场景中与人类用户协作，如建筑设计，提升整体效率和创造力[50]。
物理世界与LM智能体之间的信息流：得益于数字双胞胎技术，LM智能体能够在其物理身体和数字大脑之间同步数据和状态，形成无缝互动循环。LM智能体还可以监控并对环境的实时输入作出反应。这种双向同步使LM智能体能够以高精度和响应性感知和应对其周围环境，无论是虚拟还是现实，从而弥合数字与物理领域之间的差距。通过不断从环境反馈中学习，LM智能体能够积累知识并理解物理法则，从而解决复杂的现实世界问题。这一迭代学习过程确保LM智能体不仅对即时刺激作出反应，还能随着时间推移不断优化其具体行动，达到更复杂和有效的解决方案。
网络世界与LM智能体之间的信息流：在网络世界中，LM智能体通过高效的云-边缘网络连接到LM智能体互联网，促进无缝数据和知识共享，推动多智能体协作。通过在云和边缘基础设施中部署大型模型，LM智能体能够利用云和边缘计算的优势，优化性能和响应能力[51]。云提供强大的计算能力和存储，支持处理大量数据和训练复杂模型。同时，边缘提供接近数据源的实时数据处理能力，减少延迟，确保及时决策。在LM智能体互联网中，LM智能体可以实时共享数据、知识和学习经验，构建一个跨多个领域的强大自适应智能网络。例如，在智能城市中，分布在不同位置的具身LM智能体可以通过共享实时数据和协调行动，协作优化交通流、管理能源资源并增强公共安全。

本文来源：专知智能防务

关注公众号了解更多

会员申请请在公众号内回复“个人会员”或“单位会员

欢迎关注中国指挥与控制学会媒体矩阵

CICC官方抖音

CICC头条号

CICC微博号

CICC官方网站

CICC官方微信公众号

《指挥与控制学报》官网

国际无人系统大会官网

中国指挥控制大会官网

全国兵棋推演大赛

全国空中智能博弈大赛

搜狐号

一点号

大型模型智能体：最先进的合作范式、安全与隐私以及未来趋势

推荐体验

相关资讯

大型模型智能体：最先进的合作范式、安全与隐私以及未来趋势

「破碎混凝土机器大揭秘：探索最先进的技术与未来发展」

StarCoder: 最先进的代码大模型

Ollama + Openwebui 本地部署大型模型与交互式可视化聊天

ChatGPT 未来的前景以及发展趋势

近期资讯

曝高合汽车开启发放和解金：员工吐槽工龄越久损失越大

雪地靴又上热搜！经常穿真的很伤脚医生紧急提醒

从支付宝宠己到蚂蚁保健康险：探秘年轻人宠爱自己的新方式

第50000台小鹏MONA M03量产下线：当前每72秒可生产一台

电车销量超油车！机构感慨：中国正遥遥领先于西方

机动车新规明年实施：大中型客货车准驾年龄延长 63岁+3

男子花22万买二手车故意开进鱼塘骗保结果被自己手机出卖

中国发现最小的猫科动物化石：一只手就能捧起来

起底无创测血糖手表骗局：毛巾竟能测出血糖值

中国新一代地铁今日开跑：复兴号“兄弟”

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响