当前位置:首页|资讯

【万字长文】数字员工、超级个体、具身智能,AI Agent未来发展十大研究方向

作者:互联网演义厅发布时间:2024-11-15

数字员工、超级个体、具身智能与AI Agent有什么关系?一文看懂

【万字长文】数字员工、超级个体、具身智能,AI Agent未来发展十大研究方向

你知道吗,正在热议的具身智能和超级个体皆与AI Agent关系密切

频上重磅趋势报告的AI Agent,与超级个体、具身智能有什么关系?

AI Agent十大研究方向,正在热议的数字员工、超级个体、具身智能都在其中

深度认知数字员工、超级个体、具身智能,你可能需要先了解AI Agent

文/王吉伟

最近发布的几个关于2024趋势的重磅报告,无一例外都提到了AI Agent。

埃森哲在《技术展望2024》报告中指出,96%的企业高管认为AI Agent生态系统应用将在未来3年内为他们的组织带来重大机遇。

报告认为,随着人工智能向智能体演进,自动化系统将能够自主决策和行动。智能体不仅会为人类提供建议,还将代表人类采取行动。人工智能将继续生成文本、图像和洞察,而AI Agent将自行决定如何处理这些信息。

当智能体升级成人类的同事后,就需要人类与智能体一起重新构建技术和人才的未来。

IDC《AIGC应用层十大趋势》报告中调研表明,所有企业都认为AI Agent是AIGC发展的确定性方向,50%的企业已经在某项工作中进行了AI Agent的试点,另有34%的企业正在制定AI Agent的应用计划。

这个报告,也对AI Agent发展趋势做了两点预测:

  • AI Agent让“人机协同”成为新常态,个人与企业步入AI 助理时代。AI Agent能够帮助未来企业构建以“人机协同”为核心的智能化运营新常态。
  • AI Agent变革未来生产力的组织形式,对抗组织熵增。未来企业工作任务将在AIGC的助推作用下变得日益原子化和碎片化,复杂的流程将被无限拆解,再进行灵活的编排和组合,每个环节的效能和潜力都将被AI持续挖掘。从供给端看,“人+AI数字员工”的高效协同模式将为大型企业对抗组织熵增提供理想的解法。

而在腾讯发布的《2024数字科技前沿应用趋势》中,“多模态智能体加速AGI进程”被列为第二大趋势。

该报告认为,通用人工智能渐行渐近,大模型走向多模态,AI智能体(Agent)有望成为下一代平台;端侧大模型加速部署,或将成为未来交互新入口。AI在数学推理、新药研发、材料发现、蛋白质合成等领域大显身手, "AI科学家"有望加速问世。

这三个报告,一方面预测了AI Agent的未来发展趋势,另一方面也同时提及了多模态大模型、数字员工、具身智能等一系列概念。

其中IDC给出的新型数字员工概念,与AI Agent有了非常强的关联。此外该报告中所提到的“一个人加上足够的AI工具,就可以成为一家专业化公司”的Agent应用,也指向了当前正在热议的超级个体。

事实上,AI Agent不只关联了两个概念,还催生了更多的研究方向。那么,数字员工和超级个体与AI Agent有什么关联?具身智能与AI Agent有什么关系?AI Agent都有哪些研究方向?

本文,王吉伟频道就与大家聊聊这些。

注:本文提到的相关研报及论文资源,后台回复 方向 获取。)

研究方向一:基于大型语言模型的AI Agent

大语言模型(Large Language Models,LLM)是一种使用人工神经网络构建的基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。

2023年,大语言模型及其在人工智能领域的应用已成为全球科技研究的热点,其在规模上的增长尤为引人注目,参数量已从最初的十几亿跃升到如今的一万亿。

参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处,更加深入地理解人类语言的复杂性。

在过去的一年里,大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟,它将不断拓展其应用范围,为人类提供更加智能化和个性化的服务,进一步改善人们的生活和生产方式。

大语言模型的浪潮推动了AI Agent 相关研究快速发展,AI Agent是当前通往 AGI 的主要探索路线。

大模型庞大的训练数据集中包含了大量人类行为数据,为模拟类人的交互打下了坚实基础;另一方面,随着模型规模不断增大,大模型涌现出了上下文学习能力、推理能力、思维链等类似人类思考方式的多种能力。

LLM提供了AI Agent的新基座,自动化和拟人化是两大方向。大语言模型庞大的训练数据集中包含了大量人类行为数据,为模拟类人的交互打下了坚实基础;另一方面,随着模型规模不断增大,大模型涌现出了上下文学习能力、推理能力、思维链等类似人类思考方式的多种能力。

将大模型作为 AI Agent 的核心大脑,就可以实现以往难以实现的将复杂问题拆解成可实现的子任务、类人的自然语言交互等能力。由于大模型仍存在大量的问题如幻觉、上下文容量限制等,通过让大模型借助一个或多个Agent的能力,构建成为具备自主思考决策和执行能力的智能体,成为了当前通往AGI的主要研究方向。

在AGI时代到来之前,AI Agent的能力的极限将主要受其大脑也就是LLM的影响,可以说LLM决定了Agent在未来的普及与应用。

因此,基于LLM的AI Agent,将是人们长期研究的方向。

研究方向二:AI Agent构建、应用与评估

这是AI Agent研究的主要方向。

构建AI Agent需要深入理解其核心技术,包括LLM、记忆、规划技能和工具使用能力。AI Agent的应用领域非常广泛,包括游戏、个人助理、情感陪伴等。

评估AI Agent的性能是研究的重要部分,需要考虑如何在零样本条件下评估其通用语言理解和推理能力。

AI Agent的构建、应用和评估,都是人工智能研究的重要部分。

AI Agent构建

AI Agent的构建主要包括四个部分:大模型、规划、记忆和工具使用。

大模型:大模型(如GPT-4及文心一言、通义千问等)作为AI Agent的“大脑”,提供推理、规划等能力。

规划:代理能够将大型任务分解为更小的、可管理的子目标,从而更好地处理复杂任务。

记忆:AI代理具备长时间保留和回忆信息的能力,通常通过利用外部向量存储和快速检索实现。

工具使用:代理学习调用外部 API 以获取模型权重中缺失的额外信息,包括当前信息、代码执行能力、对专有信息源的访问等。

这四个模块与AI Agent能力的提升息息相关,接下来会有很多组织投入大量且持续的研究工作,以提升AI Agent能力的应用与普及速率。

AI Agent应用

AI Agent在多个领域都有应用,包括但不限于教育、游戏、网络购物和网页浏览等。比如在教育领域,AI代理提供个性化、智能化和高效化的服务,优化学习体验。

关于AI Agent在各领域的的应用,本书将在第二部分展开探讨。

AI Agent评估

评估AI Agent是一项很大的挑战,需要量化和客观地衡量其智能水平。图灵测试是一种常见的评估方法,用于评估人工智能系统是否表现出类似人类的智能。

此外,还有专门的基准测试,如AgentBench,用于评估LLMs作为智能体在各种真实世界挑战和不同环境中的表现。接下来将会有更多的基准测试面向Agent的各个环节,以促进Agent生态的良性发展与生态完善。

研究方向三:多智能体系统

多智能体系统(Multi-Agent Systems, MAS)是由多个互相协作或竞争的自治智能体组成的系统,旨在通过集体行为解决复杂问题。在MAS中,每个智能体都具有一定程度的自主性,并能够感知环境、作出决策,并与其他智能体交互。

智能体可以执行多种任务,其具体性质取决于系统的目标和应用领域。智能体的主要任务通常包括感知环境、处理信息、作出决策,并与其他智能体交互以实现共同的目标。

多智能体系统是人工智能的一个重要分支,它研究如何设计和实现多个智能体之间的协作和竞争的机制和方法。它具有以下特点:

1、由多个自治的、互动的、异构的智能体组成,每个智能体都有自己的目标、行为、信念和偏好,同时也受到环境的影响和约束。

2、目标是实现智能体之间的协作和竞争的平衡,使得每个智能体都能达到自己的目标,同时也能促进整个系统的性能和效益。

3、难点是如何处理智能体之间的复杂的交互和协调,如何解决智能体之间的冲突和矛盾,如何评估智能体的表现和进步,如何接受人类的反馈和指导,如何遵守人类的伦理和法律等。

多智能体协作系统(Multi-Agent Collaboration Systems,MACS)是一种特殊的多智能体系统,其目标是使多个智能体能够有效地协作,以实现一些超出单个智能体能力范围的任务。

Agent可以以协作或竞争的方式相互交互。这使他们能够通过团队合作或对抗性互动来实现进步。在这些系统中,Agent可以共同完成复杂的任务或相互竞争以提高其性能。

比如用于模拟和优化交通、能源、物流等领域的复杂系统,也可以用于设计和实现智能家居、智能城市、智能工厂等应用场景。

多智能体协作系统的核心挑战是如何实现智能体之间的协作和竞争的平衡,以及如何使智能体能够根据不同的任务和角色进行自适应和学习。

近年来,随着深度学习、强化学习、自然语言处理等技术的发展,多智能体协作系统的研究也取得了一些重要的进展和突破。

例如,CAMEL是一个首个大模型多智能体框架,它可以让多个智能体在一个共享的环境中进行协作和竞争的学习,同时也可以让智能体之间进行自然语言的交流和协商。CAMEL已经在NeurIPS 2023上斩获了3.6k星,展示了多智能体协作系统的巨大潜力和前景。

另外,还有一些具有代表性的多智能体协作系统,如OpenAI Five、AlphaStar、DeepMind Quake III Arena Capture the Flag等,它们分别在DOTA 2、星际争霸II、雷神之锤III等游戏中,展示了超越人类水平的协作和竞争的能力。

多智能体系统是人工智能的一个前沿和热点的研究领域,涉及到多个学科和领域,如计算机科学、数学、经济学、心理学、社会学、生物学等。

其研究和应用对于理解人类智能的本质和机制,提高人工智能的水平和能力,解决人类社会的各种问题,都具有重要的意义和价值。

研究方向四:自主智能体

在人工智能领域,自主智能体(Autonomous Agent)是指能够在环境中感知、学习和执行动作的智能实体。这种实体具有自主性,即它能够独立地做出决策和行动,而无需人为干预。

自主智能体具备自主决策和行动能力,能够在给定的环境中自主地感知、学习和做出决策,以实现特定的目标。自主智能体能够根据环境的变化和反馈信息,不断地适应和改进自己的行为,从而实现更好的性能和效果。

它通常被设计成具备对环境的感知能力,能够根据感知到的信息做出理性的决策,并执行相应的动作以达到特定的目标。在实现自主性的过程中,机器学习和深度学习等技术发挥了关键作用。

自主智能体的设计和实现涉及多个方面,包括但不限于机器学习、自然语言处理、计算机视觉等AI技术的综合运用。

它们被设计用于执行各种不同的任务,如管理社交媒体账户、投资市场、制作儿童读物等,甚至在一些情况下,它们可以帮助人们释放时间去做更有创造性的事情。

其研究价值主要体现在强化学习和机器人学中,例如deepmind的Alphago和Openai的 OpenaiFive(一个会打团战的Dota2游戏AI)都是比较典型的基于强化学习智能体运用。

LLM爆发以后,近一年来关于Agent的研究和话题开始呈现井喷之势,例如AutoGPT、 BabyAGI、 Generative Agents、MetaGPT等项目在Github上已狂揽上万star,成为炙手可热的明星项目。

使用自主智能体,一般涉及以下步骤:

确定问题和目标:首先,需要明确问题和目标,即定义智能体需要解决的任务和期望的结果。

构建环境模型:了解和建模智能体与环境之间的交互方式,包括状态空间、行动空间、奖励函数等。

选择合适的算法:根据问题的性质和特点,选择适合的强化学习算法或其他相关算法来训练自治代理。

训练和优化:使用选择的算法和环境模型,通过与环境的交互和反馈,训练自治代理以学习适当的决策策略,以最大化累积奖励或实现特定目标。

调优和评估:根据训练过程中的表现和性能,对自治代理进行调优和评估,以提高其决策能力和效果。

相比于之前的基于强化学习的Agent研究,现在的Agent主要是指以大模型技术 (LLM) 作为主体或者大脑,能进行自动规划,拥有自主决策能力,以解决复杂问题的智能体。

近年来,有关自主智能体的研究有了许多突破性进展,以往困扰AI Agent研究者的社会交互性和智能性问题都随着大语言模型(LLM)的发展有了新的解决方向。

例如,已经有一些研究工作在探索如何通过引导大模型进行任务分解的大模型提示方法,如Chain-of-Thought,以及如何使用工具学习(Tool Learning)的概念,强调了运用大模型来进行工具的创造和使用,并提供了BMTools工具包。

此外,还有一些研究工作在探索如何通过记忆模块提升精准记忆和复杂推理能力。总的来说,自主智能体的研究进展迅速,展现出巨大的潜力和前景。

研究方向五:生成式智能体

生成式智能体(Generative Agents)可以定义为一种计算软件智能体,能够模拟可信的人类行为。它们能够存储智能体的完整经验记录,将这些记忆随时间整合为更高级别的反思,并动态地检索这些记忆以规划行为。

生成式智能体能够对自己、其他智能体和环境进行广泛的推理。面对新任务时,它们可以利用已获得的一般知识和策略迅速调整学习方法,减少对大量样本的依赖。这种技术可广泛应用于交互式应用,如沉浸式环境、人际沟通的排练空间和原型设计工具等。

生成式智能体的概念,最早由斯坦福大学和谷歌的研究人员于2023年在论文《Generative Agents: Interactive Simulacra of Human Behavior》中提出。

论文地址:https://arxiv.org/abs/2304.03442

为了创建生成式智能体,研究者构建了一个系统架构,此架构扩展了大型语言模型的功能,使其能够存储智能体使用自然语言的经验记录。随着时间的推移,这些记忆会被整合为更高级别的思考,并被动态检索以规划智能体的行为。

研究者将生成式智能体实际应用到一个互动沙盒环境中,这个环境受到了《模拟人生》的启发。在这个环境中,终端用户可以使用自然语言与一个由25个智能体组成的小镇进行互动。

这些智能体的行为表现得就像人类一样:他们早晨醒来,为自己做早餐,然后去工作;艺术家智能体会创作画作,而作家智能体会撰写文章;他们可以形成自己的观点,关注其他智能体,并展开对话;在规划第二天的工作时,他们会回忆并思考过去的日子。

此外,这些智能体还能使用自然语言来存储与智能体相关的完整记录,随着时间的推移将这些记忆整合为更高级别的思考,并动态地检索这些记忆以指导其行为。

评估结果显示,这些生成式智能体展现了可信的个体和社会行为。例如,从一个用户指定的概念开始,即一个智能体想举办一个情人节派对,这些智能体在接下来的两天里自主地传播派对的邀请,结识新朋友,互相约定参加派对,并协调在正确的时间一起出现在派对上。

研究结果表明,智能体架构的组成部分即观察、计划和反思等能力,都对智能体行为的可信度起到了关键性作用。

这项研究将大型语言模型与计算、交互式智能体相结合,为实现对人类行为的可信模拟奠定了基础。

此外,这项研究还证明了可信的人类行为智能体能够增强交互式应用程序的功能,从沉浸式环境到人际交流的排练空间,再到原型设计工具等。

研究方向六:人机协同

未来生成式AI带来的人机协同,将会呈现三种模式:嵌入(embedding)模式、副驾驶(Copilot)模式及智能体(Agent)模式。

Embedding模式:用户通过与AI进行语言交流,使用提示词来设定目标,AI协助用户完成这些目标。

Copilot模式:在这种模式下,人类和AI各自发挥作用。AI介入到工作流程中,从提供建议到协助完成流程的各个阶段。

Agent模式:由人类设定目标并提供资源,这些资源通常是计算能力,然后监督结果。在这种情况下,Agent承担了大部分工作。

Agent模式,会成为未来人机交互的主要模式。

Agent时代的人机协作(Human-Agent Collaboration,简称 HAC)是指人类与智能体(如机器人、虚拟助手等)之间的合作与协同,共同完成特定任务或解决问题。

Agent可以与人互动,为人提供帮助并更高效、安全地执行任务。他们可以理解人类的意图并调整他们的行为以提供更好的服务。人类反馈还可以帮助Agent提高性能。

在Agent模式下,人类设定目标和提供必要的资源(例如计算能力),AI独立地承担大部分工作,最后人类监督进程以及评估最终结果。这种合作模式结合了人类的创造力和判断力与智能代理的数据处理和实时响应能力,旨在实现更高效、更智能的工作方式。

这种模式下,AI充分体现了智能体的互动性、自主性和适应性特征,接近于独立的行动者,而人类则更多地扮演监督者和评估者的角色。智能体模式相较于嵌入模式、副驾驶模式无疑更为高效,或将成为未来人机协同的主要模式。

AI Agent的出现,使得大模型从“超级大脑”进化为人类的“全能助手”。AI Agent不仅需要具备处理任务和问题的智能能力,还需要拥有与人类进行自然交互的社交智能。

这种社交智能包括理解和生成自然语言、识别情感和情绪等能力。社交智能的发展将使得AI Agent能够更好地与人类进行合作和交流,拓展其应用场景。

基于大模型的Agent不仅可以让每个人都有增强能力的专属智能助理,还将改变人机协同的模式,必会带来更为广泛的人机融合。

研究方向七:超级个体

基于Agent的人机协同模式,每个普通个体都有可能成为超级个体。

超级个体是一个由许多有机体组成的有机体系,通常是一个真社会性动物的社会单位,其中社会分工被高度专业化,且个体无法独自长时间地生存。

在现代社会中,超级个体也可以指精通一项或多项专业技能,并完成商业变现,最终对传统雇佣关系实现脱离依附的复合型人才。

AI Agent可以赋予超级个体更多的机遇,使个人能够在更广阔的领域展示才华,通过AI赋能进行创造性工作,足以打造一个人的团队与公司。

超级个体是拥有自己的AI团队与自动化任务工作流,基于Agent与其他超级个体建立更为智能化与自动化的协作关系。现在业内不乏一人公司、超级个体的积极探索。

Github平台上,已经出现一些基于Agents的自动化团队项目。

GPTeam利用大模型创建多个被赋予角色和功能的智能体,多智能体协作以实现预定目标。

Dev-GPT是一个自动化开发和运维的多智能体协作团队,包含了产品经理Agent、开发人员Agent和运维人员Agent等角色分工。这个多智能体团队可以满足和支撑一个初创营销公司的正常运营,这便是一人公司。

还有号称是世界上第一个AI自由职业者平台的NexusGPT,该平台整合了开源数据库中的各种AI原生数据,并拥有800多个具有特定技能的AI智能体。

在这个平台上,你可以找到不同领域的专家,例如设计师、咨询顾问、销售代表等。雇主可以随时在这个平台上选择一个AI智能体帮助他们完成各种任务。

现在很多人在使用AI工具来增强劳动力或生产技能,将个人生产流程自动化,一个人可以取代一家公司的工作,这可以看作是超级个体的初级形态。

以后每个人都可以选择多样化的合作方式,通过与不同的个人助手或者智能体相互协同,成为超级个体。

未来的公司的核心运营都将是自动化的,任务可以被分解成模块化的流程,自动化执行。这就意味着一个人可以经营多家不同的公司,只需设置好业务系统即可。

与之而来的,公司的运营也将会更加依赖超级个体、专业模型和AI团队的构建。

研究方向八:数字员工

数字员工通常指的是结合了人工智能和机器人流程自动化(RPA)技术的自动化工具和应用,从人力资源角度来看它是一种高度拟人化的新型数字化工作人员。

它们能够在不需要人工直接参与的情况下,自动执行大量的重复性和规则明确的任务,从而提高工作效率和质量。

数字员工利用现代技术和数据分析能力,融合AI、RPA、大数据分析、数字人及机器人等多重技术,通过自动化和智能化手段,为企业提供了一种新的劳动力和工作效率提升的工具。

数字员工可以代替我们执行很多重复性的工作,当然并不是“取代”人类,而是帮我们更高效地完成工作。

数字员工的概念包括了以下几个特点:

软件而非实体机器人:数字员工是通过软件实现的,而不是物理存在的机器人。

适用于特定场景:数字员工特别适用于那些规则清晰、重复性强的工作环境。

广泛应用:数字员工已经被广泛应用于金融、制造业、零售业等多个行业和领域。

数字员工正在被视为一种创新的劳动力形式,它们能够帮助企业在降低成本、提高效率的同时,减少对人力的依赖。目前很多行业正在逐步引入这项技术,其中在金融、政企、通信、能源等领域已经能够有很高的应用渗透率。

数字员工离不开AI技术的支撑,比如其基础技术RPA正是基于AI构建的产品,其他如对话机器人、数字人等都是AI的应用。

现在大语言模型的爆发与应用也为数字员工带来了巨大的技术变革,尤其是其与AI Agent的融合正在催生一种RPA Agent的数字员工形态。

RPA Agent一般是由RPA\超自动化厂商推出的基于RPA构建的AI Agent,或者在Agent构建中将RPA作为UI自动化的工具的AI Agent。它同时结合了API和用户界面(UI)自动化,极大提升了AI Agent的执行能力。

基于LLM的RPA Agent兼顾API与UI自动化,能够深入企业管理系统的复杂流程自动化构建中的数据库读取、API管理及UI自动化连接等操作,解决了仅是基于API接口读取数据及调用工具插件类Agent执行能力不足的问题。

扩展阅读:API难以解决AI智能体执行能力问题,AI Agent深度落地锁定RPA

将数字员工中的RPA技术升级为RPA Agnet,或者在以RPA为工具的AI Agent基础上构建数字员工,将会使数字员工的能力大大飞跃。

通过大语言模型及AI Agent加持的Agent数字员工,具备更高的智能化与自主能力,可以在单位时间内规划任务并调用各种工具完成大量工作,并能够使用自然语言与人类进行沟通交流和协调。

目前,除了RPA\超自动化厂商在进行这一项研究并推出相关产品之外,大模型厂商以及一些科研机构也正在做这方面的研究。

比如清华自然语言处理实验室等机构共同发布了新一代流程自动化范式 Agentic Process Automation(APA,相关项目为ProAgent),该范式实现了工作流构建的自动化,以及工作流执行时动态决策的自动化,并通过实验揭示了大模型智能体在自动化中的可行性与潜力。

论文地址:https://github.com/OpenBMB/ProAgent/blob/main/paper/paper.pdf

研究方向九:具身智能

具身智能(Embodied Intelligence)指的是机器人或智能体通过感知、理解和交互来适应环境,并执行任务的能力。与传统的基于规则或符号的人工智能不同,具身智能强调将感知和行动相结合,使智能体能够更好地理解其周围的环境和与环境的互动。

AI系统具备感知和行动能力,能够通过与环境的交互来获取知识和经验。AI Agent是具身智能系统的一种特殊形式,它可以理解和响应用户的需求,提供个性化的服务和建议。

AI Agent和具身智能的结合,可以有效推动AI大模型的应用落地,主要包括以下几点:

1. 提升综合能力。AI大模型本身并不具备感知环境和执行动作的能力,而具身智能可以为AI大模型提供这些能力,使其能够更好地理解环境、做出决策并执行动作。

2. 实现实时决策和执行。AI大模型的训练和推理通常需要较长的时间和大量的计算资源。将计算任务分配给云端的AI Agent,而将感知和执行任务交给具身智能,可以实现实时决策和执行。

3. 提供个性化和适应性服务。AI大模型可以通过学习大量用户数据和行为模式,提供个性化服务。结合具身智能,AI Agent可以根据用户需求,将个性化服务扩展到物理世界中。

4. 保护用户安全和隐私。AI大模型通常需要大量训练数据,但这可能涉及用户隐私。结合具身智能,可以在本地保留用户敏感数据,仅将必要信息传输给云端的AI Agent进行处理,从而提供更高的安全性和隐私保护。

具身智能的作用不仅仅局限于机器人领域,还涉及到其他领域。

在机器人技术方面,具身智能使机器人能够更好地感知周围环境、做出智能决策,并执行相应的动作,以实现各种任务和目标。

在自动驾驶汽车领域,具身智能可以使汽车能够更好地感知道路、判断交通情况,并做出安全的驾驶决策。

在无人机领域,具身智能可以使无人机能够更好地感知空中环境、规避障碍物,并执行精确的飞行任务。

很多公司已经在探索具身智能,比如OpenAI不仅在其首届开发者大会上强调了AI Agent的重要性,还投资了挪威的人形机器人公司1X Technologies,推动大模型与具身智能的融合。

具身智能被认为是通往通用人工智能的重要途径,目前有关它的研究也已经有了很多突破性进展,比如AI科学家李飞飞团队的VoxPoser系统。

北京航空航天大学智能无人机团队,也提出了一种基于多模态大模型的具身智能体架构。“Agent as Cerebrum,Controller as Cerebellum”(智能体即大脑,控制器即小脑)的控制架构。

论文地址:https://arxiv.org/abs/2311.15033

该架构将智能体作为大脑这一决策生成器,专注于生成高层级的行为;控制器作为小脑这一运动控制器,专注于将高层级的行为(如期望目标点)转换成低层级的系统命令(如旋翼转速)。

未来,AI Agent和具身智能的结合,将AI大模型的强大能力与具体场景的感知和执行能力相结合,推动了AI大模型在实际应用中的落地和应用场景的丰富多样化。

研究方向十:智能体社会

智能体社会(Agent Society)是2018年公布的计算机科学技术名词,指的是一种基于角色和角色关系,以及义务、承诺、道义等社会学概念定义的多智能体系统。

在大语言模型的应用的前提下,该概念则为使用LLM创建的人工智能智能体在模拟环境中相互交互,这些智能体可以像人类一样行动、做出决策并参与社交活动。

智能体社会是人工智能代理的最高形态和目标,它是由多个人工智能体组成的一个复杂的、动态的、自组织的、自适应的、协作的、竞争的、进化的系统,它可以根据自身的目标和环境的变化,进行一些复杂和灵活的动作和任务,同时与人类和其他代理进行一些高层次和高维度的交互和协作。

它能够帮助我们了解人工智能体如何在类似社会的环境中协同工作和行为。这种模拟可以提供对协作、政策制定和道德考虑的见解。总体而言,智能体社会帮助我们探索人工智能智能体的社交方面及其在现实和受控环境中的交互。

在这个社会系统中,智能体能够根据目标和环境变化执行复杂灵活的任务,并与人类及其他智能体进行高级别、多维度的互动和协作。智能体社会不仅有助于人类探索和拓展物理及虚拟世界,还能增强和扩展人类的能力与体验。

智能体社会是人类探索和拓展物理世界和虚拟世界、增强和扩展人类能力和体验、创造和享受新奇和有趣的事物的重要途径,它可以帮助人类实现自身或他人的价值和幸福。

智能体社会的典型应用是人工智能实体(AI Entity)、虚拟社区(Virtual Community)、分布式系统(Distributed System)等,它们可以根据自身的目标和环境的变化,进行一些复杂和灵活的动作和任务,同时与人类和其他代理进行一些高层次和高维度的交互和协作。

长期以来,社会学家经常进行社会实验,在受控环境中观察特定的社会现象。著名的例子包括霍桑实验和斯坦福监狱实验。

随后,研究人员开始在社会模拟中使用动物,老鼠乌托邦实验就是一个例子。这些实验无一例外地使用活体作为参与者,难以进行各种干预,缺乏灵活性,时间效率低下。

研究人员和实践者一直在设想一个交互式人工社会,在这个社会中,人类的行为可以通过可信的Agent来实现。

从《模拟人生》等沙盒游戏到Metaverse概念,我们可以看到“模拟社会”在人们心目中的定义:环境和在其中互动的个体。每个个体的背后可以是一个程序、一个真实的人类,也可以是一个基于LLM的Agent。

个体之间的互动也,社会性产生的原因之一。多智能体协同可以组成智能体社会这一最高形态的技术社会系统,智能体社会具有复杂、动态、自组织和自适应的特性,能够协作、竞争、不断进化。

突破多智能体的发展困境,是未来智能体社会建立的重要前提。

参考资料:

1、《A Survey on Large Language Model-based Autonomous Agents》

2、《The Rise and Potential of Large Language ModelBased Agents: A Survey》

全文完

【王吉伟频道,关注AIGC与IoT,专注数字化转型、业务流程自动化与RPA,欢迎关注与交流。】

数字员工、超级个体、具身智能与AI Agent有什么关系?一文看懂

【万字长文】数字员工、超级个体、具身智能,AI Agent未来发展十大研究方向

你知道吗,正在热议的具身智能和超级个体皆与AI Agent关系密切

频上重磅趋势报告的AI Agent,与超级个体、具身智能有什么关系?

AI Agent十大研究方向,正在热议的数字员工、超级个体、具身智能都在其中

深度认知数字员工、超级个体、具身智能,你可能需要先了解AI Agent

文/王吉伟

最近发布的几个关于2024趋势的重磅报告,无一例外都提到了AI Agent。

埃森哲在《技术展望2024》报告中指出,96%的企业高管认为AI Agent生态系统应用将在未来3年内为他们的组织带来重大机遇。

报告认为,随着人工智能向智能体演进,自动化系统将能够自主决策和行动。智能体不仅会为人类提供建议,还将代表人类采取行动。人工智能将继续生成文本、图像和洞察,而AI Agent将自行决定如何处理这些信息。

当智能体升级成人类的同事后,就需要人类与智能体一起重新构建技术和人才的未来。

IDC《AIGC应用层十大趋势》报告中调研表明,所有企业都认为AI Agent是AIGC发展的确定性方向,50%的企业已经在某项工作中进行了AI Agent的试点,另有34%的企业正在制定AI Agent的应用计划。

这个报告,也对AI Agent发展趋势做了两点预测:

  • AI Agent让“人机协同”成为新常态,个人与企业步入AI 助理时代。AI Agent能够帮助未来企业构建以“人机协同”为核心的智能化运营新常态。
  • AI Agent变革未来生产力的组织形式,对抗组织熵增。未来企业工作任务将在AIGC的助推作用下变得日益原子化和碎片化,复杂的流程将被无限拆解,再进行灵活的编排和组合,每个环节的效能和潜力都将被AI持续挖掘。从供给端看,“人+AI数字员工”的高效协同模式将为大型企业对抗组织熵增提供理想的解法。

而在腾讯发布的《2024数字科技前沿应用趋势》中,“多模态智能体加速AGI进程”被列为第二大趋势。

该报告认为,通用人工智能渐行渐近,大模型走向多模态,AI智能体(Agent)有望成为下一代平台;端侧大模型加速部署,或将成为未来交互新入口。AI在数学推理、新药研发、材料发现、蛋白质合成等领域大显身手, "AI科学家"有望加速问世。

这三个报告,一方面预测了AI Agent的未来发展趋势,另一方面也同时提及了多模态大模型、数字员工、具身智能等一系列概念。

其中IDC给出的新型数字员工概念,与AI Agent有了非常强的关联。此外该报告中所提到的“一个人加上足够的AI工具,就可以成为一家专业化公司”的Agent应用,也指向了当前正在热议的超级个体。

事实上,AI Agent不只关联了两个概念,还催生了更多的研究方向。那么,数字员工和超级个体与AI Agent有什么关联?具身智能与AI Agent有什么关系?AI Agent都有哪些研究方向?

本文,王吉伟频道就与大家聊聊这些。

注:本文提到的相关研报及论文资源,后台回复 方向 获取。)

研究方向一:基于大型语言模型的AI Agent

大语言模型(Large Language Models,LLM)是一种使用人工神经网络构建的基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。

2023年,大语言模型及其在人工智能领域的应用已成为全球科技研究的热点,其在规模上的增长尤为引人注目,参数量已从最初的十几亿跃升到如今的一万亿。

参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处,更加深入地理解人类语言的复杂性。

在过去的一年里,大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟,它将不断拓展其应用范围,为人类提供更加智能化和个性化的服务,进一步改善人们的生活和生产方式。

大语言模型的浪潮推动了AI Agent 相关研究快速发展,AI Agent是当前通往 AGI 的主要探索路线。

大模型庞大的训练数据集中包含了大量人类行为数据,为模拟类人的交互打下了坚实基础;另一方面,随着模型规模不断增大,大模型涌现出了上下文学习能力、推理能力、思维链等类似人类思考方式的多种能力。

LLM提供了AI Agent的新基座,自动化和拟人化是两大方向。大语言模型庞大的训练数据集中包含了大量人类行为数据,为模拟类人的交互打下了坚实基础;另一方面,随着模型规模不断增大,大模型涌现出了上下文学习能力、推理能力、思维链等类似人类思考方式的多种能力。

将大模型作为 AI Agent 的核心大脑,就可以实现以往难以实现的将复杂问题拆解成可实现的子任务、类人的自然语言交互等能力。由于大模型仍存在大量的问题如幻觉、上下文容量限制等,通过让大模型借助一个或多个Agent的能力,构建成为具备自主思考决策和执行能力的智能体,成为了当前通往AGI的主要研究方向。

在AGI时代到来之前,AI Agent的能力的极限将主要受其大脑也就是LLM的影响,可以说LLM决定了Agent在未来的普及与应用。

因此,基于LLM的AI Agent,将是人们长期研究的方向。

研究方向二:AI Agent构建、应用与评估

这是AI Agent研究的主要方向。

构建AI Agent需要深入理解其核心技术,包括LLM、记忆、规划技能和工具使用能力。AI Agent的应用领域非常广泛,包括游戏、个人助理、情感陪伴等。

评估AI Agent的性能是研究的重要部分,需要考虑如何在零样本条件下评估其通用语言理解和推理能力。

AI Agent的构建、应用和评估,都是人工智能研究的重要部分。

AI Agent构建

AI Agent的构建主要包括四个部分:大模型、规划、记忆和工具使用。

大模型:大模型(如GPT-4及文心一言、通义千问等)作为AI Agent的“大脑”,提供推理、规划等能力。

规划:代理能够将大型任务分解为更小的、可管理的子目标,从而更好地处理复杂任务。

记忆:AI代理具备长时间保留和回忆信息的能力,通常通过利用外部向量存储和快速检索实现。

工具使用:代理学习调用外部 API 以获取模型权重中缺失的额外信息,包括当前信息、代码执行能力、对专有信息源的访问等。

这四个模块与AI Agent能力的提升息息相关,接下来会有很多组织投入大量且持续的研究工作,以提升AI Agent能力的应用与普及速率。

AI Agent应用

AI Agent在多个领域都有应用,包括但不限于教育、游戏、网络购物和网页浏览等。比如在教育领域,AI代理提供个性化、智能化和高效化的服务,优化学习体验。

关于AI Agent在各领域的的应用,本书将在第二部分展开探讨。

AI Agent评估

评估AI Agent是一项很大的挑战,需要量化和客观地衡量其智能水平。图灵测试是一种常见的评估方法,用于评估人工智能系统是否表现出类似人类的智能。

此外,还有专门的基准测试,如AgentBench,用于评估LLMs作为智能体在各种真实世界挑战和不同环境中的表现。接下来将会有更多的基准测试面向Agent的各个环节,以促进Agent生态的良性发展与生态完善。

研究方向三:多智能体系统

多智能体系统(Multi-Agent Systems, MAS)是由多个互相协作或竞争的自治智能体组成的系统,旨在通过集体行为解决复杂问题。在MAS中,每个智能体都具有一定程度的自主性,并能够感知环境、作出决策,并与其他智能体交互。

智能体可以执行多种任务,其具体性质取决于系统的目标和应用领域。智能体的主要任务通常包括感知环境、处理信息、作出决策,并与其他智能体交互以实现共同的目标。

多智能体系统是人工智能的一个重要分支,它研究如何设计和实现多个智能体之间的协作和竞争的机制和方法。它具有以下特点:

1、由多个自治的、互动的、异构的智能体组成,每个智能体都有自己的目标、行为、信念和偏好,同时也受到环境的影响和约束。

2、目标是实现智能体之间的协作和竞争的平衡,使得每个智能体都能达到自己的目标,同时也能促进整个系统的性能和效益。

3、难点是如何处理智能体之间的复杂的交互和协调,如何解决智能体之间的冲突和矛盾,如何评估智能体的表现和进步,如何接受人类的反馈和指导,如何遵守人类的伦理和法律等。

多智能体协作系统(Multi-Agent Collaboration Systems,MACS)是一种特殊的多智能体系统,其目标是使多个智能体能够有效地协作,以实现一些超出单个智能体能力范围的任务。

Agent可以以协作或竞争的方式相互交互。这使他们能够通过团队合作或对抗性互动来实现进步。在这些系统中,Agent可以共同完成复杂的任务或相互竞争以提高其性能。

比如用于模拟和优化交通、能源、物流等领域的复杂系统,也可以用于设计和实现智能家居、智能城市、智能工厂等应用场景。

多智能体协作系统的核心挑战是如何实现智能体之间的协作和竞争的平衡,以及如何使智能体能够根据不同的任务和角色进行自适应和学习。

近年来,随着深度学习、强化学习、自然语言处理等技术的发展,多智能体协作系统的研究也取得了一些重要的进展和突破。

例如,CAMEL是一个首个大模型多智能体框架,它可以让多个智能体在一个共享的环境中进行协作和竞争的学习,同时也可以让智能体之间进行自然语言的交流和协商。CAMEL已经在NeurIPS 2023上斩获了3.6k星,展示了多智能体协作系统的巨大潜力和前景。

另外,还有一些具有代表性的多智能体协作系统,如OpenAI Five、AlphaStar、DeepMind Quake III Arena Capture the Flag等,它们分别在DOTA 2、星际争霸II、雷神之锤III等游戏中,展示了超越人类水平的协作和竞争的能力。

多智能体系统是人工智能的一个前沿和热点的研究领域,涉及到多个学科和领域,如计算机科学、数学、经济学、心理学、社会学、生物学等。

其研究和应用对于理解人类智能的本质和机制,提高人工智能的水平和能力,解决人类社会的各种问题,都具有重要的意义和价值。

研究方向四:自主智能体

在人工智能领域,自主智能体(Autonomous Agent)是指能够在环境中感知、学习和执行动作的智能实体。这种实体具有自主性,即它能够独立地做出决策和行动,而无需人为干预。

自主智能体具备自主决策和行动能力,能够在给定的环境中自主地感知、学习和做出决策,以实现特定的目标。自主智能体能够根据环境的变化和反馈信息,不断地适应和改进自己的行为,从而实现更好的性能和效果。

它通常被设计成具备对环境的感知能力,能够根据感知到的信息做出理性的决策,并执行相应的动作以达到特定的目标。在实现自主性的过程中,机器学习和深度学习等技术发挥了关键作用。

自主智能体的设计和实现涉及多个方面,包括但不限于机器学习、自然语言处理、计算机视觉等AI技术的综合运用。

它们被设计用于执行各种不同的任务,如管理社交媒体账户、投资市场、制作儿童读物等,甚至在一些情况下,它们可以帮助人们释放时间去做更有创造性的事情。

其研究价值主要体现在强化学习和机器人学中,例如deepmind的Alphago和Openai的 OpenaiFive(一个会打团战的Dota2游戏AI)都是比较典型的基于强化学习智能体运用。

LLM爆发以后,近一年来关于Agent的研究和话题开始呈现井喷之势,例如AutoGPT、 BabyAGI、 Generative Agents、MetaGPT等项目在Github上已狂揽上万star,成为炙手可热的明星项目。

使用自主智能体,一般涉及以下步骤:

确定问题和目标:首先,需要明确问题和目标,即定义智能体需要解决的任务和期望的结果。

构建环境模型:了解和建模智能体与环境之间的交互方式,包括状态空间、行动空间、奖励函数等。

选择合适的算法:根据问题的性质和特点,选择适合的强化学习算法或其他相关算法来训练自治代理。

训练和优化:使用选择的算法和环境模型,通过与环境的交互和反馈,训练自治代理以学习适当的决策策略,以最大化累积奖励或实现特定目标。

调优和评估:根据训练过程中的表现和性能,对自治代理进行调优和评估,以提高其决策能力和效果。

相比于之前的基于强化学习的Agent研究,现在的Agent主要是指以大模型技术 (LLM) 作为主体或者大脑,能进行自动规划,拥有自主决策能力,以解决复杂问题的智能体。

近年来,有关自主智能体的研究有了许多突破性进展,以往困扰AI Agent研究者的社会交互性和智能性问题都随着大语言模型(LLM)的发展有了新的解决方向。

例如,已经有一些研究工作在探索如何通过引导大模型进行任务分解的大模型提示方法,如Chain-of-Thought,以及如何使用工具学习(Tool Learning)的概念,强调了运用大模型来进行工具的创造和使用,并提供了BMTools工具包。

此外,还有一些研究工作在探索如何通过记忆模块提升精准记忆和复杂推理能力。总的来说,自主智能体的研究进展迅速,展现出巨大的潜力和前景。

研究方向五:生成式智能体

生成式智能体(Generative Agents)可以定义为一种计算软件智能体,能够模拟可信的人类行为。它们能够存储智能体的完整经验记录,将这些记忆随时间整合为更高级别的反思,并动态地检索这些记忆以规划行为。

生成式智能体能够对自己、其他智能体和环境进行广泛的推理。面对新任务时,它们可以利用已获得的一般知识和策略迅速调整学习方法,减少对大量样本的依赖。这种技术可广泛应用于交互式应用,如沉浸式环境、人际沟通的排练空间和原型设计工具等。

生成式智能体的概念,最早由斯坦福大学和谷歌的研究人员于2023年在论文《Generative Agents: Interactive Simulacra of Human Behavior》中提出。

论文地址:https://arxiv.org/abs/2304.03442

为了创建生成式智能体,研究者构建了一个系统架构,此架构扩展了大型语言模型的功能,使其能够存储智能体使用自然语言的经验记录。随着时间的推移,这些记忆会被整合为更高级别的思考,并被动态检索以规划智能体的行为。

研究者将生成式智能体实际应用到一个互动沙盒环境中,这个环境受到了《模拟人生》的启发。在这个环境中,终端用户可以使用自然语言与一个由25个智能体组成的小镇进行互动。

这些智能体的行为表现得就像人类一样:他们早晨醒来,为自己做早餐,然后去工作;艺术家智能体会创作画作,而作家智能体会撰写文章;他们可以形成自己的观点,关注其他智能体,并展开对话;在规划第二天的工作时,他们会回忆并思考过去的日子。

此外,这些智能体还能使用自然语言来存储与智能体相关的完整记录,随着时间的推移将这些记忆整合为更高级别的思考,并动态地检索这些记忆以指导其行为。

评估结果显示,这些生成式智能体展现了可信的个体和社会行为。例如,从一个用户指定的概念开始,即一个智能体想举办一个情人节派对,这些智能体在接下来的两天里自主地传播派对的邀请,结识新朋友,互相约定参加派对,并协调在正确的时间一起出现在派对上。

研究结果表明,智能体架构的组成部分即观察、计划和反思等能力,都对智能体行为的可信度起到了关键性作用。

这项研究将大型语言模型与计算、交互式智能体相结合,为实现对人类行为的可信模拟奠定了基础。

此外,这项研究还证明了可信的人类行为智能体能够增强交互式应用程序的功能,从沉浸式环境到人际交流的排练空间,再到原型设计工具等。

研究方向六:人机协同

未来生成式AI带来的人机协同,将会呈现三种模式:嵌入(embedding)模式、副驾驶(Copilot)模式及智能体(Agent)模式。

Embedding模式:用户通过与AI进行语言交流,使用提示词来设定目标,AI协助用户完成这些目标。

Copilot模式:在这种模式下,人类和AI各自发挥作用。AI介入到工作流程中,从提供建议到协助完成流程的各个阶段。

Agent模式:由人类设定目标并提供资源,这些资源通常是计算能力,然后监督结果。在这种情况下,Agent承担了大部分工作。

Agent模式,会成为未来人机交互的主要模式。

Agent时代的人机协作(Human-Agent Collaboration,简称 HAC)是指人类与智能体(如机器人、虚拟助手等)之间的合作与协同,共同完成特定任务或解决问题。

Agent可以与人互动,为人提供帮助并更高效、安全地执行任务。他们可以理解人类的意图并调整他们的行为以提供更好的服务。人类反馈还可以帮助Agent提高性能。

在Agent模式下,人类设定目标和提供必要的资源(例如计算能力),AI独立地承担大部分工作,最后人类监督进程以及评估最终结果。这种合作模式结合了人类的创造力和判断力与智能代理的数据处理和实时响应能力,旨在实现更高效、更智能的工作方式。

这种模式下,AI充分体现了智能体的互动性、自主性和适应性特征,接近于独立的行动者,而人类则更多地扮演监督者和评估者的角色。智能体模式相较于嵌入模式、副驾驶模式无疑更为高效,或将成为未来人机协同的主要模式。

AI Agent的出现,使得大模型从“超级大脑”进化为人类的“全能助手”。AI Agent不仅需要具备处理任务和问题的智能能力,还需要拥有与人类进行自然交互的社交智能。

这种社交智能包括理解和生成自然语言、识别情感和情绪等能力。社交智能的发展将使得AI Agent能够更好地与人类进行合作和交流,拓展其应用场景。

基于大模型的Agent不仅可以让每个人都有增强能力的专属智能助理,还将改变人机协同的模式,必会带来更为广泛的人机融合。

研究方向七:超级个体

基于Agent的人机协同模式,每个普通个体都有可能成为超级个体。

超级个体是一个由许多有机体组成的有机体系,通常是一个真社会性动物的社会单位,其中社会分工被高度专业化,且个体无法独自长时间地生存。

在现代社会中,超级个体也可以指精通一项或多项专业技能,并完成商业变现,最终对传统雇佣关系实现脱离依附的复合型人才。

AI Agent可以赋予超级个体更多的机遇,使个人能够在更广阔的领域展示才华,通过AI赋能进行创造性工作,足以打造一个人的团队与公司。

超级个体是拥有自己的AI团队与自动化任务工作流,基于Agent与其他超级个体建立更为智能化与自动化的协作关系。现在业内不乏一人公司、超级个体的积极探索。

Github平台上,已经出现一些基于Agents的自动化团队项目。

GPTeam利用大模型创建多个被赋予角色和功能的智能体,多智能体协作以实现预定目标。

Dev-GPT是一个自动化开发和运维的多智能体协作团队,包含了产品经理Agent、开发人员Agent和运维人员Agent等角色分工。这个多智能体团队可以满足和支撑一个初创营销公司的正常运营,这便是一人公司。

还有号称是世界上第一个AI自由职业者平台的NexusGPT,该平台整合了开源数据库中的各种AI原生数据,并拥有800多个具有特定技能的AI智能体。

在这个平台上,你可以找到不同领域的专家,例如设计师、咨询顾问、销售代表等。雇主可以随时在这个平台上选择一个AI智能体帮助他们完成各种任务。

现在很多人在使用AI工具来增强劳动力或生产技能,将个人生产流程自动化,一个人可以取代一家公司的工作,这可以看作是超级个体的初级形态。

在王吉伟频道看来,以后每个人都可以选择多样化的合作方式,通过与不同的个人助手或者智能体相互协同,成为超级个体。

未来的公司的核心运营都将是自动化的,任务可以被分解成模块化的流程,自动化执行。这就意味着一个人可以经营多家不同的公司,只需设置好业务系统即可。

与之而来的,公司的运营也将会更加依赖超级个体、专业模型和AI团队的构建。

研究方向八:数字员工

数字员工通常指的是结合了人工智能和机器人流程自动化(RPA)技术的自动化工具和应用,从人力资源角度来看它是一种高度拟人化的新型数字化工作人员。

它们能够在不需要人工直接参与的情况下,自动执行大量的重复性和规则明确的任务,从而提高工作效率和质量。

数字员工利用现代技术和数据分析能力,融合AI、RPA、大数据分析、数字人及机器人等多重技术,通过自动化和智能化手段,为企业提供了一种新的劳动力和工作效率提升的工具。

数字员工可以代替我们执行很多重复性的工作,当然并不是“取代”人类,而是帮我们更高效地完成工作。

数字员工的概念包括了以下几个特点:

软件而非实体机器人:数字员工是通过软件实现的,而不是物理存在的机器人。

适用于特定场景:数字员工特别适用于那些规则清晰、重复性强的工作环境。

广泛应用:数字员工已经被广泛应用于金融、制造业、零售业等多个行业和领域。

数字员工正在被视为一种创新的劳动力形式,它们能够帮助企业在降低成本、提高效率的同时,减少对人力的依赖。目前很多行业正在逐步引入这项技术,其中在金融、政企、通信、能源等领域已经能够有很高的应用渗透率。

数字员工离不开AI技术的支撑,比如其基础技术RPA正是基于AI构建的产品,其他如对话机器人、数字人等都是AI的应用。

现在大语言模型的爆发与应用也为数字员工带来了巨大的技术变革,尤其是其与AI Agent的融合正在催生一种RPA Agent的数字员工形态。

RPA Agent一般是由RPA\超自动化厂商推出的基于RPA构建的AI Agent,或者在Agent构建中将RPA作为UI自动化的工具的AI Agent。它同时结合了API和用户界面(UI)自动化,极大提升了AI Agent的执行能力。

王吉伟频道认为,基于LLM的RPA Agent兼顾API与UI自动化,能够深入企业管理系统的复杂流程自动化构建中的数据库读取、API管理及UI自动化连接等操作,解决了仅是基于API接口读取数据及调用工具插件类Agent执行能力不足的问题。

扩展阅读:API难以解决AI智能体执行能力问题,AI Agent深度落地锁定RPA

将数字员工中的RPA技术升级为RPA Agnet,或者在以RPA为工具的AI Agent基础上构建数字员工,将会使数字员工的能力大大飞跃。

通过大语言模型及AI Agent加持的Agent数字员工,具备更高的智能化与自主能力,可以在单位时间内规划任务并调用各种工具完成大量工作,并能够使用自然语言与人类进行沟通交流和协调。

目前,除了RPA\超自动化厂商在进行这一项研究并推出相关产品之外,大模型厂商以及一些科研机构也正在做这方面的研究。

比如清华自然语言处理实验室等机构共同发布了新一代流程自动化范式 Agentic Process Automation(APA,相关项目为ProAgent),该范式实现了工作流构建的自动化,以及工作流执行时动态决策的自动化,并通过实验揭示了大模型智能体在自动化中的可行性与潜力。

论文地址:https://github.com/OpenBMB/ProAgent/blob/main/paper/paper.pdf

研究方向九:具身智能

具身智能(Embodied Intelligence)指的是机器人或智能体通过感知、理解和交互来适应环境,并执行任务的能力。与传统的基于规则或符号的人工智能不同,具身智能强调将感知和行动相结合,使智能体能够更好地理解其周围的环境和与环境的互动。

AI系统具备感知和行动能力,能够通过与环境的交互来获取知识和经验。AI Agent是具身智能系统的一种特殊形式,它可以理解和响应用户的需求,提供个性化的服务和建议。

AI Agent和具身智能的结合,可以有效推动AI大模型的应用落地,主要包括以下几点:

1. 提升综合能力。AI大模型本身并不具备感知环境和执行动作的能力,而具身智能可以为AI大模型提供这些能力,使其能够更好地理解环境、做出决策并执行动作。

2. 实现实时决策和执行。AI大模型的训练和推理通常需要较长的时间和大量的计算资源。将计算任务分配给云端的AI Agent,而将感知和执行任务交给具身智能,可以实现实时决策和执行。

3. 提供个性化和适应性服务。AI大模型可以通过学习大量用户数据和行为模式,提供个性化服务。结合具身智能,AI Agent可以根据用户需求,将个性化服务扩展到物理世界中。

4. 保护用户安全和隐私。AI大模型通常需要大量训练数据,但这可能涉及用户隐私。结合具身智能,可以在本地保留用户敏感数据,仅将必要信息传输给云端的AI Agent进行处理,从而提供更高的安全性和隐私保护。

具身智能的作用不仅仅局限于机器人领域,还涉及到其他领域。

在机器人技术方面,具身智能使机器人能够更好地感知周围环境、做出智能决策,并执行相应的动作,以实现各种任务和目标。

在自动驾驶汽车领域,具身智能可以使汽车能够更好地感知道路、判断交通情况,并做出安全的驾驶决策。

在无人机领域,具身智能可以使无人机能够更好地感知空中环境、规避障碍物,并执行精确的飞行任务。

很多公司已经在探索具身智能,比如OpenAI不仅在其首届开发者大会上强调了AI Agent的重要性,还投资了挪威的人形机器人公司1X Technologies,推动大模型与具身智能的融合。

具身智能被认为是通往通用人工智能的重要途径,目前有关它的研究也已经有了很多突破性进展,比如AI科学家李飞飞团队的VoxPoser系统。

北京航空航天大学智能无人机团队,也提出了一种基于多模态大模型的具身智能体架构。“Agent as Cerebrum,Controller as Cerebellum”(智能体即大脑,控制器即小脑)的控制架构。

论文地址:https://arxiv.org/abs/2311.15033

该架构将智能体作为大脑这一决策生成器,专注于生成高层级的行为;控制器作为小脑这一运动控制器,专注于将高层级的行为(如期望目标点)转换成低层级的系统命令(如旋翼转速)。

未来,AI Agent和具身智能的结合,将AI大模型的强大能力与具体场景的感知和执行能力相结合,推动了AI大模型在实际应用中的落地和应用场景的丰富多样化。

研究方向十:智能体社会

智能体社会(Agent Society)是2018年公布的计算机科学技术名词,指的是一种基于角色和角色关系,以及义务、承诺、道义等社会学概念定义的多智能体系统。

在大语言模型的应用的前提下,该概念则为使用LLM创建的人工智能智能体在模拟环境中相互交互,这些智能体可以像人类一样行动、做出决策并参与社交活动。

智能体社会是人工智能代理的最高形态和目标,它是由多个人工智能体组成的一个复杂的、动态的、自组织的、自适应的、协作的、竞争的、进化的系统,它可以根据自身的目标和环境的变化,进行一些复杂和灵活的动作和任务,同时与人类和其他代理进行一些高层次和高维度的交互和协作。

它能够帮助我们了解人工智能体如何在类似社会的环境中协同工作和行为。这种模拟可以提供对协作、政策制定和道德考虑的见解。总体而言,智能体社会帮助我们探索人工智能智能体的社交方面及其在现实和受控环境中的交互。

在这个社会系统中,智能体能够根据目标和环境变化执行复杂灵活的任务,并与人类及其他智能体进行高级别、多维度的互动和协作。智能体社会不仅有助于人类探索和拓展物理及虚拟世界,还能增强和扩展人类的能力与体验。

智能体社会是人类探索和拓展物理世界和虚拟世界、增强和扩展人类能力和体验、创造和享受新奇和有趣的事物的重要途径,它可以帮助人类实现自身或他人的价值和幸福。

智能体社会的典型应用是人工智能实体(AI Entity)、虚拟社区(Virtual Community)、分布式系统(Distributed System)等,它们可以根据自身的目标和环境的变化,进行一些复杂和灵活的动作和任务,同时与人类和其他代理进行一些高层次和高维度的交互和协作。

长期以来,社会学家经常进行社会实验,在受控环境中观察特定的社会现象。著名的例子包括霍桑实验和斯坦福监狱实验。

随后,研究人员开始在社会模拟中使用动物,老鼠乌托邦实验就是一个例子。这些实验无一例外地使用活体作为参与者,难以进行各种干预,缺乏灵活性,时间效率低下。

研究人员和实践者一直在设想一个交互式人工社会,在这个社会中,人类的行为可以通过可信的Agent来实现。

从《模拟人生》等沙盒游戏到Metaverse概念,我们可以看到“模拟社会”在人们心目中的定义:环境和在其中互动的个体。每个个体的背后可以是一个程序、一个真实的人类,也可以是一个基于LLM的Agent。

个体之间的互动,也是社会性产生的原因之一。多智能体协同可以组成智能体社会这一最高形态的技术社会系统,智能体社会具有复杂、动态、自组织和自适应的特性,能够协作、竞争、不断进化。

突破多智能体的发展困境,是未来智能体社会建立的重要前提。

参考资料:

1、《A Survey on Large Language Model-based Autonomous Agents》

2、《The Rise and Potential of Large Language ModelBased Agents: A Survey》

全文完

【王吉伟频道,关注AIGC与IoT,专注数字化转型、业务流程自动化与RPA,欢迎关注与交流。】


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1