智能体 = 大语言模型(LLM) + 观察 + 思考 + 行动 + 记忆。
多智能体 = 智能体 + 环境 + 标准流程(SOP) + 通信 + 经济
LLM 和 Al Agent 的区别在于:Al Agent 可以独立思考,并做出行动
RPA 和 Al Agent 的区别在于:Al Agent 能够处理未知环境信息
1. 大模型智能水平不够
2. 大模型的上下文限制,限制了 LLM 可以选择的工具范围
3. 由于 Transformer 架构的限制,存在推理速度较慢,无法处理并行任务等问题
4. 大模型幻觉问题
5. 用户与 AI Agent 交互基于 Prompt
6. 高成本,消耗大量 Token
由 E2B 整理的 Al Agents Landscape 项目地址:https://github.com/e2b-dev/awesome-ai-agents?tab=readme-ov-file
由 E2B 整理的 Frameworks and tools for Al products 项目地址:https://github.com/e2b-dev/awesome-ai-sdks?tab=readme-ov-file
让 Agent 审视和修正自己生成的输出。
LLM 生成代码、调用 API 等进行实际操作。
让 Agent 分解复杂任务并按计划执行。
多个 Agent 扮演不同角色合作完成任务。
一个基于大模型的 AI Agent 系统可以拆分为大模型、规划、记忆与工具使用四个组件部分。OpenAI 的应用研究主管 Lilian Weng 撰写了一篇博客,认为 AI Agent 可能会成为新时代的开端。她提出了 Agent = LLM + 规划 + 记忆 + 工具使用的基础架构,其中 LLM 扮演了 Agent 的“大脑”,在这个系统中提供推理、规划等能力。
开发者:AutoGPT 由游戏公司 Significant Gravitas Ltd. 的创始人 Toran Bruce Richards 构建
发布时间:2023 年 3 月 30 日
Github Stars:164k
AutoGPT 定位类似个人助理,帮助用户完成指定的任务,如调研某个课题。AutoGPT 比较强调对外部工具的使用,如搜索引擎、页面浏览等。作为早期 Agent,AutoGPT 有很多缺点,比如无法控制迭代次数、工具有限。但是后续的模仿者非常多,基于此演变出了非常多的框架。
开发者:浙江大学和微软联合团队
发布时间:2023 年 4 月
开发团队:腾讯与德州大学达拉斯分校合作开发
发布时间:2023 年 12 月 22 日
AppAgent 可以通过自主学习和模仿人类的点击和滑动手势,能够在手机上执行各种任务。它可以在社交媒体上发帖、帮你撰写和发送邮件、使用地图、在线购物,甚至进行复杂的图像编辑…..AppAgent 在 50 个任务上进行了广泛测试,涵盖了 10 种不同的应用程序。该项目由腾讯和德州大学达拉斯分校的研究团开发。
开发团队:斯坦福大学的人机交互研究小组
发布时间:2023 年 8 月 10 日
以下就是 John Lin 度过的一天早晨:6点醒来,开始刷牙、洗澡、吃早餐,在出门工作前,他会见一见自己的妻子 Mei 和儿子 Eddy。 这些智能体相互之间会发生社会行为。当他们注意到彼此时,可能会进行对话。随着时间推移,这些智能体会形成新的关系,并且会记住自己与其他智能体的互动。 一个有趣的故事是,在模拟开始时,一个智能体的初始化设定是自己需要组织一个情人节派对。随后发生的一系列事情,都可能存在失败点,智能体可能不会继续坚持这个意图,或者会忘记告诉他人,甚至可能忘了出现。幸运的是,在模拟中,情人节派对真实地发生了,许多智能体聚在了一起发生了有趣的互动。
ChatDev 的主要目标是提供一个基于大型语言模型(LLM)的易于使用、高度可定制并且可扩展的框架,它是研究群体智能的理想场景。
开发团队:深度赋智,创始人 & CEO:吴承霖
发布时间:2023 年 7 月 4 日
5.1 AI Agent 构建平台
字节跳动推出的 AI Bot 构建工具。
5.2 陪伴/娱乐
AI Agent 朋友圈。
AI Agent 运营社交媒体。
5.4 教育
生成教育短视频。
特工宇宙注:该产品刚上线我们就介绍过 Gatekeep,仅用一句话,生成优雅的教学视频。
1.5 代码编程
5.6 Caller Agent
客户服务对话式人工智能平台。
5.7 个人助理
帮助人类免除执行琐事的 AI Agent.
一个能够和玩家玩游戏的 AI Agent.
参考资料:
1. Agent > GPT5?吴恩达最新演讲:四种 Agent 设计范式(通俗易懂版)