Agent AI 的发展引发诸多争议。一方面,其有望在游戏、机器人和医疗等领域带来巨大变革,如提升游戏体验、革新制造业、辅助医疗诊断等,为社会发展提供强大助力。但另一方面,它也面临诸多风险。在数据方面,训练数据的偏差可能导致智能体决策不公,影响社会公平性;数据隐私问题若处理不当,用户信息可能泄露。模型本身存在的幻觉现象,可能在医疗等关键领域造成严重后果。此外,智能体在模拟环境中训练的策略直接应用于现实世界时,可能因环境差异产生不可预测行为,这些问题都对 Agent AI 的发展提出了严峻挑战,引发了人们对其安全性和可靠性的担忧。
下面分享一篇论文:《2024年斯坦福AgentAI论文》这篇论文围绕 Agent AI 展开,探讨了其在多模态交互领域的发展。文章介绍了 Agent AI 的新兴范式,阐述了其与大型语言模型(LLMs)和视觉语言模型(VLMs)的集成及相关问题,提出了新的训练范式和框架,讨论了不同的学习策略和机制,对 Agent AI 进行了分类并列举了多种应用任务,还提及了跨模态、跨领域理解以及持续自我改进等方面的内容,最后介绍了新的数据集和基准,强调了其对研究和行业的推动作用及面临的伦理考量。
# 01 报告摘要
Agent AI 的集成与基础模型
- 与大型基础模型的结合
- 当前 Agent AI 建模常依赖 LLMs 和 VLMs,在机器人操作和导航等任务中,利用它们生成的信息来引导行动。
- 这些模型存在局限性,在理解复杂环境和处理未见场景时表现欠佳,其输出受训练数据和算法影响,可能出现不准确或不合理的情况。
- 例如在一些机器人导航任务中,仅依靠 LLMs 和 VLMs 可能无法准确应对复杂多变的现实场景。
- 无限智能体概念
- 针对新任务训练数据获取困难的问题,提出无限智能体概念,它可从通用基础模型中转移记忆信息,用于新场景的理解、生成和编辑。
- 以 RoboGen 为例,其能在机器人任务中自主运行任务提议、环境生成和技能学习循环,成功将大模型知识迁移至机器人领域。
- 无限智能体为解决新场景下的任务执行提供了新的思路和方法。
- 模型相关问题探讨
- LLMs 和 VLMs 虽功能强大,但存在不少问题。文本生成时容易出现幻觉,可能产生与源材料矛盾或额外的信息。
- 模型训练数据的偏见会致使智能体输出存在偏见,影响公平性和包容性。
- 在数据隐私方面,必须关注用户数据的收集、存储、使用和删除等环节,确保用户权利得到保障。
Agent AI 的范式、学习与系统
- 新范式与框架
- 提出包含环境感知与任务规划、智能体学习、记忆、行动和认知等重要子模块的新范式,用于训练 Agent AI。
- 该范式旨在实现对多模态输入的有效理解、长期任务规划、记忆编码与检索以及利用环境反馈改进行动决策。
- 为 Agent AI 的训练提供了更系统、全面的理论框架。
- 学习策略与机制
- 学习策略涵盖强化学习(RL)、模仿学习(IL)等。RL 面临奖励设计、数据收集和长视野步骤等挑战,LLMs 和 VLMs 有助于设计奖励函数等以缓解这些问题;IL 通过模仿专家行为训练智能体,在机器人领域基于 IL 的方法能使机器人学会执行任务。
- 传统 RGB 输入在机器人学习中存在维度诅咒问题,可通过增加数据或引入归纳偏差来解决,同时也关注上下文学习和智能体系统优化等方面。
- 多种学习策略和机制为 Agent AI 的发展提供了多样化的技术路径。
- 智能体系统构成
- Agent 系统包括模块和基础设施。模块用于训练或上下文学习,能促进智能体有效调度和协调。
- 基础设施方面,微软等在构建高质量基础设施上投入,虽取得一定进展,但当前人机交互系统仍存在局限,如开发成本高、对用户目标支持不足等,未来大模型有望改善这些现状。
Agent AI 的分类、应用与跨领域挑战
- 智能体分类
- 分为通用智能体、具身智能体、模拟与环境智能体、生成式智能体、知识与逻辑推理智能体等类别。通用智能体功能不断拓展;具身智能体致力于解决与环境交互的任务;模拟与环境智能体通过模拟环境学习行动策略;生成式智能体可降低交互内容成本并赋能用户创作;知识与逻辑推理智能体注重知识推理应用,包含知识智能体、逻辑智能体、情感推理智能体和神经符号智能体等不同类型。
- 各类智能体在功能和应用场景上各有侧重,共同构建了 Agent AI 的丰富生态。
- 应用领域广泛
- 在游戏领域,可用于改进 NPC 行为、增强人机交互、分析游戏行为等,利用 LLMs 和 VLMs 能使 NPC 行为更智能,提升游戏沉浸感。
- 在机器人领域,视觉运动控制、语言条件操作、技能优化等方面取得进展,但也面临如精确执行任务、理解环境微妙线索等挑战。
- 在医疗领域,可作为诊断、护理助手等,但要注意数据偏差、模型幻觉等问题,以确保安全有效应用。
- 跨模态与跨领域挑战
- 跨模态理解面临数据集缺乏和数据模态特定等问题,导致多数系统采用冻结子模块组合,未来需要改进策略。
- 跨领域理解的挑战在于不同领域视觉外观和行动空间差异大,现代方法多针对特定领域微调模型,难以捕捉共性和利用多领域数据。
- 在跨现实应用中,如 sim - to - real 转移,面临模拟与现实环境差异导致模型应用困难的问题,可通过领域随机化、领域适应和改进模拟等方法解决,但仍是研究难点。
# 02 报告节选
# 03 报告参考
《2024年斯坦福AgentAI论文》