吴恩达教授最近在红杉AI Ascent 2024活动上分享了关于 Agent 的一个非常有意思的观点,那就是流程化 Agent 的价值被大大低估了,基于 GPT-3.5 构建的 Agent 工作流在实际应用中的表现比 GPT-4 更好。
Agent 工作流程是一个动态的、迭代的过程,类似于人类在写作、编程或其他创造性工作中的思考过程,它允许AI Agent通过不断的迭代来优化其工作成果,而这个迭代对于大多数人类作家写出好的文本至关重要。
他同时提出了4种Agent 的主流设计模式,分别是:
反思(Reflection):LLM 检查自己的工作,以提出改进方法;
工具使用(Tool Use):LLM 拥有网络搜索、代码执行或任何其他功能来帮助其收集信息、采取行动或处理数据;
规划(Planning):LLM 提出并执行一个多步骤计划来实现目标(例如,撰写论文大纲,然后进行在线研究,然后撰写草稿......);
多智能体协同(Multi-agent Collaboration):多个 AI 智能体一起工作,分配任务并讨论和辩论想法,以提出比单个智能体更好的解决方案。
波形智能自研的 AIWaves Agents 框架集成了上述4种模式的落地,同时基于该框架和Weaver大模型形成了 Agent 类写作产品「蛙蛙写作」。
本文将以 AIWaves Agents 框架的构建和蛙蛙写作中论文、小红书文案等智能写作的实际案例,来为大家分享 Agent 的价值和应用思路。
👉🏻 AIWaves Agents 官网:
http://www.aiwaves-agents.com/
👉🏻 蛙蛙写作官网:
https://www.wawawriter.com/
1 Reflection模式
含义:LLM 检查自己的工作,以提出改进方法。
背景:大模型擅长一次生成,有时候需要人类用户提供关键反馈以帮助 LLM 改进其输出。 另外,目前多数的Agent 框架都是在特定环境中被部署,只能执行当下环境中的任务,不具备自我思考和进化的能力。
Reflection模式适用于让 LLM 自动执行提供关键反馈的步骤,对输出进行自我纠错。并且会从历史经验、历史认知和历史结果中进行反思和优化,进而使做出的行动决策适应环境的变化,是一种非常经典的技术方式。
功能:相比传统的Agent 框架, AIWaves Agents 具备自适应环境和反思能力,不仅能够变通地应对复杂的动态的环境、而不仅仅专注于特定任务,还可以通过环境互动来反思优化自己的行为,比如主动收集知识,改变自己知识库当中的知识存量等,从而更好地达成人类设定的目标。
2 Tool Use 模式
含义:LLM 拥有网络搜索、代码执行或任何其他功能来帮助其收集信息、采取行动或处理数据。
背景:大多数情况下,大模型仅根据训练记忆生成内容,这使得 LLMs 的使用受到限制。 Tool Use 模式赋予 LLM 可以请求调用的功能,能够连接到数据库或内部知识库等,也能联网搜索信息,是最受到广泛使用和认可的一种关键设计模式。
落地场景:我们期望 Agent 能够集成更有效的内容,以提供更高质量的文本输出而非闭门造车。特别是在写作中,比如生成一篇小红书出游攻略时, Agent 能够联网搜索当地天气、交通路线、景区营业时间等实时的图文信息,同时按照作者习惯和平台调性进行编辑排版,进而生成即写即用的优质内容。
实现效果:蛙蛙写作支持上传文档或保存网页来构建自己的个人知识库,它会自动组织和总结知识库,并在撰写故事和文章时将其作为参考资料使用。
此外,蛙蛙写作支持使用外部API(如网络搜索)和内置编辑器API(如加粗或调整行间距)的能力,能够完成比传统AI助手更复杂的任务。
3 Planning 模式
含义:LLM 提出并执行一个多步骤计划来实现目标(例如,撰写论文大纲,然后进行在线研究,然后撰写草稿......)。
背景:大模型在开放环境下的人机对话和闲聊已经取得显著效果,但其在解决实际工作中的复杂任务,比如推理、决策等任务上的能力仍有待提升。 Planning 模式适用于让 LLM 预先考虑多个执行步骤,将复杂的任务分解为更易处理的子任务,并不断根据反馈去重新调整,进而制定出最佳策略方案,属于比较新颖且有前景的设计模式。
落地场景:我们期望 Agent 像人类一样思考规划,当输入一项任务时,它会有计划地自主拆解流程、选择工具、调用、执行并输出结果。比如撰写学术论文,智能体会先学习知识库内的资料,然后再联网搜索有用的参考信息,筛选出有针对性的内容,接着进行重要信息的总结和整理,以及更深层次的思考提炼,最后输出一篇质量比较高的论文。
实现效果:蛙蛙写作基于 AIWaves Agents 中的 SOP 流程系统,构建了稳定可控的 Writing Agents ,支持动态 Planning ,能够在标准的协作编辑器中表现得像独立的人类合作者/合著者。
Writing Agents 通过阅读文档的定制设置(如标题或简短描述)来理解当前文档的目标,然后根据文档中的当前内容和人类用户最近的行为(如近期关注点)采取行动。
4 Multi-agent Collaboration 模式
含义:多个 AI 智能体一起工作,分配任务并讨论和辩论想法,以提出比单个智能体更好的解决方案。
背景:大模型偶尔会遇到需要团队协同才能够完成的系统性任务,但单个智能体通常只专注于某项单一能力。 Multi-agent Collaboration 模式为不同的Agent分配不同的角色定位与任务信息,通过 Agent 之间的协作来提高系统的性能和效率,以实现一些超出单个智能体能力范围的任务,也是一种新兴的 Agent 技术。
功能: AIWaves Agents 支持多智能体系统构建,并且核心亮点是框架中的 SOP 系统支持了基于LLM的控制器,可以根据当前状态的目标,智能体的行为,和当前环境,来决定是否进入下一个状态,以及确定下一个行动的智能体应该是谁。
通过创建多个具有不同能力与身份的 Agent 进行协作, LLM 可以完成更加复杂的任务。可以想象一些常见的多智能体场景,用户只需要用自然语言填写配置文档,就能轻松定义各种功能和使用场景的多智能体系统,尤其是包含各种角色的内容(剧本/小说等)创作工作室。
“多智能体影视工作室”系统展示
工作流拆解
Step 1:配置多智能体系统参数 (框架提供了相应的 WebUI)
Step 2:得到 JSON 配置文件
Step 3:启动多智能体系统
成果展示
该影视工作室中包括了作家,编辑,导演,和演员等角色。 SOP 中规定了首先作家和编辑要根据特定的剧情设定来构思人设和剧本大纲,之后作家根据大纲写出剧本,再由导演根据剧本指导多个演员一起进行每一段情节的表演:
另外,蛙蛙写作中也支持用户定制他们的多个 Writing Agents ,并在撰写故事或文章时与其中一个或几个合作。用户可以为每个 Writing Agents 指定任务,而多个 Agent 也可以相互交流,自主分配工作。
Agent未来的故事空间很大。正如吴恩达教授所说:“通往AGI的道路,宛如一场旅程而非终点,但我相信, Agent 工作流程能帮助我们在这条漫长征途上迈出微小而坚实的一步。”