机器之心PRO · 会员通讯 Week 34
---- 本周为您解读 ⑦个值得细品的 AI & Robotics 业内要事 ----
1. LLM-as-Agent 技术谁家强?
AI Agent 是什么?LLM-as-Agent 是什么?为什么要用 LLM 做 Agent?开源和闭源模型谁更擅长做 Agent?LLM-as-Agent 当前的局限有什么?...
2. 图灵奖得主 Yoshua Bengio 的 AI 意识可能性研究报告探讨了什么?
什么样的 AI 才算有意识?对 AI 意识的研究都有哪些理论支撑?现在已经有 AI 模型具备意识了吗?...
3. 做机器人大脑只有 LLM 一个选择吗?
什么叫做用 LLM 做机器人大脑?谁在做机器人大脑?LLM 跟机器人有什么关系?LLM 做的大脑有有前途吗?...
4. OpenAI 开放微调API,MaaS 搞得起来吗?
ChatGPT 3.5 Turbo 开放微调功能做什么?价格如何?OpenAI 还有哪些 Maas 服务?收费情况如何?有哪些国内大厂也在做 MAAS 业务?...
5. OneFlow 团队兜了一圈叒LLM创业了
Oneflow 为何选择「AI Infra」方向?此前还有谁入局「AI Infra」?「AI Infra」有哪些知名团队?…
6. 是时候盘一下代码生成模型了!
本周新出了什么代码生成模型?新的模型表现如何?代码生成模型大盘点 ...
7. 小米造车进展了解一下
小米造车时间线全回顾;小米获发改委批准,生产电动汽车;小米造车坊间传闻汇总;小米为什么造车?赚钱吗?...
...本期完整版通讯含以上 6 项专题解读 + 36 项本周 AI & Robotics 赛道要事速递,其中技术方面 12 项,国内方面 10 项,国外方面 14 项...
本期通讯总计 27298 字,可免费试读至 7 %
消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元)
要事解读 ①LLM-as-Agent 技术哪家强?
事件:8 月 22 日,清华 GLM 团队发布 AgentBench 基准,用于评估 LLMs 作为智能体的能力,发现开源模型与商业模型之间还存在显著的能力差距。
各家 LLM 扮 Agent 表现都如何?[1]
清华 KEG 与数据挖掘小组(开发 GLM 的团队)开发了 AgentBench 测试基准,用于评估 LLMs 在多回合开放式生成环境中的推理和决策能力,含 8 个环境。他们选取了 25 个闭源/开源的模型,通过 API 或 Docker 的方式进行测试。
1、顶级 LLM 已具备处理真实世界环境交互的强大能力。
① GPT-4 在 AgentBench 的 8 个数据集中有 7 个表现最佳,在「网络购物(WS)」环境中稍弱。
② GPT-4 在「家居(HH)」 有 78%的成功率,表明模型已具备实际可用性。
③ 其他基于 API 的 LLM 表现相对较差,但同样展示了在一定程度上解决问题的能力,表明这些模型具备作为 Agent 的潜力。
2、大多数开源 LLM 在 AgentBench 中的表现远不如基于 API 的 LLM(平均分为 0.42 对比 2.24)。
① openchat-13b-v3.2 是评分中能力最强的开源模型(得分 1.15),但仍与 gpt-3.5-turbo 存在明显的性能差距,与网上的说法相冲突。
② 根据测评表现,开源的 LLM 在诸如知识图谱(KG)、卡牌对战(DCG)和家居(HH)等具有挑战性的任务中,通常无法解决任何问题。
3、作者团队在测评中发现 V0.2 版本的 ChatGLM2 (即他们自己的模型)在 8 个闭源模型中的表现较差,表示将在未来工作汇总着重改进。
什么是 AI Agent?[3]
2023 年 6 月,OpenAI 的 Safety 团队负责人 Lilian Weng 发布了一篇 6000 字的博客介绍 AI Agent,并认为这将使 LLM 转为通用问题解决方案的途径之一。我们根据该篇博客总结提炼了关于 AI Agent 的相关内容。
1、AI Agent 是一种智能体系统,以 LLM 作为核心控制器。
① 一些开源项目,如 AutoGPT、GPT-Engineer 和 BabyAGI 等,采用了类似的方法。AI Agent 的目标不仅仅是生成高质量的文本、故事、散文和程序,它还可以被构建成一个强大的通用问题解决器。
2、AI Agent 的核心概念是使用 LLM 解决问题。
① LLM 的主要能力在于理解意图并生成文本,但通过让 LLM 学会使用工具,可以大大扩展其能力。AI Agent 系统就是通过这种方式实现的。
3、AI Agent 主要由规划(Planning)、记忆(Memory)、工具使用(Tool Use)三个核心组件构成。
① 规划组件:将大型任务分解为较小的、可管理的子目标;进行反思与细化,对过去行为进行分析、总结和提炼,以提高自身的智能和适应性,提高最终结果的质量。