LLM-as-Agent 技术哪家强？

作者：机器之能发布时间：2023-08-31

GPT-4

机器之心PRO · 会员通讯 Week 34

---- 本周为您解读 ⑦个值得细品的 AI & Robotics 业内要事 ----

1. LLM-as-Agent 技术谁家强？

AI Agent 是什么？LLM-as-Agent 是什么？为什么要用 LLM 做 Agent？开源和闭源模型谁更擅长做 Agent？LLM-as-Agent 当前的局限有什么？...

2. 图灵奖得主 Yoshua Bengio 的 AI 意识可能性研究报告探讨了什么？

什么样的 AI 才算有意识？对 AI 意识的研究都有哪些理论支撑？现在已经有 AI 模型具备意识了吗？...

3. 做机器人大脑只有 LLM 一个选择吗？

什么叫做用 LLM 做机器人大脑？谁在做机器人大脑？LLM 跟机器人有什么关系？LLM 做的大脑有有前途吗？...

4. OpenAI 开放微调API，MaaS 搞得起来吗？

ChatGPT 3.5 Turbo 开放微调功能做什么？价格如何？OpenAI 还有哪些 Maas 服务？收费情况如何？有哪些国内大厂也在做 MAAS 业务？...

5. OneFlow 团队兜了一圈叒LLM创业了

Oneflow 为何选择「AI Infra」方向？此前还有谁入局「AI Infra」？「AI Infra」有哪些知名团队？…

6. 是时候盘一下代码生成模型了！

本周新出了什么代码生成模型？新的模型表现如何？代码生成模型大盘点 ...

7. 小米造车进展了解一下

小米造车时间线全回顾；小米获发改委批准，生产电动汽车；小米造车坊间传闻汇总；小米为什么造车？赚钱吗？...

...本期完整版通讯含以上 6 项专题解读 + 36 项本周 AI & Robotics 赛道要事速递，其中技术方面 12 项，国内方面 10 项，国外方面 14 项...

本期通讯总计 27298 字，可免费试读至 7 %

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读 ①LLM-as-Agent 技术哪家强？

事件：8 月 22 日，清华 GLM 团队发布 AgentBench 基准，用于评估 LLMs 作为智能体的能力，发现开源模型与商业模型之间还存在显著的能力差距。

各家 LLM 扮 Agent 表现都如何？[1]

清华 KEG 与数据挖掘小组（开发 GLM 的团队）开发了 AgentBench 测试基准，用于评估 LLMs 在多回合开放式生成环境中的推理和决策能力，含 8 个环境。他们选取了 25 个闭源/开源的模型，通过 API 或 Docker 的方式进行测试。

1、顶级 LLM 已具备处理真实世界环境交互的强大能力。

① GPT-4 在 AgentBench 的 8 个数据集中有 7 个表现最佳，在「网络购物（WS）」环境中稍弱。

② GPT-4 在「家居（HH）」有 78%的成功率，表明模型已具备实际可用性。

③ 其他基于 API 的 LLM 表现相对较差，但同样展示了在一定程度上解决问题的能力，表明这些模型具备作为 Agent 的潜力。

2、大多数开源 LLM 在 AgentBench 中的表现远不如基于 API 的 LLM（平均分为 0.42 对比 2.24）。

① openchat-13b-v3.2 是评分中能力最强的开源模型（得分 1.15），但仍与 gpt-3.5-turbo 存在明显的性能差距，与网上的说法相冲突。

② 根据测评表现，开源的 LLM 在诸如知识图谱（KG）、卡牌对战（DCG）和家居（HH）等具有挑战性的任务中，通常无法解决任何问题。

3、作者团队在测评中发现 V0.2 版本的 ChatGLM2 （即他们自己的模型）在 8 个闭源模型中的表现较差，表示将在未来工作汇总着重改进。

什么是 AI Agent？[3]

2023 年 6 月，OpenAI 的 Safety 团队负责人 Lilian Weng 发布了一篇 6000 字的博客介绍 AI Agent，并认为这将使 LLM 转为通用问题解决方案的途径之一。我们根据该篇博客总结提炼了关于 AI Agent 的相关内容。

1、AI Agent 是一种智能体系统，以 LLM 作为核心控制器。

① 一些开源项目，如 AutoGPT、GPT-Engineer 和 BabyAGI 等，采用了类似的方法。AI Agent 的目标不仅仅是生成高质量的文本、故事、散文和程序，它还可以被构建成一个强大的通用问题解决器。

2、AI Agent 的核心概念是使用 LLM 解决问题。

① LLM 的主要能力在于理解意图并生成文本，但通过让 LLM 学会使用工具，可以大大扩展其能力。AI Agent 系统就是通过这种方式实现的。

3、AI Agent 主要由规划（Planning）、记忆（Memory）、工具使用（Tool Use）三个核心组件构成。

① 规划组件：将大型任务分解为较小的、可管理的子目标；进行反思与细化，对过去行为进行分析、总结和提炼，以提高自身的智能和适应性，提高最终结果的质量。

近期资讯

智慧党建在线考试的优势是什么？

随着信息技术的迅猛发展，各行各业都在积极推动数字化转型。党建领域也不例外，智慧党建已成为当下党建工作的重要方向。其中，智慧党建在线考试作为提升党员素质、加强党组织管理的一种新型模式，其优势日益凸显。一、便捷高效的管理智慧党建在线考试打破了传统考试的地域和时间限制，实现了远程在线考试，极大地提高了考试的便捷性。通过在线考试系统，党组织可以轻松组织大规模考试，党员则可以在任何时间、任何地点参加测试，无需集中考场，节省了考试组织的人力、物力成本。同时，在线考试系统具备自动出题、智能组卷、在线答题、自动判卷

森普软件 2024-12-26

伺服电动缸与 PLC 完美结合的控制奥秘

伺服电动缸是一种广泛应用于自动化领域的执行元件，其精确控制和高响应性能使其在现代制造业中扮演着至关重要的角色。通过可编程逻辑控制器（PLC）对伺服电动缸的控制，不仅提高了系统的灵活性，还增强了操作的安全性与稳定性。今天铭辉电动缸厂家将探讨伺服电动缸的基本控制原理及其与PLC的结合方式。伺服电动缸首先，伺服电动缸的控制依赖于伺服电机、反馈装置和控制系统的紧密配合。伺服电动缸通过发送指令给伺服电机，实现位置、速度与力的精确控制。反馈装置，如编码器，能够实时监测电动缸的工作状态，并将信息反馈给控制系统，确保系

铭辉电动缸厂家 2024-12-26

工信部教考中心信创认证是不是智商税？

[图片] 最近，信创人才考评证书火爆出圈，引起了众多从业者的关注。有一部分小伙伴看到身边的人考了自己也在犹豫。虽然很火，这本证书究竟值不值得考？考了之后是否有用？看小圈为你多角度分析！一、证书权威性信创人才考评证书是由工业和信息化部教育与考试中心开展的针对信创领域的一项人才考试评价项目。工信部教考中心作为工信部直属的正规机构，还负责软考等全国性水平（资格）考试工作，资质深厚。信创人才考评证书是工信部教考中心结合我国信创发展过程中的人才需求研发并推出的，在这个角度来说，信创认证的权威性毋庸置疑。

圆圈学堂 2024-12-26

富唯智能 2024-12-26

全球动荡环境——贵金属市场的稳定器还是压力源？

在全球化的金融舞台上，黄金和白银不仅是贵重金属，更是全球经济情绪的晴雨表。2024年，这两个市场经历了剧烈波动，黄金创下历史新高，而白银则以其独特的工业和投资属性，成为大宗商品市场中的亮点。随着2025年的钟声渐近，投资者和分析师们正紧盯着地平线上的每一个经济和政治动向，试图从中窥见黄金与白银价格的未来走势。如果中东地缘政治紧张局势得到缓解，俄乌冲突得以解决，金价可能会经历大幅下行调整。特朗普的“美国优先”政策可能会导致国际事务的关注度降低，从而减少对黄金作为避险资产的需求。此外，美

巨富金业 2024-12-26

滚珠丝杠高精度高硬度型号尺寸全

大连机床6312内循环Z轴丝杠,公称直径:p63，螺距M12，总长度1194,螺纹长度993，两端直径:前端p DKX028-Z-GZSG-001-A50后端p35,螺母座外径p115长度232(附图纸)配用GS/P80誉洋打磨机;使用部位:滑台X向;直径p40*12;总长1797mm:螺纹长度1521mm;两端直径: p20-p25;螺距:12mm;螺母座外径:p84;长度rvsP-00290144mm总长1636mm,直径40mm,螺距7mm1636*7*40NBP-1000A配套设备:油欣立车,型号

蓝冰丝杠1个订 2024-12-26

高中历史写上就加分的答题术语《我看谁不知道》

大家可能很头疼历史该怎么学，因为好像怎么学都差不多，感觉分数一直上不去。学姐自己一模的时候60分，选择题错5个，到最后高考 90分，选择题根本不错，大题只扣10分，因此关于历史怎么学，我非常有发言权。但是一定一定要记住，基础是重点，一定要多背诵，把知识点往你脑子里记，你考试才能用得上! 我从三个方面给大家讲述技巧:基础知识点+答题技巧+卷面技巧基础知识点:历史分为必修上、下，选修一、二、三，基本上呢选修是必修的扩展，选修会让我们对必修的知识点掌握的更全面，答大题会更全面。必修上:首先你必须把每一个朝代

嘉琳资料库 2024-12-26

LLM-as-Agent 技术哪家强？

推荐体验

相关资讯

国内大模型AIGC哪家强

商业银行"ChatGPT"专利哪家强？

From LLM to Conversational Agent: A Memory Enhanced Architecture

AI绘画西安哪家机构培训学校强

文心和星火，哪家生成图片强？

近期资讯

智慧党建在线考试的优势是什么？

伺服电动缸与 PLC 完美结合的控制奥秘

工信部教考中心信创认证是不是智商税？

企业邮箱服务稳定性探究，关键因素双重解析

德国WSM08130D-01M-C-N-24DG电磁换向阀HYDAC贺德克

芯片是怎么烧录的？哪些芯片需要做烧录？如何选芯片烧录座？

AMR复合机器人铝板CNC上下料方案

全球动荡环境——贵金属市场的稳定器还是压力源？

滚珠丝杠高精度高硬度型号尺寸全

高中历史写上就加分的答题术语《我看谁不知道》

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响