英伟达：当前处于第二波智能体浪潮，包含软件智能体和具身智能体

作者：DeepTech深科技发布时间：2024-07-07

当 ChatGPT 首次发布时，人工智能领域的每个人都在谈论新一代人工智能助手。但在过去的一年里，这种兴奋转向了一个新的目标：智能体（AI agents）。

智能体在 2024 年 5 月份的谷歌年度 I/O 大会上占据了重要地位。当时，该公司推出了名为 Astra 的新智能体，用户可以使用音频和视频与之交互。

OpenAI 的新 GPT-4o 模型也被称为智能体。

（来源：AI 生成）

这里面有一些炒作的成分，但不仅只是炒作。科技公司正在投入巨额资金创建智能体，它们的研究工作可能会带来我们几十年来一直梦想拥有的、真正有用的人工智能。

包括山姆·奥特曼（Sam Altman）在内的许多专家表示，智能体是下一个行业重点。但它是什么？我们该如何使用它？

它们是如何定义的？

对智能体的研究还处于早期，该领域还没有对其进行明确的定义。

英伟达高级研究科学家、该公司智能体项目负责人 Jim Fan表示，它们本质上就是人工智能模型和算法，可以在动态世界中自主做出决策。

智能体的宏伟愿景是一个可以执行大量任务的系统，很像人类助手。

未来，它可以帮助你预订假期，但它也会记住你是否更喜欢豪华酒店，所以它只会建议四星级以上的酒店，然后去预订其中的一家。

它还将建议最适合你日程的航班，并根据你的喜好规划行程。它可以根据旅行计划和天气预报列出需要携带的物品清单。

智能体甚至可能会把你的行程发给你的朋友，并邀请他们一起去。

在工作中，它可以分析你的待办事项列表并完成合适的任务，例如发送会议邀请、备忘录或电子邮件。

智能体的愿景之一是多模态，这意味着它们可以同时处理语言、音频和视频。

例如，在谷歌的 Astra 演示中，用户可以用智能手机摄像头对准东西，并向智能体提问。智能体可以对文本、音频和视频输入做出响应。

英国伦敦大学学院人工智能中心主任大卫·巴贝尔（David Barber）表示，这些智能体还可以使企业和公共组织的流程更加顺畅。例如，智能体可能能够充当更复杂的客服机器人。

当前一代基于语言模型的助手只能生成下一个可能的单词并组成句子，但智能体将有能力自主处理自然语言命令，并在没有监督的情况下处理客服任务。

巴贝尔举例子说，智能体将能够分析客户的投诉邮件，然后知道如何检查客户的单号，访问客户关系管理和交付系统等数据库，以查看投诉是否成立，并根据公司的政策进行处理。

Fan 说，广义上讲有两类不同的智能体：软件智能体（software agents）和具身智能体（embodied agents）。

软件智能体在电脑或手机上运行并使用应用程序。他说：“这些智能体对办公室工作、发送邮件或完成相关的一系列工作非常有用。”

具身智能体是位于 3D 世界（如视频游戏）或机器人中的智能体。这类智能体理可以让人们与人工智能控制的非玩家控制角色一起行动，从而使电子游戏更具吸引力。

这类智能体还可以帮助构建更有用的机器人，帮助我们完成日常家务，如叠衣服和做饭。

Fan 所在的团队在流行的电脑游戏《我的世界》中构建了一个名为 MineDojo 的智能体。

利用从互联网上收集的大量数据，Fan 的智能体能够学习新的技能和任务，使其能够自由探索虚拟 3D 世界，并完成复杂的任务，如用栅栏围住骆驼或将熔岩铲入桶中。

电子游戏可以很好地模拟真实世界，因为它们需要智能体能够理解物理、推理和常识。

美国普林斯顿大学的研究人员在一篇尚未经过同行评审的新论文中表示，智能体往往具有三种不同的特征。

如果人工智能系统能够在复杂环境中无需指导地尝试困难的目标，那么它们就被认为是“智能体”。如果它们能在没有监督的情况下接受自然语言的指导并自主行动，那么也可以算是智能体。

最后，“智能体”一词也适用于能够使用网络搜索和编程等工具，或者能够进行规划的系统。

它们是新事物吗？

美国华盛顿大学计算机科学教授奇拉格·沙阿（Chirag Shah）表示，“智能体”一词已经存在多年，在不同的时间意味着不同的东西。

Fan 说，已经出现了两波智能体热潮。当前的浪潮要归功于语言模型的繁荣和 ChatGPT 等系统的兴起。

上一波是在 2016 年，谷歌 DeepMind 推出了 AlphaGo，这是一个强大的围棋人工智能系统。AlphaGo 能够做出决策并制定战略。这依赖于强化学习，这是一种奖励人工智能算法做出理想行为的技术。

谷歌 DeepMind 研究副总裁奥里奥尔·维尼亚尔斯（Oriol Vinyals）表示：“但这些智能体并不会完成其他任务。”

它们是为非常特定的任务而创建的，比如 AlphaGo 只会下围棋。新一代基于基础模型的人工智能使智能体更加普遍，因为它们可以从人类互动的世界中学习。

维尼亚尔斯说：“你会觉得这个模型是在与世界互动，然后给你更好的答案或更好的辅助等等。”

限制是什么？

仍有许多悬而未决的问题需要回答。人工智能初创公司 Imbue 的 CEO 兼创始人 Kanjun Qiu 致力于开发能够推理和编程的智能体，她将智能体的现状比作十多年前的自动驾驶汽车。

它们可以做一些事情，但它们不够可靠，而且仍然没有真正的自主性。

Qiu 说，例如，编程智能体可以生成代码，但有时会出错，而且它不知道如何测试其正在创建的代码。

因此，人类仍然需要积极参与这一过程。人工智能系统仍然无法完全实现推理，这是在复杂而模糊的人类世界中运行的关键一步。

Fan 说：“我们还远远没有一个可以为我们自动化所有这些家务的智能体。”其表示，目前的系统“会产生幻觉，而且它们也不总是严格遵循指令”。

另一个限制是，一段时间后，智能体会“忘记”它们所做的工作内容。人工智能系统受到其上下文窗口的限制，这意味着它们可以“思考”的数据量是有限的。

“ChatGPT 可以写代码，但不能很好地处理特别长的内容。但对于人类开发人员来说，我们要查阅的是整个 GitHub 代码库，其中有成千上万行的代码，人类是完全可以阅读它的。”Fan 说。

为了解决这个问题，谷歌提高了其模型处理数据的能力，这使得用户可以与它们进行更长的互动，从而更好地记住过去的互动。

该公司表示，它正在努力使其上下文窗口在未来变得无限大。

对于像机器人这样的具身智能体来说，还有更多的局限性。我们没有足够的训练数据来训练它们，研究人员才刚刚开始利用机器人基础模型的力量。

因此，在所有的炒作和兴奋中，我们必须记住的是，对智能体的研究仍处于早期阶段，我们可能需要数年时间才能充分体验它们的潜力。

现在就可以体验吗？

某种程度上是的。你很可能已经尝试过它们的早期原型，比如 OpenAI 的 ChatGPT 和 GPT-4。Qiu 说：“如果你正在与感觉很智能的软件交互，那它就是一种智能体。”

她说，目前我们拥有的最好的智能体是具有特定用例的系统，如编程助手、客服机器人或 Zapier 等工作流程自动化软件。但这些与能够完成复杂任务的通用智能体相去甚远。

Qiu 说：“今天我们有了这些计算机，它们真的很强大，但我们必须对它们进行微观管理。”

Qiu 说，OpenAI 的 ChatGPT 插件允许人们为网络浏览器创建人工智能助手，这是对智能体的一次尝试。但她说，这些系统仍然笨拙、不可靠，而且无法推理。

尽管如此，Qiu 认为，这些系统总有一天会改变我们与技术互动的方式，这是人们需要关注的趋势。

她说：“这并不是说，突然之间我们就有了通用人工智能。而是说，我的电脑比五年前能完成更多的事情。”

支持：Ren

排版：刘雅坤

近期资讯

曝安谋科技裁员：补偿N+3

快科技12月30日消息，近日有网友在某社交平台爆料称，国内半导体IP大厂安谋科技（Arm中国）的CPU部门将裁员，目前该部门约30-40人，补偿方案为“n+3”，年终奖可正常发放，社保将会交

振亭 2024-12-30

国产家电新巨头！小米大家电团队入驻独栋办公楼

快科技12月30日消息，在2024年即将结束时，小米集团大家电部总经理单联瑜今晚通过微博分享了一个好消息——小米大家电团队入驻全新独栋办公楼。据介绍，小米大家电业务团队今日正式

拾柒 2024-12-30

请相信我们！国足门将：中国足球0比7输日本是前进动力

12月30日消息，今日，中国男足门将王大雷在社媒分享比赛和生活照，并发文回顾2024年。王大雷坦言，0-6和0-7的惨痛失利，给了别人可以用数字来羞辱他的机会，但只有自己知道，这是他前进、提不

2024-12-30

摩尔线程国产专业显卡来了：16GB显存兼容x86、Arm

快科技12月30日消息，今年9月，国产显卡摩尔线程MTT X300首次曝光，目前该专业显卡已在摩尔线程官网上线。MTT X300兼容x86、Arm、LoongArch等主流CPU架构，支持DirectX、Vulkan、OpenGL和Open

拾柒 2024-12-30

十年前的旗舰电脑今天是什么水平性能堪忧

在DIY电脑领域，硬件的更新换代速度总是令人咋舌。那么，一台十年前的旗舰级电脑，如果放在今天，其性能究竟是什么水平呢？2014年的旗舰级电脑，可以用上英特尔酷睿i7-5960X。这款处理器采用了

2024-12-30

雷军在小米汽车工作做跨年直播：要播4个多小时

快科技12月30日消息，今日晚间，小米创办人雷军预告，他会在12月31日晚上8点开启一场跨年直播。雷军表示，这场直播至少持续4个半小时，今年对我来说是梦幻的一年，有太多难忘的瞬间，想跟大家

振亭 2024-12-30

Win11疯狂推送Xbox广告：买个XGP吧！

据Windows Latest报道，最近越来越多关于Game Pass的广告出现在 Windows 11 上，系统界面右下角弹出提醒，推荐用户尝试PC Game Pass。广告中提到，用户可以购买PC Game Pass来 Windows 11 PC上

2024-12-30

向佐致歉：退出东方卫视跨年晚会

12月30日消息，据媒体报道，向佐发文表示，他将退出东方卫视跨年晚会。向佐称，衷心感谢东方卫视跨年盛典节目组及观众朋友们的信任和支持，我非常期待也很珍视这次跨年舞台的演出机会，为此也

2024-12-31

A0级电轿最快交付记录！吉利星愿上市80天交付破5万大关

快科技12月30日消息，吉利银河近日宣布，吉利星愿自上市以来的交付量已在80天内突破5万辆，刷新了A0级纯电轿车的最快交付速度。自10月9日正式发布上市以来，吉利星愿的交付节点显示，上

王略 2024-12-30

美女产品经理开箱REDMI Turbo 4：一眼心动

快科技12月30日消息，今天，REDMI产品经理胡馨心开箱上手REDMI Turbo 4，她开箱的是Turbo 4的主打配色—祥云白，称“一眼心动”。据悉，REDMI Turbo 4祥云白采用白色机身搭配红

振亭 2024-12-30

英伟达：当前处于第二波智能体浪潮，包含软件智能体和具身智能体

推荐体验

相关资讯

智能体专题报告之二：智能体时代来临，具身智能有望成为最佳载体-中银证券

静态代理IP智能体引领新交互，具身智能重塑制造业

AI趋势洞察：智能体将重构人机交互，具身智能颠覆制造业

打造具身智能体！东风汽车科技跃迁3.0，以科技“硬核”引领智能新风潮

科学家提出模仿学习算法，用GPT-4跨模态训练具身智能体，让智能体与现实世界有效对齐

近期资讯

曝安谋科技裁员：补偿N+3

国产家电新巨头！小米大家电团队入驻独栋办公楼

请相信我们！国足门将：中国足球0比7输日本是前进动力

摩尔线程国产专业显卡来了：16GB显存兼容x86、Arm

十年前的旗舰电脑今天是什么水平性能堪忧

雷军在小米汽车工作做跨年直播：要播4个多小时

Win11疯狂推送Xbox广告：买个XGP吧！

向佐致歉：退出东方卫视跨年晚会

A0级电轿最快交付记录！吉利星愿上市80天交付破5万大关

美女产品经理开箱REDMI Turbo 4：一眼心动

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响