用GPT-4训练机器人，英伟达最新Agent开源：任务越复杂越拿手

作者：量子位发布时间：2023-10-23

GPT-4 英伟达

训练机器人，AI比人类更拿手！

英伟达最新AI AgentEureka，用GPT-4生成奖励函数，结果教会机器人完成了三十多个复杂任务。

比如，快速转个笔，打开抽屉和柜子、抛球和接球。

尤其是转笔这个技能，要知道靠人类逐帧制作动画，也是非常困难的。

最终，Eureka在超过80%的任务中都超越人类专家，让机器人平均性能提升到50%以上。

这一研究吸引了数十万网友关注，有人表示：直接快进到它弹钢琴那天，直接为大众所用。

英伟达科学家，也是此次共同作者之一Jim Fan评价到，它是超级人类奖励工程师。它可以辅助机器人工程师设计复杂任务。

目前该项目完全开源。

GPT-4生成奖励策略

在机器人学习中，大模型擅长生成高级语义规划和中级操作，比如拾取和放置（VIMA、RT-1等），但在复杂任务控制方面有所欠缺。

而Eureka的关键所在，就是通过上下文来实现了人类水平的奖励算法设计。

简单来说，就是用GPT-4的零样本生成、代码编写以及上下文改进功能，对奖励执行策略进行优化，由此通过强化学习来进行复杂的技能。

研究人员提出了一种混合梯度架构，外循环运行 GPT-4 来细化奖励函数（无梯度），而内循环运行强化学习来训练机器人控制器（基于梯度）。

主要有三个关键组成部分：

模拟器环境代码作为上下文启动初始“种子”奖励函数。
GPU上的大规模并行强化学习，可以快速评估大量候选奖励。
奖励反射reward reflection，得益于GPT-4评估和修改能力，一步步迭代。

首先，无需任何特定提示工程和奖励模版。使用原始Isaac Gym（一种GPU加速的物理模拟器）环境代码作为上下文，生成初始奖励函数。

这种无梯度的情境学习方式，可以根据各种形式的人类输入，生成性能更强、符合开发人员愿景的奖励函数。

其次，Eureka在每个进化步骤中都会生成很多候选函数，然后利用强化学习训练来进行快速评估。

以往这种过程需要几天甚至几周来完成，但由Isaac Gym可将模拟时间提高1000倍，强化学习内循环能在几分钟完成。

最后，依赖于奖励反射，Eureka还支持一种新形式的上下文 RLHF。它能够将人类操作员的反馈融入自然语言中，以引导和调整奖励功能。

最终，在29种不同的开源RL环境中，83%基准测试中Eureka都优于人类，并实现了52%改进。

这些环境包括10种不同的机器人形态，比如四足机器人、四旋翼机器人、双足机器人、机械手等。

让研究人员惊讶的是，尤其在处理复杂、高维电机控制的任务上，Eureka表现更好，且与人类奖励的相关性越低。

甚至在少数情况下，AI的策略与人类的策略呈现负相关。

这就有点像当年 AlphaGo的下棋策略，人类看不懂学不会，但十分有效。

英伟达出品

这项研究由英伟达、宾夕法尼亚大学、加州理工学院、德州大学奥斯汀分校的研究人员来完成。

可以看到的是，近半数研究人员都是华人。

一作是Yecheng Jason Ma，目前是宾大GRASP 实验室的四年级博士生，研究方向是强化学习和机器人学习。

英伟达科学家Jim Fan此次也是通讯作者之一。

咳咳，不过至于网友提到的弹钢琴，Jim Fan自己曾分享过：只需几个简单按钮，AI就能实时即兴生成演奏音乐。

不知道，未来会不会这样的呢？（不过，这研究已经是2018年的了）

论文链接

https://arxiv.org/abs/2310.12931

GitHub链接

https://github.com/eureka-research/Eureka

参考链接

https://venturebeat.com/ai/new-nvidia-ai-agent-powered-by-gpt-4-can-train-robots/

https://twitter.com/DrJimFan/status/1715397393842401440

本文来自微信公众号“量子位”（ID:QbitAI），作者：白交，36氪经授权发布。

近期资讯

攻克 LeetCode 186：反转字符串中的单词，你学会了吗？

一、引言在编程的世界里，LeetCode 无疑是一块检验实力的试金石。众多大厂面试中，LeetCode 上的题目频繁出现，成为了程序员们迈向心仪岗位的必经之路。今天，我们就来深入剖析一道经典题目 —

高手永远不会趴着 2024-12-26

曝小米MIX Flip 2发布时间提档：第一代卖得太好了

快科技12月27日消息，博主数码闲聊站暗示，明年上半年小米MIX Flip 2就会亮相，第一代MIX Flip卖得太好，所以第二代直接提档了。资料显示，小米MIX Flip于今年7月份发布，是小米第一款小折叠机

2024-12-27

比亚迪秦PLUS EV荣耀版发布优惠：限时9.98万元起！

快科技12月27日消息，比亚迪秦PLUS EV荣耀版目前推出限时优惠。即日起至2025年1月26日，购车可享1万元优惠，起售价降至9.98万元。对于在2024年12月31日前完成购车开票的用户，比亚迪提供至高

2024-12-27

《Java网络编程》流的使用

Java网络编程第一章流前言网络程序所做的很大一部分工作都是简单的输入和输出：将数据字节从一个系统移动到另一个系统。一、Java中的流？ Java的I/O建立于流（stream）。输入流读取

ZZZ_Tong 2024-12-26

ReentrantLock 锁详细介绍

ReentrantLock 是 Java 中 java.util.concurrent.locks 包提供的一种锁实现，它是 Java 并发编程中用于替代 synchronized 关键字的锁机制。与

倚栏听风雨 2024-12-26

《Java网络编程》过滤器流

java网络编程第一章过滤器流前言过滤器流（Filter InputStream）是Java中一种特殊的输入流，它允许你通过链式组合的方式，将多个输入流的功能叠加在一起，从而实现对输入数据的各

ZZZ_Tong 2024-12-26

【OpenHarmony】鸿蒙 UI开发之ohos-autofittextview

效果展示下载安装使用说明初始化设置属性在build中使用 DD一下：鸿蒙开发各类文档，也可关注公众号获取。接口说明 @State model: AutofitTex

塞尔维亚大汉 2024-12-26

现代汽车宣布即将开始生产全固态电池：2030年前量产

快科技12月27日消息，现代汽车近日宣布，即将开始生产全固态电池，并计划将其应用于电动汽车市场。现代汽车表示，这项技术将带来更长的续航、更快的充电速度和更高的能量密度，是电动汽车行业

2024-12-27

不买你真傻！董明珠：格力该卖贵不用铝代替铜、免费包修

快科技12月27日消息，有董明珠在，格力就不会缺少话题，而她本人也是又一次谈起了为什么格力产品卖的贵，质量好等大家关心的问题。在董明珠看来，格力做的不是眼前一点利益，而是为国家、行业

2024-12-27

Condition 详细介绍

Condition 接口是 Java 中 java.util.concurrent.locks 包的一部分，与 ReentrantLock 配合使用来实现线程间的协调。Condition 提供了类似于

倚栏听风雨 2024-12-26

用GPT-4训练机器人，英伟达最新Agent开源：任务越复杂越拿手

GPT-4生成奖励策略

英伟达出品

论文链接

GitHub链接

参考链接

推荐体验

相关资讯

机器人学会转笔、盘核桃了！GPT-4加持，任务越复杂，表现越优秀

英伟达用ChatGPT-4训练机器人，代码水平超过人类专家

GPT-4的“自我纠正”，反而越改越错？

英伟达基于GPT-4的人工智能Eureka，训练机器人比人类还好？！

MIT开发新方法，无需从头训练机器人即可执行复杂任务

近期资讯

攻克 LeetCode 186：反转字符串中的单词，你学会了吗？

曝小米MIX Flip 2发布时间提档：第一代卖得太好了

比亚迪秦PLUS EV荣耀版发布优惠：限时9.98万元起！

《Java网络编程》流的使用

ReentrantLock 锁详细介绍

《Java网络编程》过滤器流

【OpenHarmony】鸿蒙 UI开发之ohos-autofittextview

现代汽车宣布即将开始生产全固态电池：2030年前量产

不买你真傻！董明珠：格力该卖贵不用铝代替铜、免费包修

Condition 详细介绍

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响