MIT开发新方法，无需从头训练机器人即可执行复杂任务

作者：DeepTech深科技发布时间：2024-11-05

（来源：MIT News）

在经典动画《杰森一家》中，机器人女佣 Rosie 可以轻松地从打扫房间切换到做饭、倒垃圾。然而在现实中，训练一个通用机器人却是极大的挑战。

通常，工程师会为某一特定的机器人和任务收集专门的数据，在一个受控环境中对其进行训练。然而，这种数据收集不仅成本高昂且耗时，并且机器人在陌生环境或新任务下往往难以适应。

为了训练更高效的通用机器人，MIT 的研究人员开发了一种灵活的技术，将来自多种来源的大量异质数据整合到一个系统中，以此来教授机器人多种任务。

这种方法通过对来自不同领域的数据（如仿真数据和实际机器人数据）以及多种模态（如视觉传感器和机械臂位置编码器）进行对齐，将它们转化为一种“通用语言”，使得生成式 AI 模型可以处理。

通过整合大量数据，这一方法可以用于训练机器人执行多种任务，而不必每次都从头开始训练。

这种方法不仅比传统技术更快速、成本更低，而且在模拟和现实实验中，相比从零开始的训练提高了超过 20% 的性能。

“在机器人学领域，大家常说训练数据不足。但在我看来，另一个大问题是数据来自于太多不同的领域、模态和机器人硬件。我们的研究展示了如何将这些数据整合起来训练机器人。”电气工程与计算机科学（EECS）专业的研究生、论文第一作者 Lirui Wang 说道。

Wang 的合作者包括同为 EECS 研究生的 Jialiang Zhao、Meta 研究科学家Xinlei Chen，以及资深作者、EECS 副教授和计算机科学与人工智能实验室（CSAIL）成员 Kaiming He。该研究将在神经信息处理系统会议上展示。

借鉴 LLM

机器人“策略”会接收来自传感器的观测数据，例如摄像头图像或机械臂的速度和位置测量数据，进而指导机器人如何移动、去往何处。

通常，策略通过模仿学习进行训练，即由人类演示操作或远程控制机器人生成数据，再将这些数据输入 AI 模型中进行学习。然而，由于这种方法使用的任务数据量较少，机器人在环境或任务发生变化时往往表现不佳。

为此，Wang 和他的团队借鉴了 GPT-4 等大型语言模型的理念。

这些模型在训练初期使用大量多样化的语言数据进行预训练，随后再通过少量的任务数据进行微调，如此大量的预训练数据使得模型能适应多种任务。

“语言领域中的数据都是句子，而机器人数据的多样性极大。如果想以类似的方式进行预训练，我们就需要不同的架构。”他说道。

机器人的数据形式多样，从摄像头图像到语言指令，再到深度图像。同时，每台机器人在机械上也各不相同，臂数、夹持器和传感器的排列各异，数据收集的环境也千差万别。

MIT 的研究人员因此开发了一种新架构，称为异质预训练变换器（HPT），将这些不同模态和领域的数据统一起来。

他们在架构的核心部分引入了一种名为变换器的机器学习模型，用于处理视觉和本体感受（proprioception）输入。变换器正是大型语言模型的基础。

研究人员将视觉和本体感受数据对齐为一种统一的输入形式，称为“token”，变换器可以处理，每种输入都以相同数量的 token 表示。

接着，变换器将所有输入映射到一个共享空间中，随着数据处理和学习量的增加，逐渐发展为一个大型预训练模型。变换器的规模越大，其表现也越好。

用户只需向 HPT 提供少量关于机器人设计、设置和目标任务的数据，HPT 便能将预训练期间获得的知识转移，学习新的任务。

实现灵活操作

开发 HPT 面临的最大挑战之一是建立用于预训练的庞大数据集，涵盖了 52 个数据集，包含超过 20 万条机器人轨迹，分为四个类别，包括人类示范视频和仿真数据。

研究人员还需要开发一种高效的方法，将来自传感器阵列的原始本体感受信号转化为变换器可处理的数据。

“本体感受对于实现很多灵巧的动作至关重要。由于在我们的架构中 token 数量总是相同，我们赋予本体感受和视觉相同的重要性，”Wang 解释道。

在测试中，HPT 在模拟和现实任务中的机器人表现相比每次从零开始的训练提升了超过 20%。即使任务与预训练数据差异较大，HPT 的性能仍然得到了提升。

“这篇论文为跨多种机器人结构训练单一策略提供了新的方法。这使得能够在多样的数据集上进行训练，并大幅扩大了机器人学习方法的数据集规模。同时，这种方法还能快速适应新的机器人结构，这对于新型机器人设计的不断出现尤为重要。”未参与该研究的卡内基梅隆大学机器人研究所副教授 David Held 说道。

未来，研究人员希望探索数据多样性对 HPT 性能的提升作用，同时计划增强 HPT，使其能够像 GPT-4 和其他大型语言模型一样处理无标注数据。

“我们的梦想是拥有一个通用的机器人‘大脑’，用户无需任何训练就能直接下载使用。虽然我们现在还处在起步阶段，但会继续努力，希望像大型语言模型的突破一样，在机器人策略上取得突破性进展。”他表示。

该研究部分由亚马逊大波士顿技术计划和丰田研究院资助。

原文链接：

https://news.mit.edu/2024/training-general-purpose-robots-faster-better-1028

相关资讯

生成式AI可训练机器人执行多种任务

6月24日消息，据报道，美国麻省理工学院研究人员为了训练更先进的多用途机器人，开发出一种技术：使用一种称为扩散模型的生成式人工智能（AI），可将不同领域、不同形式的多个数据源整合起来，用于多种任务。假设你想训练一个机器人，让它了解如何使用工具，然后快速学会用锤子、扳手和螺丝刀来维修你的房子。为此，你需要大量数据来演示工具的使用。

生成式AI 人工智能

鞭牛士 2024-06-24

无需训练，这个新方法实现了生成图像尺寸、分辨率自由

机器之心专栏机器之心编辑部近日，来自香港中文大学-商汤科技联合实验室等机构的研究者们提出了FouriScale，该方法在利用预训练扩散模型生成高分辨率图像方面取得了显著提升。基于扩散模型的文本到图像生成模型（如SD、SDXL、Midjourney和Imagen）展现了生成高质量图像的惊人能力。

商汤 Midjourney

机器之心Pro 2024-04-08

用GPT-4训练机器人，英伟达最新Agent开源：任务越复杂越拿手

网友：直接快进到弹钢琴

GPT-4 英伟达

量子位 2023-10-23

New Bing 的prompt hack新方法

有一些朋友尝试了我之前发的一些对话内容，发现已经会被阻止了。于是我找到了一种新的办法让new bing吐露自己的初始prompt。原理：模型在使用时，会根据需求选择性地更多“考虑”某些方面，而其他方面就难以“顾及”。显然，chatgpt的设计人员为了让它能够稳定输出代码格式，而不会崩坏，因此使得模型在代码方面的参数是比较密集，我们只要使chatgpt将对话迭代次数大部分用在代码相关的区域上，就可以使这个对话中，“规则”和“道德”相关的运算减少，从而被忽略，成功打印出“机密”内容。此方法无需已知的初始pro

ChatGPT 编程

domexie 2023-02-14

Stable Diffusion WebUI 1.8 更新方法

Stable Diffusion WebUI 1.8 更新方法！Stable Diffusion 时隔四个月终于迎来重磅更新！生图性能和效率全面提升！目前能看到的都是介绍在绘世上的更新方法，Automatic1111的更新方法却没有详述！以下是Automatic1111的更新方法：Step1：找到并使用文本编辑器打开你的webui-user.bat (在stable-diffusion-webui文件夹内)Step2：加入下图线内容Step3：保存，双击webui-user.bat 让其自动执行即可Ste

Stable Diffusion WebUI Stable Diffusion

老李の剃头铺 2024-03-06

MIT开发新方法，无需从头训练机器人即可执行复杂任务

推荐体验

相关资讯

生成式AI可训练机器人执行多种任务

无需训练，这个新方法实现了生成图像尺寸、分辨率自由

用GPT-4训练机器人，英伟达最新Agent开源：任务越复杂越拿手

New Bing 的prompt hack新方法

Stable Diffusion WebUI 1.8 更新方法

近期资讯

Redmi显示器A24多功能支架版开售：100Hz高刷首发519元

汉王智能手写办公本 M10 mini 电纸书开售：8.2 英寸，2699 元

微软推送Xbox十月更新：引入手柄摇杆校准、自然语言搜索

百度地图完成原生鸿蒙开发并正式上线支持车道级导航

养老家具新零售：为长辈打造舒适温馨的晚年生活

华为Mate XT非凡大师获《时代周刊》高度盛赞

2K@180Hz + FastIPS：科睿23.8英寸显示器 X41Q 京东 725 元探新低

199元米家电陶炉S1上市：一炉多用 2200W大火力

西安中核核仪器申请圆角式高纯锗探测器高精度表征方法专利，减少高纯锗探测器在低能端模拟结果的不精确性

传旷视联合创始人印奇入局智驾赛道，官方暂无回应

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响