谷歌打造「终结者」，ChatGPT版最强机器人AGI，动嘴操控007

作者：新智元发布时间：2023-07-31

谷歌 ChatGPT AGI 大语言模型

一觉醒来，大模型的版本又更新了？

火遍全球的大语言模型，已经Out了?

本次版本更新的主角是谷歌DeepMind推出的「视觉-语言-动作」（vision-language-action，VLA）模型！

论文地址：https://robotics-transformer2.github.io/assets/rt2.pdf

根据谷歌内部披露，VLA模型已经接入到机器人身上，能够和现实世界进行互动了！

这个机器人被谷歌命名为Robotic Transformer 2 (RT-2) ，它能够从网络、机器人的数据中学习，还能将这些知识自主转化为有效的指令。

简单来说，你只需要对RT-2画个饼，之后就可以等着RT-2把饼喂到你嘴边了。

网友们纷纷表示：这真是泰酷辣！

谷歌DeepMind负责人表示，

长期以来，计算机在分析数据等复杂任务方面表现出色，但在识别和移动物体等简单任务方面却不尽如人意。通过 RT-2，我们正在缩小这一差距，帮助机器人解读世界并与之互动，让其对人类更加有用。

但俗话说，一口吃不成个大胖子，在RT-2成为RT-2之前，它的前辈Robotic Transformer 1 （RT-1）为RT-2打下了坚实的基础。

RT-1升级RT-2，VLM到VLA

RT-1是一种多任务模型，基于Transformer构建，能够将图像、自然语言指令等作为输入，并直接输出标记化动作。

RT-1 的架构：该模型采用文本指令和图像集作为输入，通过预先训练的 FiLM EfficientNet 模型将它们编码为token，并通过 TokenLearner 压缩它们。然后将这些输入到 Transformer 中，Transformer 输出操作token

因此，与一般机器相比，RT-1具有更好的性能和泛化能力。

其中，RT-1所搭载的视觉语言模型（vision-language models ，VLMs）扮演了关键角色。

VLM在互联网级的数据集上进行训练，因此在识别视觉、语言和跨语言合作这块具有极高水平。

在RT-1基础上升级过的RT-2仍以VLM 为基础，是谷歌研究员在办公室、厨房等环境中使用13个RT-1的17个月数据上进行训练的。

但RT-2比RT-1多了一个机器动作（action）的模态。

为了解决模型对机器控制的挑战，研究人员将RT-2的机器操作设置为模型的输出标记，并将其描述为可以由标准自然语言标记器处理的字符串，如下所示：

RT-2 训练中使用的动作字符串的表示形式。这种字符串的示例可以是机器人动作标记编号的序列，例如「1 128 91 241 5 101 127 217」

于是，解决加入动作模态（action）将模型与机器进行联结的挑战后，VLM就升级为了VLA。

RT-2也在一系列的升级换代后，显示出了惊人的学习能力和理解能力：

它能够自己解释全新的命令，通过执行基本推理来响应用户的要求。

甚至在与思想链推理结合的情况下，RT-2能够执行多阶段的语义推理。

如，决定哪个物体可以用作临时的锤子（石头），或者哪种类型的饮料最适合疲倦的人（一种能量饮料）。

RT-2架构和训练：针对机器人和网络数据共同微调预训练的VLM模型。生成的模型接收机器人看到的图像并直接预测机器人要执行的动作

泛化能力提升62%

研究人员在在RT-2模型上进行了一系列定性和定量实验，一共进行了6,000多次机器人试验。

具体来讲，谷歌团队探索了RT-2的三项技能：

- 符号理解

- 推理

- 人类识别

以上的每项任务都需要理解视觉语义概念，以及执行机器人控制的能力。

比如，让RT-2去捡起从桌子上掉下来的袋子，或者将香蕉放到2+1之和的数字的命令。

其中要求机器人对数据中从未见过的物体或场景执行操作任务，将知识从基于网络的数据转化为可操作的。

数据中不存在的技能示例，需要通过网络预训练进行知识迁移

在所有类别中，研究人员观察到，与之前的基线（例如之前的RT-1模型和Visual Cortex (VC-1) 等模型）相比，泛化性能提高了3倍以上，这些模型是在大型视觉数据集上进行预训练的。

紧急技能评估的成功率：RT-2 模型优于RT-1和VC-1基线

此外，研究人员还进行了一系列定量评估，首先是机器人数据中有实例的原始RT-1 任务，然后对机器人先前未见过的物体、背景和环境。

以上的任务可以让机器人从VLM预训练中学习泛化。

机器人以前未见过的环境示例

RT-2保留了数据中「看到」的原始任务的能力，并提高了机器人在以前未见过场景中的性能，从RT-1的32%提高到了62%。

研究人员还观察到，与仅视觉任务预训练的基线相比有显着改进，例如VC-1和机器人操作的可重用表示 (R3M)，以及使用VLM进行对象识别的算法。

RT-2 在可见的分布内任务上取得了高性能，并且在分布外未见的任务上优于多个基线。

团队还在开源语言表（Language Table）机器人任务套件上评估了模型，模拟中的成功率高达90%，比BC-Z（72%）、RT-1（74%）和LAVA（77%）等以前的基线模型有了大幅提高。

然后，他们还在现实世界中评估相同的模型，并展示了其泛化到新对象的能力。

如下所示，其中除了蓝色立方体之外，没有任何物体出现在训练中数据集。

RT-2在真实机器人语言表任务中表现良好

受到LLM中使用的CoT方法的启发，研究人员还将机器人控制与思维链推理相结合，以便能够在单个模型中学习长期规划和低级技能。

特别是，对RT-2的变体进行了几百个梯度步骤的微调，以提高其联合使用语言和动作的能力。

然后，研究人员还对数据进行了扩充，添加了一个额外的「计划」步骤。

首先用自然语言描述机器人即将采取的动作的目的，然后是「动作」和动作标记。

示例如下：

思想链推理能够学习一个独立的模型，该模型既可以规划长期技能序列，又可以预测机器人的动作

通过此过程，RT-2可以执行更多复杂的命令，这些命令需要推理完成用户指令所需的中间步骤。

得益于VLM主干，RT-2还可以根据图像和文本命令进行规划，从而实现基于视觉的规划。

通用机器人前景

RT-2的最新研究表明，视觉语言模型（VLM）可以转化为强大的视觉语言动作（VLA）模型。

通过将VLM预训练与机器人数据相结合，可以直接控制机器人。

基于大模型PaLM-E和PaLI-X的两个实例化，RT-2提升了机器人的策略。

更重要的是，还带来了显着更好的泛化能力、以及应对突发问题的能力，继承了网络规模的视觉语言预-训练。

RT-2不仅是对现有VLM模型的简单，而有效的修改，而且还展示了构建通用实体机器人的前景。

该机器人可以推理、解决问题和解释信息，以在现实中执行各种任务世界。

或许，机器人总动员中，那个聪明的瓦力离我们不远了。

参考资料：

https://twitter.com/GoogleDeepMind/status/1684903412834447360

https://www.deepmind.com/blog/rt-2-new-model-translates-vision-and-language-into-action?utm_source=twitter&utm_medium=social&utm_campaign=rt2

本文来自微信公众号“新智元”（ID:AI_era），作者：新智元，编辑：桃子 Lumina，36氪经授权发布。

近期资讯

南京好世通取得一种线束连接器端子用外观检测仪的自动转动结构专利，便捷带动线束整体旋转方便检测

金融界2024年12月28日消息，国家知识产权局信息显示，南京好世通电气有限公司取得一项名为“一种线束连接器端子用外观检测仪的自动转动结构”的专利，授权公告号CN222212637U，申请日期为2024年3月。

金融界 2024-12-28

华电国际莱城发电厂取得协同脱硝的新型水冷壁热流密度监测系统专利，避免在冷却箱侧壁板上打孔固定

金融界2024年12月28日消息，国家知识产权局信息显示，华电国际电力股份有限公司莱城发电厂取得一项名为“一种协同脱硝的新型水冷壁热流密度监测系统”的专利，授权公告号CN222212651U，申请日期为2024年4月。

金融界 2024-12-28

常州赛格电子仪器取得油色谱气样注入器专利，有效避免注入器主体误摔损坏

金融界2024年12月28日消息，国家知识产权局信息显示，常州赛格电子仪器有限公司取得一项名为“一种油色谱气样注入器”的专利，授权公告号CN222212694U，申请日期为2024年4月。

金融界 2024-12-28

斯芮弗取得自清洁式 COD 检测装置专利，可对内壁自动清洗

金融界2024年12月28日消息，国家知识产权局信息显示，斯芮弗（无锡）科技有限公司取得一项名为“一种自清洁式COD检测装置”的专利，授权公告号CN222212607U，申请日期为2024年4月。专利摘要显示，本实用新型涉及地下水检测领域，具体为一种自清洁式COD检测装置。

金融界 2024-12-28

山东中创安防取得非接触式激光甲烷检测仪专利，便捷清洁防护玻璃外壁避免杂质影响激光束射出

金融界2024年12月28日消息，国家知识产权局信息显示，山东中创安防科技有限公司取得一项名为“一种非接触式激光甲烷检测仪”的专利，授权公告号CN222212606U，申请日期为2024年4月。

金融界 2024-12-28

山东恒超消防取得一种建筑材料检测装置专利，保证对建筑保温材料保温性能充分检测

金融界2024年12月28日消息，国家知识产权局信息显示，山东恒超消防技术有限公司取得一项名为“一种建筑材料检测装置”的专利，授权公告号CN222212652U，申请日期为2024年4月。

金融界 2024-12-28

合肥核约达仪表科技取得新型硅酸根分析仪专利，便于把加液容器快速安装固定

金融界2024年12月28日消息，国家知识产权局信息显示，合肥核约达仪表科技有限公司取得一项名为“一种新型硅酸根分析仪”的专利，授权公告号CN222212612U，申请日期为2024年4月。

金融界 2024-12-28

深圳市普晟传感技术取得一种气体传感器专利，在单个气体传感器上实现检测量程可调

金融界2024年12月28日消息，国家知识产权局信息显示，深圳市普晟传感技术有限公司取得一项名为“一种气体传感器”的专利，授权公告号CN222212656U，申请日期为2024年1月。

金融界 2024-12-28

山东豪迈机械取得压力容器筒体坡口剥离面钛残留检验装置专利，缩短了检验工序的整体周期，提高了生产效率

金融界2024年12月28日消息，国家知识产权局信息显示，山东豪迈机械制造有限公司取得一项名为“一种压力容器筒体坡口剥离面钛残留的检验装置”的专利，授权公告号CN222212657U，申请日期为2024年1月。

金融界 2024-12-28

济南泛华电气取得有冲击清洗功能的绝缘油测试仪专利，提高清洗快捷性

金融界2024年12月28日消息，国家知识产权局信息显示，济南泛华电气有限责任公司取得一项名为“一种有冲击清洗功能的绝缘油介损损耗及电阻率测试仪”的专利，授权公告号CN222212654U，申请日期为2024年11月。

金融界 2024-12-28

谷歌打造「终结者」，ChatGPT版最强机器人AGI，动嘴操控007

RT-1升级RT-2，VLM到VLA

泛化能力提升62%

通用机器人前景

推荐体验

相关资讯