动嘴操控“终结者”！谷歌打造最强chatgpt机器人

作者：AI研习所发布时间：2023-08-01

我们知道，在掌握了网络中的语言和图像之后，大模型终究要走进现实世界，「具身智能」应该是下一步发展的方向。把大模型接入机器人，用简单的自然语言代替复杂指令形成具体行动规划，且无需额外数据和训练，这个愿景看起来很美好，但似乎也有些遥远。毕竟机器人领域，难是出了名的。然而 AI 的进化速度比我们想象得还要快。

　　上周五，谷歌 DeepMind 宣布推出 RT-2：全球第一个控制机器人的视觉 - 语言 - 动作（VLA）模型。现在不再用复杂指令，机器人也能直接像 ChatGPT 一样操纵了。给机器人发命令，从没这么简单过。

　　RT-2 到达了怎样的智能化程度？

加载了RT-2多任务模型的机械臂可以直接听从人类的语言指令做出反应。比如命令它“捡起已灭绝的动物”，机械臂就能从狮子、鲸鱼、恐龙这三个塑料玩具中准确选择恐龙；

在此之前，机器人无法可靠地理解它们从未见过的物体，更无法做把「灭绝动物」到「塑料恐龙玩偶」联系起来这种有关推理的事。

　　命令它将香蕉放到2+1的总和的位置，机械臂就能准确将香蕉放置在数字3的位置；

跟机器人说，把可乐罐给泰勒・斯威夫特：　　

　　乍一看上述行为没什么了不起，但细思不由得令人瞠目称奇。过去的机器人只能完成极为准确的单一指令，而有了RT-2加持的机器人甚至已经可以独立进行思考，完成符号、数字、图像、物品的理解和推理。也就是说该模型可以教会机器人更好地识别视觉和语言模态，能够解释人类用自然语言发出的指令，并推断出如何做出相应的行动。真正突破了传统数据库记录复刻的基础形态，进化成为自主知识推理应用的高级形态。

RT-2 是如何实现的？

　　高容量视觉语言模型（VLM）在网络规模的数据集上进行训练，使这些系统非常擅长识别视觉或语言模式并跨不同语言进行操作。但要让机器人达到类似的能力水平，他们需要收集每个物体、环境、任务和情况的第一手机器人数据。 RT-2 建立在视觉 - 语言模型（VLM）的基础上，又创造了一种新的概念：视觉 - 语言 - 动作（VLA）模型，它可以从网络和机器人数据中进行学习，并将这些知识转化为机器人可以控制的通用指令。该模型甚至能够使用思维链提示，比如哪种饮料最适合疲惫的人 (能量饮料)。

RT-2 架构及训练过程

其实早在去年，谷歌就曾推出过 RT-1 版本的机器人，只需要一个单一的预训练模型，RT-1 就能从不同的感官输入（如视觉、文本等）中生成指令，从而执行多种任务。

　　作为预训练模型，要想构建得好自然需要大量用于自监督学习的数据。RT-2 建立在 RT-1 的基础上，并且使用了 RT-1 的演示数据，这些数据是由 13 个机器人在办公室、厨房环境中收集的，历时 17 个月。

前面我们已经提到 RT-2 建立在 VLM 基础之上，其中 VLM模型已经在 Web 规模的数据上训练完成，可用来执行诸如视觉问答、图像字幕生成或物体识别等任务。此外，研究人员还对先前提出的两个 VLM 模型 PaLI-X（Pathways Language and Image model）和 PaLM-E（Pathways Language model Embodied）进行了适应性调整，当做 RT-2 的主干，并将这些模型的视觉 - 语言 - 动作版本称为 RT-2-PaLI-X 以RT-2-PaLM-E 。为了使视觉 - 语言模型能够控制机器人，还差对动作控制这一步。该研究采用了非常简单的方法：他们将机器人动作表示为另一种语言，即文本 token，并与 Web 规模的视觉 - 语言数据集一起进行训练。
对机器人的动作编码基于 Brohan 等人为 RT-1 模型提出的离散化方法。如下图所示，该研究将机器人动作表示为文本字符串，这种字符串可以是机器人动作 token 编号的序列，例如「1 128 91 241 5 101 127 217」。

　　该字符串以一个标志开始，该标志指示机器人是继续还是终止当前情节，然后机器人根据指示改变末端执行器的位置和旋转以及机器人抓手等命令。由于动作被表示为文本字符串，因此机器人执行动作命令就像执行字符串命令一样简单。有了这种表示，我们可以直接对现有的视觉 - 语言模型进行微调，并将其转换为视觉 - 语言 - 动作模型。

　　在推理过程中，文本 token 被分解为机器人动作，从而实现闭环控制。

　　实验

　　研究人员对 RT-2 模型进行了一系列定性和定量实验。

　　下图展示了 RT-2 在语义理解和基本推理方面的性能。例如，对于「把草莓放进正确的碗里」这一项任务，RT-2 不仅需要对草莓和碗进行表征理解，还需要在场景上下文中进行推理，以知道草莓应该与相似的水果放在一起。而对于「拾起即将从桌子上掉下来的袋子」这一任务，RT-2 需要理解袋子的物理属性，以消除两个袋子之间的歧义并识别处于不稳定位置的物体。需要说明的是，所有这些场景中测试的交互过程在机器人数据中从未见过。

　　下图表明在四个基准测试上，RT-2 模型优于之前的 RT-1 和视觉预训练 (VC-1) 基线。

　　RT-2 保留了机器人在原始任务上的性能，并提高了机器人在以前未见过场景中的性能，从 RT-1 的 32% 提高到 62%。

　　一系列结果表明，视觉 - 语言模型（VLM）是可以转化为强大的视觉 - 语言 - 动作（VLA）模型的，通过将 VLM 预训练与机器人数据相结合，可以直接控制机器人。

　　和 ChatGPT 类似，这样的能力如果大规模应用起来，世界会发生重大改变。它可能真正开启了在有人环境下使用机器人的大门，所有需要体力劳动的岗位都会被替代。或许，机器人总动员中，那个聪明的瓦力离我们不远了。

近期资讯

丹品科普——可调混响时间听音室与音乐设备：紧密关联与发展前景
大家好，欢迎来到丹品科普揭秘。今天来了解一下可调混响时间听音室与音乐设备之间的紧密联系。先看当下，这听音室对提升音乐设备音质作用很大。就音箱而言，其音质好坏不光取决于内部零件，所处声学环境也极为关键，听音室就成了音箱研发的重要场地。工程师在研发时，把音箱搬进听音室，调节混响时间。模拟家庭聚会听流行乐场景，调短混响，音箱传出的流行乐鼓点清脆、节奏明快，歌手嗓音清晰，歌词清楚可辨；模拟古典音乐厅，拉长混响，交响乐弦乐颤音悠长、管乐和声醇厚，能让人仿佛置身高雅艺术殿堂。经反复调试，音箱的扬声器振膜、分频器等部
广州丹品和丹测声学 2024-12-27

【防尘喷淋】-山东艾蓝设计-系统厂家
【防尘喷淋，实际现场效果】物联网智能喷雾降尘系统自主开发，三屏合一远程控制智能喷雾降尘系统主机采用变频恒压控制，对大面积喷雾降尘区可分区域控制，单独启动任何一个区域与启动全部区域压力均维持均一恒定，喷雾降尘主机自带微米级过滤，具有自动补水和缺水停机保护功能。喷雾降尘主机带有吹扫功能可以很好的解决冬季结冰难题。型号：ALDLP-5Z、ALDLP-10Z、ALDLP-15Z。【防尘喷淋，使用场所介绍】采石场、建材厂，采石场以及建材厂在自动化输送系统以及堆料区、各种物料运输系统的转运点位置会产生粉尘飞散到
山东艾蓝环保 2024-12-27

2025新年好物大集合！这十大数码好物让你新年倍儿有面儿！
随着2024年的脚步渐行渐远，新的一年即将到来。转眼间，我们即将迎来充满希望和机遇的2025年。在这个辞旧迎新的时刻，为自己准备一份特别的新年礼物，不仅是对自己过去一年辛勤付出的奖励，更是对新一年美好生活的期盼。新年不仅是家人团聚、朋友相聚的美好时刻，也是展示自我品味和生活态度的最佳时机。无论是为了犒劳自己，还是为了给亲朋好友送上一份心意满满的礼物，选择一件合适的数码产品无疑是不错的选择。这些数码产品不仅能提升我们的生活质量，更能彰显出我们的时尚品味和科技实力。 [图片] 在这篇文章中，我们将为大家精选
御海蓝桉 2024-12-27

声学新突破：定向音响技术的奥秘与应用场景
声音，作为一种波动现象，在我们的日常生活中扮演着重要角色。声学，作为物理学的一个分支，研究声音的产生、传播、接收和效应。近年来，随着科技的发展，定向音响技术作为声学领域的一个创新应用，正在逐渐改变我们对声音的传统认知。声学基础声音是由物体振动产生的声波，通过空气、固体或液体等介质传播，并被人或动物的听觉器官所感知。人耳能够识别的声音频率范围大约在20Hz到20kHz之间。声音的传播特性是四面发散的，这意味着在没有障碍物的情况下，声音会向所有方向传播。 [图片] 定向音响技术原理定向音响技术，也称为定
静境科技声学院 2024-12-27

硬盘数据被移走了怎么办？如何恢复
硬盘作为现代数据存储的重要设备，承载着大量个人及企业的关键信息。然而，当硬盘数据被意外移走或丢失时，无论是由于误操作、病毒攻击、硬件故障还是其他原因，都可能带来严重的后果。本文将深入探讨硬盘数据被移走后的恢复方法，旨在为用户提供一套全面、实用的解决方案。图片来源于网络，如有侵权请告知一、数据丢失的初步判断与应对在数据恢复之前，首要任务是判断数据是否真的丢失以及丢失的原因。有时，数据可能只是被误删除或隐藏，而并非真正从硬盘上抹去。因此，第一步是尝试通过常规手段查找数据，如检查回收站、使用文件搜索功能等。而移
云骑士数据恢复 2024-12-27

建筑装潢垃圾分拣设备-垃圾分选生产线
在当今社会，随着城市化进程的加速和建筑行业的蓬勃发展，建筑装潢垃圾的产生量急剧增加。这些垃圾不仅占用了大量的土地资源，还对环境造成了严重的污染。因此，如何高效地处理这些建筑装潢垃圾成为了一个亟待解决的问题。 [图片] 鉴于建筑装潢垃圾分拣设备和垃圾分选生产线的需求日益增长，设计一种高效的垃圾处理设备来满足这些需求显得尤为重要。以下是对这一问题的深入探讨：一、问题背景与现状分析建筑装潢垃圾的特点：这类垃圾通常包括废弃的建筑材料如砖块、混凝土、木材、金属等，以及装修过程中产生的各种废弃物。这些垃圾种类繁多
创合垃圾分选设备 2024-12-26

勤源FinOps：政务云精准容量规划与智能扩展性设计
勤源FinOps：政务云精准容量规划与智能扩展性设计在如今高速发展的数字化经济中，政府的IT架构面临着前所未有的挑战。从内部在线办公到在线政务，几乎所有业务都需要在保证稳定性的同时，能够灵活应对流量激增和业务扩展。为此，容量规划和扩展性设计成为政府IT架构的关键组成部分，它们直接影响到系统的性能、可靠性和成本控制。勤源科技（江苏）基于其全链路智能运维的理念，为政府提供了一套全面的政务云云资源容量规划和扩展性设计方案。通过智能化的工具和自动化的操作，勤源FinOps（成本运营中心）可
勤源全链路运维 2024-12-27

生活垃圾分拣生产线：填埋场陈腐垃圾处理的绿色革命
随着城市化的快速发展，生活垃圾的产生量日益增加，传统的填埋方式已经无法满足现代城市对环境保护和可持续发展的需求。填埋场陈腐垃圾处理设备——生活垃圾分拣生产线的出现，不仅有效解决了垃圾堆积带来的环境问题，还实现了资源的回收利用，是推动城市绿色发展的重要力量。 [图片] 一、生活垃圾分拣生产线的概念与重要性生活垃圾分拣生产线是一种高效、自动化的垃圾处理系统，它通过先进的物理、化学或生物技术，将混合的生活垃圾进行分类、分拣、清洗和再加工。这一过程不仅减少了填埋场的负担，还提高了垃圾的资源化利用率，减少了环境污
创合垃圾分选设备 2024-12-27

有事大家谈 | “小作坊下料就是猛”AI魔改视频让人眼前一亮还是一黑？
[图片] [图片] [图片] [图片] [图片] 文案朱海歌郭安兰恭灏唐瑷祺覃容琳宣推王奕婷熊沁怡蒋雯菁主播张巍耀制作杨自齐 ↓↓微信↓↓ [图片] ↓↓微博↓↓ [图片] ↓↓节目表↓↓ [图片]
CUC广播台 2024-12-27

铬矿粉325目-2500目的典型用途有哪些？
铬矿粉325目-2500目在颜料、耐火材料、铸造和耐火材料行业中用途非常广泛。200 目、325目、400 目铬铁矿粉通常用于玻璃瓶、玻璃板、玻璃管、玻璃配件中的绿色着色剂。1600 目、2000 目、2500 目铬矿超细粉适用于绿色、棕色、红色的油墨颜料。325 目铬矿粉是铸造涂料中良好的铸造防粘砂材料。200 目和 325 目铬矿粉适用于刹车中的摩擦材料。它是道路和地板的耐磨材料。600 目、800 目、1000 目和 1200 目天然铬矿粉是陶瓷釉料的原料。铬铁粉的特点是耐高
hxml1919 2024-12-27

动嘴操控“终结者”！谷歌打造最强chatgpt机器人

推荐体验

相关资讯

谷歌打造「终结者」，ChatGPT版最强机器人AGI，动嘴操控007

训练士兵，英军用上终结者式机器人

“终结者”走入现实？微软的野心：用ChatGPT控制机器人！

OpenAI 版终结者降临！地表最强机器人 Figure 02 问世，进宝马狂飙 20 小时

OpenAI 地表最强人形机器人发布！每天能打工 20 小时，「终结者」要造出来了？

近期资讯

丹品科普——可调混响时间听音室与音乐设备：紧密关联与发展前景

【防尘喷淋】-山东艾蓝设计-系统厂家

2025新年好物大集合！这十大数码好物让你新年倍儿有面儿！

声学新突破：定向音响技术的奥秘与应用场景

硬盘数据被移走了怎么办？如何恢复

建筑装潢垃圾分拣设备-垃圾分选生产线

勤源FinOps：政务云精准容量规划与智能扩展性设计

生活垃圾分拣生产线：填埋场陈腐垃圾处理的绿色革命

有事大家谈 | “小作坊下料就是猛”AI魔改视频让人眼前一亮还是一黑？

铬矿粉325目-2500目的典型用途有哪些？

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响