当前位置:首页|资讯|谷歌|ChatGPT|人工智能

谷歌的“PaLM-E”是一个接受命令的多面手机器人大脑

作者:知新了了发布时间:2023-03-08

ChatGPT风格的AI模型增加了视觉,无需特殊训练即可指导机器人。

上图:在演示视频中,一个由PaLM-E控制的机器人手臂伸手去拿一袋玉米片。

周一,来自谷歌和柏林技术大学的一组人工智能研究人员公布了“PaLM-E”,这是一个多模态具体化视觉语言模型(VLM),具有5620亿个参数,将视觉和语言集成在一起,用于机器人控制。他们声称,这是迄今为止开发的最大的VLM,它可以在不需要再培训的情况下执行各种任务。

根据谷歌的说法,当发出一个高级命令,比如“把抽屉里的玉米片拿给我”时,Palm-E可以为一个带有手臂的移动机器人平台生成行动计划(由Google Robotics开发),并自行执行这些行动。

PaLM-E通过分析来自机器人摄像头的数据来实现这一点,而不需要预先处理的场景表示。这消除了人类对数据进行预处理或注释的需要,并允许更加自主的机器人控制。

同时,它也很有弹性,能对环境做出反应。例如,PaLM-E模型可以引导机器人从厨房取出一个薯片袋,并且将PaLM-E集成到控制循环中,它可以抵抗任务过程中可能出现的中断。在一个视频例子中,一名研究人员从机器人那里抓取玉米片并移动它们,但机器人重新定位了玉米片,并再次抓取它们。

在另一个例子中,相同的Palm-E模型通过具有复杂序列的任务自主控制机器人,这些任务以前需要人工指导。谷歌的研究论文解释了Palm-E如何将指令转化为行动:

我们演示了PaLM-E在具有挑战性和多样化的移动操作任务上的性能。我们在很大程度上遵循Ahn等人(2022)的设置,机器人需要根据人类的指令规划一系列导航和操作动作。例如,给定指令“我打翻了饮料,你能给我拿点东西来清理吗?”,机器人需要规划一个包含“1.找一块海绵,2.捡起海绵,3.把它拿给用户,4.放下海绵”的序列。受这些任务的启发,我们开发了3个用例来测试PaLM-E的具体推理能力:启示性预测、故障检测和长期规划。低级策略来自RT-1(Brohan et al., 2022),这是一个转换器模型,接受RGB图像和自然语言指令,并输出末端执行器控制命令。

PaLM- E是下一代 token 预测器,它之所以被称为“PaLM- E”,是因为它基于谷歌现有的称为“PaLM”的大型语言模型(LLM)(它类似于ChatGPT背后的技术)。谷歌通过添加感官信息和机器人控制,使PaLM“具体化”。

由于PaLM-E基于语言模型,它采用连续的观测数据,如图像或传感器数据,并将它们编码为与语言标记大小相同的向量序列。这使得模型能够以处理语言的方式“理解”感官信息。

除了RT-1机器人转换器,PaLM-E还借鉴了谷歌之前在 ViT-22B 上的工作,这是一种视觉转换器模型,于2月份公布。ViT-22B已经接受了各种视觉任务的训练,如图像分类、物体检测、语义分割和图像字幕。

Google Robotics 并不是唯一一个研究利用神经网络进行机器人控制的研究小组。这项特别的工作类似于微软最近的“ChatGPT for Robotics”论文,该论文尝试以类似的方式将视觉数据和大型语言模型结合起来用于机器人控制。

除了机器人技术之外,谷歌的研究人员还观察到一些有趣的效果,这些效果显然来自使用大型语言模型作为PaLM-E的核心。首先,它表现出“正迁移”,这意味着它可以将从一项任务中学到的知识和技能转移到另一项任务中,与单任务机器人模型相比,它的“性能显著提高”。

此外,他们还观察到一个模型规模的趋势:“语言模型越大,在进行视觉语言和机器人任务训练时,它就越能保持语言能力--从数量上讲,562B Palm-E模型几乎保留了所有的语言能力。”

PaLM-E是迄今为止报道的最大的VLM。我们观察到涌现出的能力,如多模态思维链推理和多图像推理,尽管我们只训练单幅图像提示。虽然不是我们工作的重点,但PaLM-E在OK-VQA基准上设置了一个新的SOTA。

pic.twitter.com/9FHug25tOF

——丹尼·德里斯(@DannyDriess) 2023年3月7日

研究人员声称,尽管只在单个图像提示上进行了训练,但PaLM-E显示出了多模态思维链推理(允许模型分析包括语言和视觉信息的一系列输入)和多图像推理(使用多个图像作为输入进行推断或预测)等新兴能力。从这个意义上讲,随着深度学习模型随时间的推移变得越来越复杂,PaLM-E似乎继续着令人惊讶的趋势。

谷歌的研究人员计划探索PaLM-E在家庭自动化,或工业机器人等现实场景中的更多应用。他们希望PaLM-E能够激发更多关于多模态推理和人工智能的研究。

“多模态”是一个流行词,我们将越来越多地听到,因为各大公司正在寻求“表面上能够像人类一样执行一般任务”的人工通用智能。

如果朋友们喜欢,敬请关注“知新了了”!


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1