自机器人诞生以来,该领域的从业者一直希望制造出可以完成各种家务的机器人。但长期以来,这只是一个难以实现的梦想。
虽然机器人学家已经能够让机器人在实验室里做一些令人印象深刻的事情,比如跑酷,但这些任务通常需要在严格控制的环境中进行细致的规划。
这使得机器人很难在家里可靠地工作,尤其是有儿童和宠物的家庭。此外,每间房子的构造都不一样,还会有各种混乱的状况出现。
机器人领域有一个著名的观察结果,称为莫拉维克悖论:人类觉得困难的东西对机器而言是容易的,而对人类来说容易的东西机器人却很难完成。
现在有了人工智能,这种情况正在改变。机器人开始能够完成折叠衣物和烹饪等任务,而不久前,这些任务还被视为是几乎不可能完成的任务。
在最新一期《麻省理工科技评论》杂志的封面故事中,我研究了机器人领域是如何迎来它的转折点的。
机器人研究领域出现了非常令人兴奋的(技术)融合,这可能(只是可能)会让机器人走出实验室,进入我们的家。
以下是机器人即将迎来“ChatGPT 时刻”的三个原因。
廉价的硬件使研究更容易完成
机器人很贵。高度复杂的机器人起步就要数十万美元,这使得大多数研究人员没能力购买它们。例如,最早一批家用机器人 PR2,重达 200 公斤,售价 40 万美元。
但新的、更便宜的机器人让更多的研究人员能够做一些很酷的事情。初创公司 Hello robot 开发并推出了一种名为 Stretch 的新机器人,价格约为 18000 美元,重约 22.6 公斤。
它有一个小的移动底座,一个挂着摄像头的杆子,一个可调节的手臂,末端有一个吸盘,可以用控制器控制。
与此同时,美国斯坦福大学的一个团队构建了一个名为 Mobile ALOHA(“低成本开源硬件远程操作系统”的缩写)的系统,该系统仅依靠 20 个人类演示和其他任务的数据就学会了烹饪虾。
他们使用现成的组件拼凑出了价格更低的机器人,价格为数万美元,而不是数十万。
人工智能正在帮助我们构建“机器人大脑”
这些新机器人的软件有别于过去的机器人。由于人工智能的蓬勃发展,现在的研究重点正从让昂贵的机器人变得更灵活,转变为以神经网络的形式构建“通用机器人大脑”。
机器人学家已经开始使用深度学习和神经网络来创建系统,在环境中不断练习和学习,并相应地调整它们的行为,而不是传统的规划和训练。
2023 年夏天,谷歌推出了一款名为 RT-2 的视觉语言动作模型。该模型通过网络文本和图像以及自己的互动来获得对世界的总体理解。它将这些数据转化为机器人动作。
丰田研究所(Toyota Research Institute)、哥伦比亚大学和麻省理工学院的研究人员已经能够借助一种名为模仿学习的人工智能学习技术和生成式人工智能,快速教机器人完成许多新任务。
他们相信自己已经找到了一种方法,将推动生成式人工智能技术从文本、图像和视频领域扩展到机器人运动领域。
许多人都在尝试生成式人工智能。Covariant 是一家从 OpenAI 现已关闭的机器人研究部门剥离出来的机器人初创公司,它建立了一个名为 RFM-1 的多模态模型。
它可以接受文本、图像、视频、机器人指令或测量(数据)形式的提示。生成式人工智能使机器人既能理解指令,又能生成与这些任务相关的图像或视频。
更多的数据,更多的技能
GPT-4 等大型人工智能模型的强大能力源于从互联网上收集的大量数据。但这并不适用于机器人,因为机器人需要专门为机器人收集的数据。
它们需要如何打开洗衣机和冰箱的演示数据,还有如何拿起盘子,如何折叠衣物等等。目前这些数据非常稀缺,人类需要很长时间才能收集到。
谷歌 DeepMind 发起了一项名为“开放 X 化身协作”的新举措,旨在改变这一现状。
2023 年,该公司与 34 个研究实验室,约 150 名研究人员合作,收集了 22 种不同机器人的数据,其中也包括 Hello robot 的 Stretch 机器人。
由此得到的数据集于 2023 年 10 月发布,里面的机器人展示了 527 种技能,如拿起东西、推动和移动。
(来源:TOYOTA RESEARCH INSTITUTE)
早期迹象表明,更多的数据正在催生更智能的机器人。研究人员为机器人构建了两个版本的模型,称为 RT-X,可以在各个实验室的计算机上本地运行,也可以通过网络访问。
更大的、可通过网络访问的模型是用互联网数据预训练的,以从大型语言和图像模型中发展“视觉常识”,或对世界的基本理解。
当研究人员在许多不同的机器人上运行 RT-X 模型时,他们发现这些机器人学习技能的成功率比每个实验室正在开发的系统高出 50%。
支持:Ren
运营/排版:何晨龙