当前位置:首页|资讯|OpenAI|AI大模型|人工智能

OpenAI前员工建立AI大模型,帮助机器人像人类一样学习新技能

作者:DeepTech深科技发布时间:2024-03-12

原标题:OpenAI前员工建立AI大模型,帮助机器人像人类一样学习新技能

2021 年夏天,OpenAI 悄悄关闭了其机器人团队,它给出的原因是缺乏训练机器人使用人工智能移动和推理所需的数据,导致研发受到阻碍。

(来源:COVARIANT)

现在,OpenAI 的三位早期研究科学家表示,他们在 2017 年成立的名为 Covariant 的初创公司已经解决了这个问题,并推出了一个新系统,可以将大型语言模型的推理技能与先进机器人的身体灵活性结合起来。

这个新模型 RFM-1 使用的数据来自于互联网上的文字和视频,以及 Covariant 自己的小型分拣机器人。Crate & Barrel 和 Bonprix 等客户在世界各地的仓库中使用了这些分拣机器人。

在接下来的几个月里,Covariant 将向客户推出该模型。该公司希望,将该系统部署在现实世界中,可以让它变得更加强大和高效。

那么它能做什么呢?在我最近参加的一次演示中,Covariant 的联合创始人皮特·陈(Peter Chen)和彼得·阿布贝尔(Pieter Abbeel)向我展示了用户如何使用五种不同类型的输入来提示模型:文本、图像、视频、机器人指令和测量。

例如,给它看一张装满运动器材的箱子的图片,并告诉它拿起一包网球,机器人就可以抓起网球,生成一张图片展示网球被拿走后箱子的样子,或者创建一个视频,以俯视视角展示机器人执行任务的样子。

如果该模型预测它将无法很好地抓住物品,它甚至可能会回复:“我拿不住(它),你有什么建议吗?”我们可以回复并建议它在机械臂上使用特定数量的吸盘,以更好地抓握。例如,告诉它用 8 个吸盘,而不是 6 个。

陈告诉我,这意味着机器人领域的一大步,它们可以使用训练数据来适应工作环境,而不是依赖驱动上一代工业机器人的、复杂的特定任务代码。

这也是让机器人迈向工作场所的重要一步。和它共事的人可以用人类语言发布指令,而不必担心累坏它:按照这份食谱,给我准备 600 份预制意面,做不完不准休息!

美国纽约大学通用机器人和人工智能实验室负责人莱尔·平托(Lerrel Pinto)表示,尽管机器人学家之前已经构建出了基本的多模态机器人,并在实验室环境中测试过。

但是大规模部署一个能够以如此多种方式进行沟通的机器人,是令人印象深刻的成果。他与 Covariant 没有任何关系。

平托告诉我,为了超越竞争对手,Covariant 必须获得足够的数据,才能让机器人在真实环境中发挥作用。

仓库和装载码头很适合对其进行测试。因为在那里,它们会不断与新的指令、人、物体和环境交互。

他说:“想要训练好的模型,研发团队必须能够获取大量的机器人数据,或者能够自己生成这些数据。”

Covariant 表示,该模型具有“类似人类”的推理能力,但也有其局限性。在演示过程中,我可以看到 Covariant 机器人的实时反馈,以及一个与它交流的聊天窗口。陈邀请我随意向模型输入提示(prompt)。

当我让机器人“把香蕉放回二号托特包”时,它陷入了困境。它先是捡起一块海绵,再捡起一颗苹果,然后是许多其他东西,最后才完成放回香蕉的任务。

“它不理解这个新概念。”陈解释道,“但这是一个很好的例子,如果它没见过好的训练数据,就可能会出现问题。”

该公司的新模型体现了机器人世界的范式转变。研究人员不是通过物理方程和代码等指令告诉机器人世界如何运转,而是以与人类学习相同的方式教机器人:通过数百万次观察。

陈说,结果“真的可以作为一个非常有效而灵活的大脑,来解决各种机器人任务”。

2024 年,越来越多的公司正在尝试开发人工智能驱动的机器人控制系统,这个赛道可能会变得十分拥挤。

本月早些时候,人形机器人初创公司 Figure AI 宣布将与 OpenAI 合作,并从英伟达和微软等科技巨头那里筹集了 6.75 亿美元。

波士顿动力公司创始人麦克·瑞贝特(Marc Raibert)最近发起了一项将人工智能更好地融入机器人技术的倡议。

这意味着,机器学习的进步很可能开始转化为机器人技术的进步。然而,一些问题仍未解决。

如果大型语言模型继续在无数文字内容上进行训练,却不对这些内容的作者进行补偿,那么机器人模型也将在不向创作者付费的情况下使用网上的视频进行训练。

如果语言模型产生幻觉并长期存在偏见,那么机器人技术中会出现什么类似的东西?

与此同时,Covariant 将继续前进,致力于让 RFM-1 模型不断学习和完善。最终,研究人员的目标是让机器人在模型本身创建的视频上进行训练。

这种学习方式可能让人感到困惑,还会引发人们的担忧:如果模型的错误在训练中不断放大,会出现什么后果?但出于对更多训练数据的渴望,研究人员认为这几乎是不可避免的。

阿布贝尔说:“这种训练方式将成为现实。如果我们半年后再见面,那时候它就将成为我们讨论的话题。”

支持:Ren

运营/排版:何晨龙


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1