关键词:Figure AI;Figure 01
3月13日,世界首个AI程序员Devin横空出世,让码农们惊呼饭碗不保。当媒体热火朝天地报道这则新闻时,当天晚上,著名的人形机器人公司Figure AI抛出一枚震撼弹,发布了一段视频,展示其明星产品Figure 01在OpenAI的强大模型支持下,进行的流畅对话交互过程。Devin是由一支拥有10块IOI金牌的华人团队精心打造的杰作。而Figure 01更是厉害,在半个月前刚获得OpenAI、微软和英伟达等巨头的投资。
Figure 01的发展速度犹如开挂。
就在今年1月份,它就掌握了制作咖啡的技能,这一突破性进展得益于端到端神经网络技术的应用,使得机器人能够自我学习并修正错误,仅需短短10小时的训练就完成了这项任务。
一个月后,Figure 01 已经学会了搬运箱子并运送至传送带的新技能,尽管其速度仅为人类的 16.7%。
时间来到3月,Figure 01就已经能识别、能对话、能思考了。
问:Figure 01,你看到了什么?
答:我看到桌子中间的盘子中,放了一只苹果,沥水架上有几个盘子和一个杯子。我还看到你站在旁边,你的手放在桌子上。
问:我能吃点东西吗?
答:当然!然后抬起手,拿起一个苹果递给他。
把一堆垃圾倒在Figure 1面前,问:你能不能一边给我解释下刚才为什么会这么做的原因,一边把这些垃圾收拾干净呢?
Figure 01一边有条不紊地把筐子拉到自己面前,把垃圾一个个捡进筐子里,答:我给你苹果,是因为这是我在桌上唯一看到的能吃的东西。
让Figure 01评价自己,问:你觉得你表现得如何?
答:我觉得我做得很好,我把苹果递给了你,把垃圾丢掉了,桌上的东西也都放到了该放的地方。
向它表示了感谢后,Figure 01甚至还伸开双臂,耸了耸肩,表示有什么忙要帮的,欢迎随时来找我。
Figure 01 是怎么做到的呢?
Figure AI 的团队负责人Corey Lynch 在X上,向大家解释了他们的技术。
首先声明,视频中的机器人行为并非人为遥控操作,而是通过自主学习获取,并按真实时间(即1.0倍速)执行。具体来说,Figure AI 会将机器人摄像头拍摄的图像以及通过麦克风收集并转写成文本的语音输入到一个由 OpenAI 培训的特殊模型中,这个模型能够同时理解图像和文字内容。
在对话过程中,该模型会回顾整个对话历史,包括过去的图片信息,然后生成恰当的语言回应,并以语音方式“回答”人类。不仅如此,同一个模型还负责根据接收到的指令判断并执行相应的预先学习的行为动作。同时,全身控制器负责确保动作的安全性和稳定性,保持机器人的平衡。
而将 Figure 01 连接到一个大型预训练的多模态模型,为其带来了许多有趣的新功能。现在,Figure 01 + OpenAI 能够:
详述其周围环境。
在决策时运用常识推理。例如:桌子上的餐具,像那个盘子和杯子,很可能接下来会被放到烘干架上。
将含糊的高级指令,如:我饿了,转化为符合情境的适当行为,比如:递给那个人一个苹果。
用简单的英语解释为什么它执行了某个特定的动作。例如:这是我能够从桌子上提供的唯一可食用物品。
当谈到 Figure 01 通过学习掌握的精细双手操作技能时,其实这背后也蕴含着一系列复杂而精妙的原理,这里就不展开细说了。
将 OpenAI 大模型融入 Figure 01 :有意的战略布局
成熟的 AI 大模型就像一个智能大脑,它模拟人脑的复杂神经网络运作方式,掌握了语言理解、图像识别、情境判断等多种智慧功能,帮助机器人解决更高层次的认知难题和决策问题。
同时,各类传感器、执行器和计算模块被安装在机器人体内,让机器人能感知周围环境并进行互动。比如,视觉系统可以抓取图像视频信息,触觉传感器则能让机器人识别物体形状和质地等特性。
AI的一次次颠覆,或许就是我们未来生活的草稿。