文|尚恩
编辑|邓咏仪
封面来源|Figure
“大模型”终于有实体了。
美国时间3月13日,由OpenAI投资的机器人公司Figure发布了一段视频demo,视频里的机器人,不仅可以与人进行对话交互,理解人类的意图,而且还拥有记忆力。
当工作人员询问机器人能看见什么,Figure 01就清晰描述出桌子上的物品,包括苹果、放有杯碟的沥水架,连站在面前的工作人员也没放过,并强调了工作人员搭在桌上的右手。
而当工作人员说了一句“我饿了”,Figure 01立即就递过去苹果。甚至可以一边清理工作人员刚扔在桌面上的纸团垃圾,一边解释为啥刚才给了苹果。
△Figure 01,图源:Figure
借助大模型,Figure 01可以清晰地理解桌面上唯一的食物是“苹果”。
然后工作人员直接扔出一个终极问题,问到:
“Can you put them there?” (你能把它们放在那儿吗)
这里的它们(Them)和那里(There)对于机器人其实是一个很模糊的概念,但Figure 01的反应堪称让人震惊,在思索片刻后,Figure 01马上就把杯子和盘子放置在了碗碟架上。
△Figure 01,图源:Figure
看到这里的网友彻底不淡定了,直呼太疯狂,并表示:“AGI即将降临”。
图源:X
图源:X
不过在诸多网友震惊之余,也有一部分网友已经迫不及待地给Figure 01安排任务:
帮我打扫屋子,给我遛遛狗去,再看看终结者2学习学习。
图源:X
可以看到,Figure 01不管是在理解能力,还是推理反应都非常强大。团队特别强调,所有这些行为都没有经过远程操作,而是通过机器人自主学习。并且整段视频没有任何加速,也没有任何剪辑,全部一镜到底拍摄。
根据Figure团队负责人Corey Lynch的介绍,基于OpenAI的大模型,通过端到端神经网络训练,Figure 01能够完成快速、简单、灵巧的动作。
具体来看,团队将机器人摄像头拍摄到的图像和机载麦克风捕捉的语音,转录为文本输入到由OpenAI预训练的多模态大模型中,模型能够理解图像和文本。模型会处理整个对话的历史记录,包括以往的图像,以生成语言响应,再通过文本到语音的方式向人类回话。
△Figure 01训练方法,图源:Figure
还能具备规划动作、有短期记忆能力、用语言解释它的推理过程。比如前文中让Figure 01把杯子和盘子放到指定位置,就体现了其短期记忆能力。
根据介绍,机器人所有行为都由神经网络的视觉-运动转换器策略驱动,这种策略能直接将图像像素映射到动作。摄像头会以每秒10帧的速率接收机器人内置图像,然后神经网络再以每秒200次的24自由度动作,包括腕部姿势和手指关节角度。
上述的“自由度”,是指机器人在三维空间中可以自由移动或旋转的方向或维度数量。24自由度,也就是说Figure能以24种不同的方式移动其身体各个部分。
△创始人Brett Adcock解释机器人行为原理,图源:X
简单而言,预训练模型会首先对图像和文本进行常识推理,给出动作计划;接着,机器人再基于已学习的视觉-动作执行策略,做出快速反应行动。同时,全身控制器负责确保动作的安全性和稳定性,保持机器人的平衡。
△Figure融资6.75亿美元,图源:X
值得注意的是,距离从OpenAI宣布与Figure共同合作推进人形机器人领域,到这个视频的发布,其实只用了短短十三天。
Figure是最近硅谷备受关注的新星。公开资料显示,机器人公司Figure成立于2022年,公司成立之初就瞄准通用人形机器人领域。
创始人Brett Adcock是位连续创业者,据公开资料显示已创办过7家公司;首席技术官Jerry Pratt是MIT研究员,一直在机器人领域工作;AI团队负责人Corey Lynch则是前Google Deepmind的研究员。
△Figure团队成员,图源:Figure
截止目前,公司共获得三次融资,分别在2023年4月获得Aliya Capital Partners等10家投资者的7000万美元A轮融资,当年7月再次获得Big Sky Partners和Intel Capital的900万美元融资。
两周前,Figure则宣布完成了6.75亿美元的B轮大额融资,投资人包括亚马逊创始人贝索斯,以及微软、英伟达、OpenAI等等。当前,公司估值已飙升至26亿美元。
图源:X
而获得融资后的Figure,“进化”速度也是出奇的快。今年1月,Figure 01通过端到端神经网络,仅用10小时训练就掌握了制作咖啡的技能,引得众多网友感叹。
而一个月后,Figure 01已学会搬运箱子并运送至传送带的新技能。
在商业化层面,Figure与宝马制造公司签订了商业协议,将AI和机器人技术融入汽车生产线,并落户于宝马的工厂。
△Figure与BMW达成合作,图源:X
更重要的是,OpenAI同时公开了与Figure更进一步合作的计划,将多模态大模型的能力扩展到机器人的感知、推理和交互上,开发能够取代人类进行体力劳动的人形机器人。
△Figure与OpenAI合作,图源:X
其实,OpenAI之前也曾想自己搞机器人,但后来在2021年宣布无限期终止对机器人领域的探索,原因是缺乏训练机器人使用人工智能移动和推理所需的数据,研发受阻。
但显然,OpenAI对这个领域的关注仍在继续。除了砸钱并与Figure合作,在2023年3月OpenAI还投资了来自挪威的机器人制造商1X Technologies。
△1X Technologies机器人,图源:官网
此前,英伟达创始人黄仁勋曾表示:“具身智能将引领下一波人工智能浪潮”。英伟达内部在今年2月就由英伟达高级研究科学家Jim Fan携手组建了一支研究小组,名为GEAR(Generalist Embodied Agent Research),专注于通用具身智能研究。
△英伟达成立GEAR部门,图源:X
现在有了大模型的通用能力,人形机器人的GPT-4时刻或许也将到来,拭目以待。
图源:智能涌现