澎湃新闻编辑 赵子易(02:02)
装载OpenAI大模型的人形机器人已经出现。
当地时间3月13日,在宣布与AI(人工智能)新锐巨头OpenAI展开合作的13天后,AI机器人初创企业Figure发布了旗下全尺寸人形机器人Figure 01的最新演示视频,该机器人装有OpenAI提供的视觉语言模型(VLM)。视频显示,Figure 01可以在执行任务时实现与人类的互动。
来源:Figure视频截图
根据Figure的介绍,这段时长2分33秒的展示视频“连贯地录制”于3月9日,以原速播放,显示出Figure 01已经能够实现“语音到语音的推理”和“端到端的神经网络”。
在视频中,外表颇具科技感的Figure 01站在一张放有盘子、苹果和水杯的桌子后面,旁边还放着一个装了盘子和水杯的碗架。一个主持人站在Figure 01的面前,问它能够看见什么。在停顿几秒钟后,Figure 01用一个很像真人的声音,详细描述了桌子上的东西和站在桌前的主持人。
而当主持人询问Figure 01“我可以吃点什么吗”,机器人以非常流畅的动作拿起了桌上的苹果,将其递给主持人,并在清理主持人用一个篮子倒在桌上的垃圾的同时,向主持人解释自己的“思考”过程:“我给你苹果,因为它是这张桌子上唯一可以吃的东西。”
来源:Figure视频截图
随后,机器人又在主持人十分模糊的提示下,准确地将桌上的盘子和水杯放进了一旁的碗架。在视频的最后,Figure用 “完全掌握技能、快速、灵巧操作”来形容Figure 01。
在X(原推特)平台上,Figure在转发该视频时写道:“有了OpenAI,Figure 01现在可以与人进行完整的对话。OpenAI的模型提供了高水平的视觉和语言智能。Figure神经网络提供快速、低级、灵巧的机器人动作。”
对于本视频,Figure的CEO布雷特·阿德科克(Brett Adcock)在X平台上进行了更多解释:“Figure的机载摄像头被输入了由OpenAI训练的视觉语言模型(VLM),Figure的神经网络也通过机器人的摄像头以10赫兹的频率接收图像。然后,神经网络以200赫兹的速度输出具有24个自由度的动作……除了构建领先的AI,Figure还垂直整合了基本所有的方面。”
不过,Figure尚未明确表示Figure 01使用的VLM是否为GPT-4的相关版本,还是一个截然不同的模型。阿德科克也没有提到任何关于Figure 01推出时间的信息。
去年10月,Figure放出了Figure 01双足站立行走的演示视频。今年1月7日,Figure发布了Figure 01使用胶囊咖啡机制作咖啡的视频,当时的Figure 01还动作缓慢。而在Figure发布本次视频后,由于机器人的动作过于流畅,不少网友对视频的真实度产生了质疑,认为其经过剪辑处理。
然而,阿德科克坚称,该视频属于真实拍摄:“正如你从视频中看到的,机器人的速度已经得到显著提升,开始接近人类的速度……我们的目标是训练一个世界模型,使其能够操作达到十亿单位水平的人型机器人。”
资料显示,Figure AI由阿德科克创办于2022年,公司目标是为人类“在全球范围内部署自动人形工作者”,正在研发的人形机器人Figure 01身高1.5米,体重60公斤。
近期,随着机器人概念持续走红,对标特斯拉Optimus机器人的Figure受到了广泛关注。今年2月,Figure在最新一轮融资中获得了来自AI芯片龙头英伟达、亚马逊创始人杰夫·贝索斯(Jeff Bezos)、科技巨头微软以及其他几家大型科技公司的投资,在本轮融资中累计筹得约6.75亿美元,公司估值达到26亿美元。