文丨Congerry
人形机器人 Figure 又火了。(前情回顾:疯狂的机器人!贝索斯、英伟达等6.75亿美元投资马斯克擎天柱竞品)
原因是,通过与OpenAI的合作,Figure公司使得他们的机器人 Figure 01 能够与人进行深入交流,并根据对话内容独立作出决策和行动。
具体的画风是这样的。
,时长
02:34
当 Figure 01 被问到看到了什么?
Figure 01 可以描述它所看到的场景。
当提问者请求吃东西时,Figure 01 可以从一堆物品中判断苹果可以吃,并拿给提问者。
而当提问者让 Figure 01 思考如何收拾桌面的时候,Figure 01 也可以观察完以后判断把餐具收回沥干架。
整体来看,这段视频展示了Figure 01 在理解环境、做出决策和执行任务方面的能力,同时也体现了它与人类进行交流的能力。
那 Figure 01 是怎么做到的呢?
答案是OpenAI的多模态大模型,但是是不是GPT-4V并没有透露。
Figure 01 的工作流程是这样的:
Figure 01 摄像头捕获的图像和内置麦克风捕获的语音转文本数据被输入到一个由OpenAI训练的大型多模态模型中。这个模型能够理解和处理图像和文本数据。
模型会处理整个对话的历史,包括之前的图像信息,以生成语言回应。这些回应通过文本到语音(text-to-speech)技术转化为语音,回应给人类。
比如提问者通过说出“can I have something to eat?”(我能吃些东西吗?)来与机器人进行交流。模型生成的回应会通过文本到语音技术转换成机器人的声音,以“sure thing”(当然可以)回应用户的请求。
同一个模型还负责决定执行哪个学习到的闭环行为来完成给定的命令。这涉及到将特定的神经网络权重加载到GPU上,并执行相应的策略(policy)。
当然,只有大脑,没有身体也不行。这些策略会指导机器人进行快速而灵巧的操作(fast dexterous manipulation)。
Figure 01 的动作由视觉运动Transformer控制,它将图像直接转化为动作。
它们以 10 Hz 的频率处理来自机器人摄像头的图像,并以 200 Hz 的频率生成 24 个自由度(手腕位置和手指角度)的动作。
全身控制器(Whole Body Controller)能够以更高的1kHz频率输出各个关节的扭矩指令,确保机器人动作的安全性和平衡性,有效防止机身倾覆或关节超限伤害。
不得不说,Figure 01 + OpenAI 实现了人类想象中的人形机器人。
这也让很多网友都直呼疯狂。
当然,对 Figure AI 创始人“用一个世界模型操作十亿个机器人”的目标来说,这仅仅是个开始。