今天分享的是:2024人形机器人研究报告:Figure×OpenAI 端到端的大语言,视觉模型让机器变人(报告出品方:浙商证券)
大语言-视觉模型对 Figure01的加持体现在哪?
源自 OpenAI 端到端的大语言-视觉模型是本次 Figure01 升级的核心,从语言输入开始,模型接管了一切处理,直接输出语言和行为结果,而不是中间输出一些结果,再加载其他程序处理这些结果。其中 Open 的大模型提供负责提供视觉推理和语言理解,而 Figure 的神经网络提供快速、低水平、灵巧的机器人动作,值得注意的是机器人所有行为均源自于自身学习过的。升级主要体现在以下两方面:
(1)语言交互流程:研究人员将机器人摄像头中的图像输入、机载麦克风捕获的语音中的文本转录到由 OpenAI 训练的,可以理解图像和文本的多模态模型(VLM)中,由该模型处理对话的整个历史记录,得出语言响应,然后通过文本到语音的方式将其回复给人类。
(2)动作处理流程:大模型能力可以使机器人拥有短期记忆,以便联系和理解前后的行为关系。首先,互联网预训练模型对图像和文本进行常识推理,以得出高级计划;其次,大模型以 200hz 的频率生成的 24-DOF 动作(手腕姿势和手指关节角度),充当高速设定点,供更高速率的全身控制器跟踪,以确保安全和稳定。
报告共计:11页
以下为报告节选内容
报告共计:11页
中小未来圈,你需要的资料,我这里都有!