当前位置:首页|资讯|OpenAI

2024人形机器人研究报告:Figure×OpenAI 端到端的大语言,视觉模型让机器变人

作者:幕斯少女发布时间:2024-04-11

原标题:2024人形机器人研究报告:Figure×OpenAI 端到端的大语言,视觉模型让机器变人

今天分享的是:2024人形机器人研究报告:Figure×OpenAI 端到端的大语言,视觉模型让机器变人(报告出品方:浙商证券)

大语言-视觉模型对 Figure01的加持体现在哪?

源自 OpenAI 端到端的大语言-视觉模型是本次 Figure01 升级的核心,从语言输入开始,模型接管了一切处理,直接输出语言和行为结果,而不是中间输出一些结果,再加载其他程序处理这些结果。其中 Open 的大模型提供负责提供视觉推理和语言理解,而 Figure 的神经网络提供快速、低水平、灵巧的机器人动作,值得注意的是机器人所有行为均源自于自身学习过的。升级主要体现在以下两方面:

(1)语言交互流程:研究人员将机器人摄像头中的图像输入、机载麦克风捕获的语音中的文本转录到由 OpenAI 训练的,可以理解图像和文本的多模态模型(VLM)中,由该模型处理对话的整个历史记录,得出语言响应,然后通过文本到语音的方式将其回复给人类。

(2)动作处理流程:大模型能力可以使机器人拥有短期记忆,以便联系和理解前后的行为关系。首先,互联网预训练模型对图像和文本进行常识推理,以得出高级计划;其次,大模型以 200hz 的频率生成的 24-DOF 动作(手腕姿势和手指关节角度),充当高速设定点,供更高速率的全身控制器跟踪,以确保安全和稳定。

报告共计:11页

以下为报告节选内容

报告共计:11页

中小未来圈,你需要的资料,我这里都有!


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1