2024人形机器人研究报告：Figure×OpenAI 端到端的大语言，视觉模型让机器变人

作者：幕斯少女发布时间：2024-04-11

今天分享的是：2024人形机器人研究报告：Figure×OpenAI 端到端的大语言，视觉模型让机器变人（报告出品方：浙商证券）

大语言-视觉模型对 Figure01的加持体现在哪?

源自 OpenAI 端到端的大语言-视觉模型是本次 Figure01 升级的核心，从语言输入开始，模型接管了一切处理，直接输出语言和行为结果，而不是中间输出一些结果，再加载其他程序处理这些结果。其中 Open 的大模型提供负责提供视觉推理和语言理解，而 Figure 的神经网络提供快速、低水平、灵巧的机器人动作，值得注意的是机器人所有行为均源自于自身学习过的。升级主要体现在以下两方面:

(1)语言交互流程:研究人员将机器人摄像头中的图像输入、机载麦克风捕获的语音中的文本转录到由 OpenAI 训练的，可以理解图像和文本的多模态模型(VLM)中，由该模型处理对话的整个历史记录，得出语言响应，然后通过文本到语音的方式将其回复给人类。

(2)动作处理流程:大模型能力可以使机器人拥有短期记忆，以便联系和理解前后的行为关系。首先，互联网预训练模型对图像和文本进行常识推理，以得出高级计划;其次，大模型以 200hz 的频率生成的 24-DOF 动作(手腕姿势和手指关节角度)，充当高速设定点，供更高速率的全身控制器跟踪，以确保安全和稳定。

报告共计：11页

以下为报告节选内容

报告共计：11页

中小未来圈，你需要的资料，我这里都有！

相关资讯

封面新闻 2024-08-17

OpenAI加持，Figure 01人形机器人成“新宠”！创始人被誉为“马斯克2.0”

北京时间3月13日（周三）晚间，一段人形机器人视频在外网刷屏。阿德科克1986年出生于伊利诺伊州一个乡村农场，他的商业才能在青少年时期就已显露。

OpenAI 马斯克

每日经济新闻 2024-03-16

2024人形机器人研究报告：Figure×OpenAI 端到端的大语言，视觉模型让机器变人

推荐体验

相关资讯

2024人形机器人研究报告：Figure×OpenAI 端到端的大语言（附下载）

端到端纯视觉！OpenAI押注的人形机器人献艺拜年了

2024年OpenAI大模型赋能人形机器人研究报告(附下载)

“行走的ChatGPT”？Figure 02人形机器人史上地表最强？ | 科技整活儿

OpenAI加持，Figure 01人形机器人成“新宠”！创始人被誉为“马斯克2.0”

近期资讯

字节不再执着于教育业务，却赢得了教育用户

「千顾科技」完成B轮4亿元融资，线控底盘定点超50款车型 | 36氪首发

反手就是开源，英伟达豪掷7亿美元收购专攻GPU初创Run:ai

英伟达的最大空头出现了

曾负债百万、安徽“海归”白手起家：如今“啥都不干”就有客户，每天必爆5000单

2024年A股十大被增持公司

2024年楼市十大关键词

贝好家首进长三角：2024年底落子上海、杭州两地

理想汽车“基因突变”

2024年，游戏行业过得怎么样？上百款游戏年内停运

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响