当前位置:首页|资讯|OpenAI

计算机行业Figure 01:OpenAI大模型赋能人形机器人(附下载)

作者:魏子轩发布时间:2024-03-23

原标题:计算机行业Figure 01:OpenAI大模型赋能人形机器人(附下载)

今天分享的是行业报告:《计算机行业Figure 01:OpenAI大模型赋能人形机器人》

(内容出品方:国盛证券)

报告共计:9页

计算机

Figure 01:OpenAI 大模型赋能人形机器人

人形机器人 Figure 01 发布演示,智能程度惊艳。2024 年 3 月 13 日,人 形机器人创业公司Figure 在X 平台发布了自己第一个OpenAI 大模型加持的 机器人演示视频。借助 OpenAI,Figure 01 现在可以与人类进行完整的对话,OpenAI 模型提供高层级的视觉和语言智能,Figure 的神经网络提供快速、 低层级、灵巧的机器人动作。Figure 01 能理解周围环境,流畅地与人类交 谈,理解人类的需求并完成具体行动,包括给人类递苹果、将黑色塑料袋收 拾进框子里、将杯子和盘子归置好放在沥水架上。此前在 2 月 29 日,Figure 刚刚宣布以 26 亿美元的估值获得了包括 OpenAI、英伟达、微软在内的新一 轮 6.75 亿美元融资,同时表示 OpenAI 和 Figure 签署了一项合作协议开发 下一代 AI 模型。

OpenAI 能力加持,预训练模型决策是重要突破。Figure 01 现在具备的能 力包括:1)描述其周围环境。2)在做决定时使用常识推理。3)将模棱两 可的高级请求转换为一些符合上下文的行为,4)用通俗的语言描述为什么 它执行了特定的操作。在实现上,Figure 01 把机器人摄像头捕获的图像和 机载麦克风捕捉到的语音转录文本输入到一个由OpenAI 训练的大型多模态 模型中,该模型能够理解图像和文本,处理整个对话的历史,包括过去的图 像,以生成语言回应,同一个模型负责决定在机器人上运行哪种学习到的、闭环的行为来完成给定的命令。一个理解对话历史的大型预训练模型为 Figure 01 提供了强大的短期记忆,通过预训练模型 Figure 01 能快速形成并 执行计划。关于低层次双手操作技能,所有行为均由基于 transformer 的视 觉-运动变换策略驱动,将像素直接映射到动作。预训练模型对图像和文本 进行常识推理,以制定高层次计划。学习到的视觉运动策略执行计划,执行 难以手动指定的快速、反应性的行为,同时,全身控制器确保安全、稳定的 动态。我们认为 Figure 01 使用多模态预训练模型做高层次决策,再映射到 低层次动作的方式类似于大脑与小脑的分工,是演示中机器人展示良好智能 水平的重要因素,也是 AI 与机器人结合的技术路径上的重要突破。

人形机器人应用空间广阔,产业进展持续加速。根据 Figure 官网对未来的 展望,人形机器人将彻底改变各种行业,从企业劳动角色,到协助家庭中的 个人,到照顾老人,以及在其他星球上建立新世界。Figure 的首批应用将是 制造业、航运和物流、仓储和零售等劳动力短缺最严重的行业。除了 Figure,OpenAI 在 2023 年 3 月还投资了挪威人形机器人公司 1X Technologies,目 前该公司的轮式机器人EVE 已在进行物流和零售工作,双足人形机器人NEO 正在开发中。2024 年 3 月 18 日即将到来的英伟达 GTC 大会上,Agility Robotics、波士顿动力、迪士尼和 Google DeepMind 等公司将在现场展出 25 款机器人。我们认为,Figure 与 OpenAI 合作后的进展速度体现了大模型 赋能人形机器人的巨大潜力,基于业界目前进展,人形机器人产业落地趋势 明朗,有望为产业链相关公司打开增长空间。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1