OpenAI大模型上身机器人，原速演示炸场

作者：量子位发布时间：2024-03-14

OpenAI

OpenAI大模型加持的机器人，深夜来袭！

名曰Figure 01，它能听会说，动作灵活。

能和人类描述眼前看到的一切：

我在桌子上看到了一个红色的苹果，沥水架上面还有几个盘子和一个杯子；然后你站在附近，手放在桌子上。

听到人类说“想吃东西”，就马上递过去苹果。

而且对于自己做的事有清楚认知，给苹果是因为这是桌上唯一能吃的东西。

还顺便把东西整理，能同时搞定两种任务。

最关键的是，这些展示都没有加速，机器人本来的动作就这么迅速。

（也没人在后面操纵）

这下网友坐不住了，立马@波士顿动力：

老伙计们，这家伙是真来劲儿了。咱得回实验室，让以前的机器人（波士顿动力）多跳点舞了。

也有网友看在OpenAI卷完大语言模型、文生视频之后，又狙击机器人后感慨道：

这是一场激烈的竞争；与OpenAl合作，苹果可能会超越特斯拉。
但硬件方面，擎天柱看起来更美观，Figure 01仍然需要一些“整容手术”。（doge）

接下来，我们继续来看下Figure 01的细节。

OpenAI视觉语言大模型加持

根据创始人的介绍，Figure 01通过端到端神经网络，可以和人类自如对话。

基于OpenAI提供的视觉理解和语言理解能力，它能完成快速、简单、灵巧的动作。

模型只说是一个视觉语言大模型，是否为GPT-4V不得而知。

它还能规划动作、有短期记忆能力、用语言解释它的推理过程。

比如对话里说“你能把它们放在那里吗？”

“它们”、“那里”这种模糊表述的理解，就体现了机器人的短期记忆能力。

它使用了OpenAI训练的视觉语言模型，机器人摄像头会以10Hz拍下画面，然后神经网络将以200Hz输出24自由度动作（手腕+手指关节角度）。

具体分工上，机器人的策略也很像人类。

复杂动作交给AI大模型，预训练模型会对图像和文本进行常识推理，给出动作计划；

简单动作如抓起塑料袋（抓哪里都可以），机器人基于已学习的视觉-动作执行策略，可以做出一些“下意识”的快速反应行动。

同时全身控制器会负责保持机身平衡、运动稳定。

机器人的语音能力则基于一个文本-语音大模型微调而来。

除了最先进的AI模型，Figure 01背后公司——Figure的创始人兼CEO还在推文中提到，Figure方面整合了机器人的所有关键组成。

包括电机、中间件操作系统、传感器、机械结构等，均由Figure工程师设计。

据了解，这家机器人初创公司在2周前才正式宣布和OpenAI的合作，但才13天后就带来如此重磅成果。不少人都开始期待后续合作了。

由此，具身智能领域又有一颗新星走到了聚光灯下。

“将人形机器人带进生活”

说到Figure，这家公司创立于2022年，正如前文所言，再次引爆外界关注，就在十几天前——

官宣在新一轮融资中筹集6.75亿美元，估值冲到26亿美元，投资方几乎要集齐半个硅谷，包括微软、OpenAI、英伟达和亚马逊创始人贝佐斯等等。

更重要的是，OpenAI同时公开了与Figure更进一步合作的计划：将多模态大模型的能力扩展到机器人的感知、推理和交互上，“开发能够取代人类进行体力劳动的人形机器人”。

用现在最热的科技词汇来说，就是要一起搞具身智能。

彼时，Figure 01的最新进展是酱婶的：

通过观看人类的示范视频，仅需10小时端到端训练，Figure 01就能学会用胶囊咖啡机泡咖啡。

Figure与OpenAI的合作一公开，网友们就已经对未来的突破充满了期待。

毕竟Brett Adcock，可是把“唯一的重点是以30年的视角建立Figure，以积极影响人类的未来”这样的话都写在个人主页上了。

但可能没人能想得到，仅仅两周左右的时间，新进展就来了。

如此之快，如此之远。并且还能持续泛化、扩展规模。

值得一提的是，与炸场demo同时发布的，还有Figure的招聘信息：

我们正在将人形机器人带进生活。加入我们。

参考链接：[1]https://twitter.com/figure_robot/status/1767913661253984474?s=46&t=HBob6gxh8cOfZTIbieKeSA[2]https://twitter.com/adcock_brett/status/1767913955295744449[3]https://twitter.com/coreylynch/status/1767927194163331345

本文来自微信公众号“量子位”（ID:QbitAI），作者：关注前沿科技，36氪经授权发布。

近期资讯

vivo X Fold 折叠屏手机产品节奏回归一年一代

另外，博主还在微博评论区回复了部分网友的问题：针对是否会推出V4芯片，博主称“不知道会不会按规律叫V4，升级改动挺大的”；针对三月能否买到vivo新品，博主回复“应该不行”。

IT之家 2024-12-30

韩国济州航空失事客机“黑匣子”已开始进行数据分析

总台记者获悉，当地时间12月30日，韩国金浦机场试验分析中心对济州航空7C2216航班客机“黑匣子”开始展开数据分析。

央广网 2024-12-30

国际最大超导磁体动态测试设施在合肥建成

12月29日，由中国科学院合肥物质院等离子体所建设运行的国家重大科技基础设施“聚变堆主机关键系统”子系统“聚变工程堆中心螺管系统”完成首轮测试实验，最大测试电流达到稳态48kA，超过47kA的设计值。

证券时报 2024-12-30

华为开始狙击中端手机市场：畅享70X来了麒麟芯替代骁龙

快科技12月30日消息，博主数码闲聊站曝光了华为畅享70X的详细配置。据悉，畅享70X采用6.78英寸1.5K双曲面双孔屏幕，分辨率为2700×1224，前置800万像素，后置5000万RYYB主摄和200万副摄，搭载麒麟8000A处理器，支持北斗卫星消息，内置6100mAh电池，支持40W快充。

驱动之家 2024-12-30

节能恒温，万家乐燃气热水器JSQ24-12DP1(F)：535元的智能之选

#年货节好物集市#万家乐作为国内知名的厨卫电器品牌，其燃气热水器产品一直以技术创新和用户需求为导向，不断推陈出新。万家乐燃气热水器以其稳定的性能、节能效果以及舒适的洗浴体验在市场上赢得了良好的口碑。特别是在恒温技术、智能变升、节能省气等方面，万家乐燃气热水器展现出了其独特的技术优势，致力于为用户提供更加舒适、节能、安全的洗浴体验。

小米地瓜 2024-12-30

支付宝发布新产品“探一下” AI可拍图识别花草、宠物、潮玩

【环球网科技综合报道】12月30日，支付宝推出新一代AI视觉搜索产品“探一下”，基于自研的多模态大模型技术，可“用AI之眼探索万物”，提供更快速、有用、趣味的生成式搜索服务。在使用方法上，用户遇到感兴趣的事物，可以让AI通过摄像头，识别花草宠物和潮玩、做旅游的随身讲解、查询商品药品详情等，还能趣味解读萌宠照、宝宝照等，晒图不愁配文案。

环球网科技 2024-12-30

美的安睡M9Max燃气热水器：16升天然气，补贴下的静音升级

#年货节好物集市#美的作为家电行业的领军品牌，其燃气热水器产品线一直以技术创新和用户需求为导向，不断推陈出新。美的燃气热水器在市场上的表现尤为突出，根据奥维云网（AVC）数据显示，美的在热水器市场的市占率持续提升，尤其在燃气热水器领域，美的的产品以高性价比和卓越性能获得了消费者的青睐。

小米地瓜 2024-12-30

广东漆彩嘉信科技取得一种用于油漆生产的油漆刮料装置专利，防止油漆在油漆桶内壁底部边缘处堆积难以清理

金融界2024年12月30日消息，国家知识产权局信息显示，广东漆彩嘉信科技有限公司取得一项名为“一种用于油漆生产的油漆刮料装置”的专利，授权公告号CN222220616U，申请日期为2024年4月。

金融界 2024-12-30

提供数字载体支持 2024上海“随申码”应用创新大赛落幕

中新网上海新闻12月28日电(谢梦圆)28日，2024上海“随申码”应用创新大赛暨第九届中国创新挑战赛(上海)“随申码”专场在沪落幕，经过数月比拼决出的26个奖项花落各家。

中国新闻网 2024-12-30

上市新机遇，量化派深化AI技术在数字化解决方案应用

量化派，作为这一领域的先行者，凭借其深厚的AI技术底蕴和不断的创新能力，正引领着数字化解决方案的新潮流。更为难能可贵的是，量化派并未满足于传统的数字化营销和商品交易赋能业务，而是不断创新，积极探索新的业务模式。

砍柴网 2024-12-30

OpenAI大模型上身机器人，原速演示炸场

OpenAI视觉语言大模型加持

“将人形机器人带进生活”

推荐体验

相关资讯