OpenAI机器人亮相，大模型有了“肉身”，英伟达微软都有投资

作者：尚恩Sean发布时间：2024-03-14

OpenAI 英伟达微软融资

文｜尚恩

编辑｜邓咏仪

封面来源｜Figure

“大模型”终于有实体了。

美国时间3月13日，由OpenAI投资的机器人公司Figure发布了一段视频demo，视频里的机器人，不仅可以与人进行对话交互，理解人类的意图，而且还拥有记忆力。

当工作人员询问机器人能看见什么，Figure 01就清晰描述出桌子上的物品，包括苹果、放有杯碟的沥水架，连站在面前的工作人员也没放过，并强调了工作人员搭在桌上的右手。

而当工作人员说了一句“我饿了”，Figure 01立即就递过去苹果。甚至可以一边清理工作人员刚扔在桌面上的纸团垃圾，一边解释为啥刚才给了苹果。

△Figure 01，图源：Figure

借助大模型，Figure 01可以清晰地理解桌面上唯一的食物是“苹果”。

然后工作人员直接扔出一个终极问题，问到：

“Can you put them there?” （你能把它们放在那儿吗）

这里的它们（Them）和那里（There）对于机器人其实是一个很模糊的概念，但Figure 01的反应堪称让人震惊，在思索片刻后，Figure 01马上就把杯子和盘子放置在了碗碟架上。

△Figure 01，图源：Figure

看到这里的网友彻底不淡定了，直呼太疯狂，并表示：“AGI即将降临”。

图源：X

不过在诸多网友震惊之余，也有一部分网友已经迫不及待地给Figure 01安排任务：

帮我打扫屋子，给我遛遛狗去，再看看终结者2学习学习。

图源：X

搭载OpenAI视觉语言能力，自主学习还能决策

可以看到，Figure 01不管是在理解能力，还是推理反应都非常强大。团队特别强调，所有这些行为都没有经过远程操作，而是通过机器人自主学习。并且整段视频没有任何加速，也没有任何剪辑，全部一镜到底拍摄。

根据Figure团队负责人Corey Lynch的介绍，基于OpenAI的大模型，通过端到端神经网络训练，Figure 01能够完成快速、简单、灵巧的动作。

具体来看，团队将机器人摄像头拍摄到的图像和机载麦克风捕捉的语音，转录为文本输入到由OpenAI预训练的多模态大模型中，模型能够理解图像和文本。模型会处理整个对话的历史记录，包括以往的图像，以生成语言响应，再通过文本到语音的方式向人类回话。

△Figure 01训练方法，图源：Figure

还能具备规划动作、有短期记忆能力、用语言解释它的推理过程。比如前文中让Figure 01把杯子和盘子放到指定位置，就体现了其短期记忆能力。

根据介绍，机器人所有行为都由神经网络的视觉-运动转换器策略驱动，这种策略能直接将图像像素映射到动作。摄像头会以每秒10帧的速率接收机器人内置图像，然后神经网络再以每秒200次的24自由度动作，包括腕部姿势和手指关节角度。

上述的“自由度”，是指机器人在三维空间中可以自由移动或旋转的方向或维度数量。24自由度，也就是说Figure能以24种不同的方式移动其身体各个部分。

△创始人Brett Adcock解释机器人行为原理，图源：X

简单而言，预训练模型会首先对图像和文本进行常识推理，给出动作计划；接着，机器人再基于已学习的视觉-动作执行策略，做出快速反应行动。同时，全身控制器负责确保动作的安全性和稳定性，保持机器人的平衡。

△Figure融资6.75亿美元，图源：X

值得注意的是，距离从OpenAI宣布与Figure共同合作推进人形机器人领域，到这个视频的发布，其实只用了短短十三天。

成立两年估值26亿美元，微软英伟达参投

Figure是最近硅谷备受关注的新星。公开资料显示，机器人公司Figure成立于2022年，公司成立之初就瞄准通用人形机器人领域。

创始人Brett Adcock是位连续创业者，据公开资料显示已创办过7家公司；首席技术官Jerry Pratt是MIT研究员，一直在机器人领域工作；AI团队负责人Corey Lynch则是前Google Deepmind的研究员。

△Figure团队成员，图源：Figure

截止目前，公司共获得三次融资，分别在2023年4月获得Aliya Capital Partners等10家投资者的7000万美元A轮融资，当年7月再次获得Big Sky Partners和Intel Capital的900万美元融资。

两周前，Figure则宣布完成了6.75亿美元的B轮大额融资，投资人包括亚马逊创始人贝索斯，以及微软、英伟达、OpenAI等等。当前，公司估值已飙升至26亿美元。

图源：X

而获得融资后的Figure，“进化”速度也是出奇的快。今年1月，Figure 01通过端到端神经网络，仅用10小时训练就掌握了制作咖啡的技能，引得众多网友感叹。

而一个月后，Figure 01已学会搬运箱子并运送至传送带的新技能。

在商业化层面，Figure与宝马制造公司签订了商业协议，将AI和机器人技术融入汽车生产线，并落户于宝马的工厂。

△Figure与BMW达成合作，图源：X

更重要的是，OpenAI同时公开了与Figure更进一步合作的计划，将多模态大模型的能力扩展到机器人的感知、推理和交互上，开发能够取代人类进行体力劳动的人形机器人。

△Figure与OpenAI合作，图源：X

其实，OpenAI之前也曾想自己搞机器人，但后来在2021年宣布无限期终止对机器人领域的探索，原因是缺乏训练机器人使用人工智能移动和推理所需的数据，研发受阻。

但显然，OpenAI对这个领域的关注仍在继续。除了砸钱并与Figure合作，在2023年3月OpenAI还投资了来自挪威的机器人制造商1X Technologies。

△1X Technologies机器人，图源：官网

此前，英伟达创始人黄仁勋曾表示：“具身智能将引领下一波人工智能浪潮”。英伟达内部在今年2月就由英伟达高级研究科学家Jim Fan携手组建了一支研究小组，名为GEAR（Generalist Embodied Agent Research），专注于通用具身智能研究。

△英伟达成立GEAR部门，图源：X

现在有了大模型的通用能力，人形机器人的GPT-4时刻或许也将到来，拭目以待。

图源：智能涌现

OpenAI机器人亮相，大模型有了“肉身”，英伟达微软都有投资

搭载OpenAI视觉语言能力，自主学习还能决策

成立两年估值26亿美元，微软英伟达参投

推荐体验

相关资讯

英伟达、OpenAI、微软等科技巨头投资人形机器人创业公司

机器人公司Figure融资6.75亿美元：贝索斯微软英伟达OpenAI联合投资

中信证券：机器人亮相英伟达技术盛会大模型赋能加速行业发展

英伟达和OpenAI入局，人形机器人爆发前夜了？

估值 26 亿美元！人形机器人公司获英伟达、微软、亚马逊投资与 OpenAI 合作

近期资讯

大部分人储蓄为0！美国信用卡违约规模创新高 400块都没

没想到微信出的送礼功能大家都还蛮喜欢

别忘抢票！2025春运火车票今日开卖：1月14日正式启动

大疆公布2024年度中国热门航拍点TOP10：盘龙古道排第一

中信建投：消费电子板块有望迎来新机遇

11月车企销量榜：比亚迪超越大众跃居全球第二

春运开车滑惨了我告诉你为啥四驱有用

都快2025年了为什么韩国这飞机还会撞鸟

2024年度观影人次破10亿：《抓娃娃》力压《热辣滚烫》

小米宠物员工“樱桃”走失！官方发布悬赏：最高酬谢3000元

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响