与OpenAI合作13天后，Figure人形机器人展示与人类对话能力

作者：第一财经发布时间：2024-03-14

与OpenAI合作13天后，Figure人形机器人展示与人类对话能力

北京时间3月13日深夜，一段人形机器人视频在社交媒体上热传，主角是Figure AI的人形机器人。2月底，Figure AI刚刚传出被OpenAI、微软及亚马逊、英伟达等投资的消息，最近一轮融资中筹集了6.75亿美元。此次机器人展示正是由Figure AI和OpenAI合作完成。

视频中，Figure AI人形机器人具有视觉能力并能表述所见画面，它伸手拿起桌上的苹果，并解释了这么做的原因，人类的提问后，这台人形机器人“思索”2~3秒后便能顺畅作答，手部动作速度则接近人类。据视频介绍，机器人采用了端到端神经网络，且视频并未加速。

Figure AI创始人Brett Adcock和AI团队负责人Corey Lynch在社交媒体上解释，该人形机器人由OpenAI提供了视觉推理和语言理解，Figure AI的神经网络则提供快速、灵巧的机器人动作。人形机器人将摄像机的图像输入和麦克风接收的语音文字输入OpenAI提供的视觉语言大模型（VLM）中，该模型可以理解图像和文字。Figure机载相机以10hz的频率拍摄画面，随后神经网络以200hz的频率输出24个自由度动作。画面中的人形机器人不依赖远程操作，行为都是学习而得的。两周前，Figure AI才宣布与OpenAI合作，以突破机器人学习的界限，这个视频是合作13天的成果，双方正在为人形机器人研发下一代AI模型。

“机器人的速度有了显著提高，我们开始接近人类的速度。“Brett Adcock表示。

Figure AI成立于2022年，已开发一款名为Figure 01的通用机器人，完成最新6.75亿美元融资后，估值达到约26亿美元左右。对比今年2月发布的一条视频，其机器人进行的是双腿行走、拿起塑料箱的任务，最新视频展示的新技能则是与人类对话的能力。

人形机器人进展已在加快。去年年底，特斯拉发布了第二代人形机器人Optimus Gen2的产品展示，该人形机器人搭载了AI大模型，可拿起鸡蛋。今年1月发布的视频中，特斯拉人形机器人可以折叠衣服。语言对话上，英国公司Engineered Arts人形机器人Ameca不久前与人类对话的视频也曾引发关注，该机器人具备视觉能力，可以描述空间特征，例如窗户开着、光线太亮，眼球和嘴巴都会动，表情逼真。

OpenAI也借着与Figure AI的合作展示了大模型应用至人形机器人方面的能力。在趋于激烈的市场竞争中，OpenAI已在加快迭代。

今年3月，被视为OpenAI最强竞争对手的Anthropic发布其最新大模型系列Claude 3，其中Claude 3 Opus在多项基准中得分均超GPT-4和Gemini 1.0 Ultra。彼时有AI业内人士告诉第一财经记者，在OpenAI站在第一梯队、Anthropic等站在第二梯队的层层向下“打压链”中，Anthropic最新产品推出可能会打乱OpenAI的节奏，更早推出GPT-5。近日记者从大模型从业者了解到，实际使用中Claude 3在某些任务下的表现较好，可胜过GPT-4。

OpenAI确乎更希望稳住自身地位。除了与Figure AI合作外，美国当地时间周三，OpenAI CTO Mira Murati（米拉·穆拉迪）还透露，文生视频模型Sora或将于今年末发布，OpenAI正在通过红队测试确保Sora的安全和可靠性。昨日则有消息称，网友发现在必应等搜索引擎可搜到GPT-4.5 Turbo产品页面，页面摘要显示GPT-4.5 Turbo在速度、准确性和可扩展性上超越GPT-4 Turbo，支持25.6万tokens的上下文窗口，但很快相关链接就下架了，这或许意味着OpenAI将加快推出大模型新版本。