获贝索斯参投的4亿美元融资，这家公司打造机器人用的“GPT-4”

作者：阿尔法公社发布时间：2024-11-14

在历次AI创新潮流中，机器人的创新都会受益，本次AI热潮也不例外。不过目前涌现出来的大部分是专用的机器人，这些机器人的智能也是在某个领域的专有智能。这样做的局限性在于，研发成果无法复用，机器人用的模型和硬件，只适用于某个很小的领域。

近期，一个通用的机器人大脑雏形诞生，一家叫Physical Intelligence的机器人公司训练了一个叫π(0)的通用机器人基础模型，它的智能基本上适用于任何机器人应用。这意味着，当这一类通用模型成熟后，再开发某一个专有领域的机器人，至少在“大脑”部分，只需要用行业数据微调就行。这就像软件创业者想在某个细分领域创业，只需要微调GPT-4一样。

Physical Intelligence在2024年获得了2轮融资，3月，Thrive Capital领投了它7000万美元的种子轮融资，Khosla Ventures、Lux Capital、OpenAI和Sequoia Capital参与投资；11月，杰夫·贝佐斯、OpenAI、Thrive Capital、Lux Capital、Bond Capital、Khosla Ventures和Sequoia Capital共同参与了它4亿美元的新一轮融资，这使得它的估值达到24亿美元。

此前，杰夫·贝佐斯领投了Figure AI的6.75亿美元融资，Skild AI的3亿美元的A轮融资，亚马逊还收购了Covariant AI的团队。OpenAI参与了Figure AI的投资，以及1X金额为2350万美元的早期投资。机器人领域，被投资机构和科技巨头们普遍看好。

一群科学家聚在一起打造通用的机器人大脑

Physical Intelligence的核心团队来自加州大学伯克利分校、斯坦福大学等高校，以及特斯拉、谷歌DeepMind、Stripe等顶尖科技公司。

Karol Hausman

它的联合创始人兼首席执行官Karol Hausman是斯坦福大学兼职教授，也曾是Google Brain在机器人方向的研究科学家，他的论文引用数超过13000。联合创始人Sergey Levine是加州大学伯克利分校副教授，也是机器人方面的顶级专家，他的论文引用数达到15万。联合创始人Chelsea Finn是斯坦福大学副教授，论文引用数达6.3万。

Sergey Levine

创始团队中还有谷歌前研究科学家Brian Ichter，以及Stripe前高管和知名科技投资人Lachy Groom。

Physical Intelligence的愿景是：用户可以像使用大模型支持的聊天助手一样，让机器人执行任何他们想要的任务。

通用机器人基础模型对于行业意味着什么？

目前，AI的应用方向可以大致分为两种，一种是在虚拟空间与人类互动，一种是直接与物理世界互动。在虚拟空间与人类互动，例如聊天机器人，AI企业搜索和Agent，法律AI、编程AI等垂直行业AI。

直接与物理世界互动，主要通过机器人和自动驾驶汽车来实现。在机器人应用的分类上，也可以分为专用和通用两种。

现在，大多数机器人属于“专用型”，这些机器人能适应限定环境中的少量变化，但难以应对像家庭或其他较为复杂和凌乱的真实环境。还有一部分属于通用型机器人，例如一些人形机器人。他们被设计出来，就是为了应对人类可以完成的大多数事情，而不是局限于某一个有限场景。

机器人的结构，大致可分为“大脑”、“小脑”、“眼睛”和“肢体”，其中“大脑”是机器人的中枢，负责理解外界的指令，并做决策，一般是通用或专用的模型；“小脑”将决策命令输入进“肢体”并控制他们，是控制系统；“肢体”是机器人直接与物理世界接触的部分，可能是人形，犬形或机械臂，甚至可能是一辆车；而“眼睛”就是“大脑”感知外界的传感器。

所有这些部分，都有大公司或顶尖创业公司在创新和耕耘，不过“小脑”、“眼睛”和“肢体”都已经在前几次的机器人浪潮中逐渐成熟，而机器人的“大脑”还处于初级阶段。

对于垂直场景中的清洁机器人，喷涂机器人，配送机器人，仓储搬运机器人，他们只具有对应于垂直场景的专有智能，他们的“大脑”模型只能理解和处理有限场景中的情况，更早一些的专有机器人，他们只能做固定好的动作，并且需要大量的人类编程。

通用的机器人大脑模型，可以一定程度改变这一现状，它使机器人能够学习并遵循用户指令，从而让编程新的行为变得非常简单，还让机器人能够自行调整其行为以适应环境。

对于任何垂直领域的机器人创业者，只要有一个通用的机器人大脑模型，再结合自己行业的专有数据，就可以微调出一个适应具体应用场景的机器人大脑。这个逻辑与大语言模型+专有数据=强大的行业模型，是一模一样的。

从更深一层来说，通用机器人基础模型，对于实现通用人工智能（AGI）也很有帮助。现在AI研究员们发现，Scaling Law的效果正在减弱，原因是AI模型遇到了“数据墙”——几乎所有现存的高质量数据都已经被训练，模型缺少更多更好的数据。如果有一个通用机器人模型，它不断地与物理世界交互，不断遇到和解决复杂的情况，那么就会源源不断产生高质量数据，最后就会离AGI越来越近。

训练通用机器人基础模型需要什么新方法？

Physical Intelligence目前的原型通用机器人基础模型叫π0（pi-zero）。它基于广泛多样的数据进行训练，并能够执行各种文本指令。但不同于大语言模型的是，它还整合了图像、文本和动作，并通过在机器人体验中积累的实际操作来获得物理智能，它输出的是低级别的电机指令。它可以控制各种不同类型的机器人，而且既可以接受提示执行所需任务，也可以微调以适应复杂的应用场景。

在训练π0模型时，Physical Intelligence使用了一些特殊的训练策略。

首先是跨设备的混合训练 ，π0模型使用互联网规模的视觉-语言预训练、开源的机器人操作数据集以及自行收集的来自8种不同机器人的精密任务数据集，从而能够通过零样本提示或微调来执行多种任务。

这些数据集包含多样化的任务，每个任务展示了丰富的运动基本单元、不同的物体和多种场景；这些任务也涵盖了机器人灵巧操作的不同维度，Physical Intelligence选择这些任务的目标不是解决某个特定应用，而是为模型提供对物理交互的通用理解——为物理智能奠定初步的基础。

其次是互联网规模的语义理解 ，这个训练的起点是一个视觉-语言模型（VLM）。VLM能有效地从网络中转移语义知识，但它们只能输出离散的语言token，而精密的机器人操作需要π0以高频率（每秒最多50次）输出电机指令。

为了达到这种灵活性，Physical Intelligence使用流匹配（一种扩散模型的变体）来增强VLM模型，使其能够输出连续的动作指令；这样就形成了一个视觉-语言-动作流匹配模型，随后对其进行高质量的机器人数据后训练，以解决一系列下游任务。

最后是针对精密操作的后训练 ，更复杂的精密任务需要对模型进行微调，通过高质量数据对模型进行微调，例如折叠衣物的任务，就类似于大语言模型的后训练过程。预训练让模型掌握物理世界的知识，而微调则使其在特定任务上表现出色。

当然，π0不是唯一的通用机器人基础模型，Physical Intelligence将它与其他的一些通用机器人基础模型在Zero-shot的条件下，用一些实际的任务，例如折叠衣服，将吐司面包从面包机中拿出来，将杂物打包等，来测试模型解决实际问题的能力。结果显示，无论是π0还是更小的π0-small，在解决问题能力上，都大幅优于现有的OpenVLA等模型。

例如，在折叠衣物、餐桌清理和组装盒子等任务中，π0支持的机器人可以将纠缠在一起的衣物分开，并折叠好；可以将餐具或杯子放入清理托盘，并将垃圾放入垃圾桶；还可以拿起一个平整的纸板箱，将其折叠成形，然后插入折边。这些动作都不是少步骤的简单任务，而是需要复杂动作的家务或生产活动。

不过，截至目前，π0还只是一个原型模型，通用机器人基础模型仍然处于起步阶段。Physical Intelligence表示他们还将继续收集数据并对模型进行训练，从而实现新的灵活性和物理能力。

在商业化方面，Physical Intelligence目前暂时没有明显的动作。

中国的机器人产业，需要核心技术更需要落地

为什么无论是顶尖投资机构，还是杰夫·贝索斯等科技巨头的掌舵人都要押注机器人？答案很可能是前文提到的，机器人可以与AI结合，探索物理世界，产生大量真实而高质量的数据，最终帮助实现AGI。

事实上大家不仅是投资，也会自己下手做，除了特斯拉的Optimus，英伟达也有机器人通用模型系列工具NVIDIA Project GR00T，亚马逊则有Sparrow（仓储机器人系统）和Digit（双足机器人）。

在创业公司方面，Figure AI主要做Figure 01和Figure 02人形机器人，他们的大脑由OpenAI定制的模型组成，具有较强的泛用性，不仅可以完成冲咖啡等生活技能，还能去工厂里“拧螺丝”。

Skild AI主要做Skild Brain和移动操作平台，其中Skild Brain是类似于π0的机器人通用大脑。

1X也做的是专为家庭设计的双足人形机器人NEO Beta，而Vayu One是Vayu Robotics的送货机器人，它还有Vayu Drive这个移动基础模型。

目前，中国在机器人方面，在核心算法和高级运动控制系统方面与美国还是有一定差距，但是无论是机器人的“大脑”、“小脑”、“眼睛”和“肢体”；各种专有机器人和人形/狗形通用机器人，都有大公司和顶尖创业公司在努力创新开拓。这些公司就包括阿里，小米，小鹏，大疆，宇树等。

而且中国一方面拥有巨大的市场和丰富的应用场景，一方面机器人的密度还不够高，这就有巨大的潜在市场需求。对于机器人创业者，即便专注于国内的市场，也有足够的发展空间，而当在国内市场“卷赢”后，又可以进一步向国际市场开拓。

在创业方向上，固然需要在“大脑”、“小脑”等基础及核心的方向上进行突破，更需要在各种各样的应用场景出涌现出大量的创新者。应用和基础技术相互促进，才能使整个机器人创新创业生态健康发展。作为天使投资机构，阿尔法公社希望发现智能机器人领域的非凡创业者，希望帮助下一个世界级的机器人公司发展壮大。

本文来自微信公众号 “阿尔法公社”（ID：alphastartups），作者：发现非凡创业者的，36氪经授权发布。

获贝索斯参投的4亿美元融资，这家公司打造机器人用的“GPT-4”

一群科学家聚在一起打造通用的机器人大脑

通用机器人基础模型对于行业意味着什么？

训练通用机器人基础模型需要什么新方法？

中国的机器人产业，需要核心技术更需要落地

推荐体验

相关资讯

机器人公司Physical融资4亿美元：贝佐斯领投，OpenAI等参投

贝索斯领投、OpenAI连续跟投，这家机器人公司再融4亿美金

AI机器人初创获4亿美元融资，亚马逊和OpenAI参投

近期资讯

如何有效去掉视频水印：方法与技巧详解

如何在豆瓣平台上高效查找和观看电影的指南

电光科技：电力巡检机器人主要用于煤矿变电所

如何安全有效地修改手机定位信息，提升使用体验

如何轻松取消腾讯视频会员自动续费，保障您的消费权益

欧菲光：2024年推出双光源ToF专利架构方案

德联集团：冷却液应用于超算中心需深入评估

融发核电：产品涵盖核岛一回路主管道及多类关键设备

迈赫股份：未涉足机器人本体生产

如何正确调校和使用标尺以确保测量准确性

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响