智通财经APP获悉,中信证券发布研报表示,OpenAI 和 Figure 合作推出的 Figure 01 机器人展示了惊人的理解、判断、行动和自我评估能力,并引发广泛市场关注。具身智能是机器人实现感知、决策、控制的关键,目前主流的算法方案分为端到端模型(如谷歌 RT-2)和分层决策模型(如 Figure01)两种路径。端到端模型通过一个神经网络完成从输入到输出的全过程,但需要海量数据训练和大量计算资源。分层模型实现难度相对简单,但不同步骤间的融合和一致性有待提高。但无论采用何种算法,都需要搭建完整的数据收集系统,形成数据飞轮来实现 scaling law,这是机器人算法公司的核心竞争力。
商业化方面,具身智能机器人需要具备移动能力和通用操作能力。通用型机器人(四足、轮式)在移动能力上实现门槛较低,成本更低,而人形机器人在复杂场景下移动仍面临挑战。通用操作能力是机器人能够在不同环境中完成各种任务的关键,但目前技术路径尚不确定。该行判断,通用机器人相比人形机器人更有可能先实现商业化,且商业价值更大。未来最先落地的可能是移动抓取和放置(mobile pick-and-place)技能,应用于工厂、药店/超市、商用清洁等场景。国内机器人公司以通用型为主,领先厂商已实现盈利。展望未来,算法层面的进展将直接决定下一步商业化落地节奏。
中信证券的主要观点如下:
投资策略:
人形机器人的商业化落地需要同时解决移动能力和操作能力两大挑战,而这两种能力所需的技术路线和发展进程存在差异。
移动能力方面,该行预计人形机器人将在未来2-3年内取得突破性进展,但要实现稳定性和量产还需要额外2-3年的时间。总体而言,移动能力的技术门槛相对较低,竞争的关键在于成本控制和量产能力。从商业化的角度看,上半身具备通用操作能力,再加上移动底盘,即可在多个场景实现落地应用。初期可以针对特定场景开发专用机器人,随着数据和场景的积累,逐步过渡到通用型机器人。如果最终目标是进入家庭,则需要在硬件、传统机器人运动控制算法、AI技术应用、力控和触觉反馈以及软件系统等方面进行长期研发,形成软硬件与算法高度耦合的产品形态。
操作能力方面,具身智能的发展路径与当前大模型公司存在差异。由于机器人领域的数据极其有限,难以通过大规模数据训练模型来实现奇迹。因此,如何在商业落地的过程中高效收集高质量的数据,将成为决定公司长期竞争力的关键因素。
报告缘起:AI算法快速迭代带来机器人产业关注度持续提升。
近年来,随着人工智能技术的快速发展,机器人领域也迎来了新的机遇和挑战。OpenAI、Google等AI公司持续推出以Sora、RT-2等为代表的多模态模型,引起了公众对于计算机视觉以及多领域融合的兴趣,使得机器人板块的整体关注度持续提升。
2024年3月17日,OpenAI与人形机器人初创公司Figure合作推出了Figure 01机器人。一段长达2分35秒的视频展示了Figure 01惊人的理解、判断、行动和自我评估能力,迅速在网络上引发了广泛关注和讨论。值得注意的是,Figure公司此前已经从亚马逊创始人贝索斯、英伟达、OpenAI和微软等科技巨头处筹集了约6.75亿美元的资金,公司估值也因此达到了26亿美元。Figure 01机器人的亮相,再次将机器人、具身智能等推向了公众讨论的焦点。
随着人工智能算法的不断迭代优化,机器人在感知、理解、决策等方面的能力料将不断提升,其商业化应用前景也将更加广阔。本篇报告将深入分析当前机器人行业的发展现状,并对其未来的商业化前景进行展望。
具身智能:感知、决策、控制三大部分结合机械件。
具身智能(Embodied Intelligence)是一种高级的机器智能形式,它使机器人能够像人类一样感知和理解环境,并通过自主学习和适应性行为来完成任务。具身智能的实现过程可以抽象为感知、决策和控制三个主要环节。
感知层负责获取和处理环境信息,为智能体的决策和行为提供依据。这可以通过两种方式实现:一是全感知,即构建一个包含操作环境各种知识的大规模数据库;二是具身交互感知,即通过智能体与环境的实时交互获取感知反馈,并利用物理定律和数据驱动的方法构建准确的环境表征。
决策层是具身智能的核心,需要类似人类大脑的处理能力,以满足机器人在理解指令、分解任务、规划子任务、识别物体等方面的需求。传统机器人在多维度人机交互方面存在难题,而RT-2、GPT等大模型的突破为解决这一问题提供了新思路。这些模型可以充当机器人的"大脑",利用其强大的语言理解和生成能力,与人类进行多维度交互,更好地理解指令和意图,生成恰当的响应和行为。
控制层根据感知信息和决策指令,协调机器人各部件的运动,实现智能化的行为控制。多传感器融合是控制层的重要方面,通过综合利用多种传感器信息,提高机器人对环境的感知和理解能力,实现更具鲁棒性和适应性的控制。
算法方案:端到端模型(VLA)与分层决策模型。
机器人算法与该行熟悉的语言类模型有所不同,主要区别在于机器人面对的外界信息都是未知的,因此无法直接照搬语言模型中的Transformer架构。当前具身智能的算法路径主要分为两条:
1)以OpenAI与Figure合作的Figure01为代表的分层决策模型。它通常分为三层:策略控制系统(SLC)通过大模型整合任务、环境和本体感知信息;环境交互的控制系统(ELC)通过具身模型实现环境感知和动作规划;行为控制系统(PLC)通过传统控制算法输出机器人控制的力矩实现最终动作。这种分层架构实现难度相对简单,但不同步骤间的融合和一致性是主要难点。
2)由Google RT-2为代表的端到端模型,它首先在大规模互联网数据上预训练VLMs,然后在机器人任务上微调。输入是任务和对象的组合,输出是一系列动作,利用一个神经网络完成从输入到感知、推理、决策和行为指令输出的全过程。端到端方案看起来更加完美,谷歌也表示在RT-2模型中观察到了涌现能力,Scaling是其继续迭代的一条稳定路径,但端到端模型在当前存在一定问题:首先需要海量数据进行训练才能泛化;全程调用大模型,资源消耗巨大,机器人执行动作缓慢。
总体来看,无论何种算法方案,都需要搭建起一套完整数据收集系统,形成一个数据飞轮帮助scaling law的实现,这一套完整循环框架是当前机器人算法公司的核心竞争力。
商业化进展:通用型与人形机器人之争。
具身智能机器人最终需要具备移动能力和通用操作能力。移动能力可以通过双足、四足或轮式等方式实现。通用型机器人(四足、轮式)的优势在于移动能力实现的门槛较低,相较于双足重心等问题处理方式相对简单,成本整体较低。双足(即人形)技术已经能够在平地行走,但在上下楼梯等复杂场景中还有待解决,不过技术路径相对明确。机器人的通用操作能力是指机器人能够在各种环境中,使用机械臂和灵巧手完成不同任务,甚至是任务组合,体现出泛化性。当前,无论是人形还是通用机器人通用操作的技术路径尚不确定,业界主要从封闭场景的简单操作开始落地。
该行认为,通用机器人相比人形双足(移动)更有可能先实现商业化,且商业价值更大。人类大多数操作都是由上肢和手完成的。由于机械臂技术已经相对成熟,使用夹爪或灵巧手就可以解决部分操作场景。此外,轮式底盘在大多数平面场景中,在稳定性、鲁棒性、成本和电池续航等方面都远超人形双足。但在家庭场景,成为通用服务机器人,可能还是需要双足。
通用操作的实现是一个逐步发展的过程。目前无论是分层模型还是端到端模型,都处于类似自动驾驶L2初期的水平。但从L2到L4的过程中,存在大量可商业化的场景。未来最先实现商业落地的泛化机器人可能是移动抓取和放置(mobile pick-and-place),可以将其视为一项可操作不同物体的技能。这项技能会从简单环境和少量操作对象,向复杂环境和多种操作对象发展。
中短期内,机器人可能进入工厂(搬运、分拣、拧螺丝)、药店/超市(分拣、补货)、商用清洁(立体清洁)等封闭或半结构化场景。当前国内的机器人公司以通用型为主,双足类机器人进展相对较慢。国内通用型机器人基本采用四足形态(机器狗),代表的厂家包括宇树科技、云深处、银河通用、智元机器人、小米以及蔚蓝科技等,领先的厂商目前已经能够维持盈利状态。展望商业化的下一步,主要目标是能够通过机器人完成更加精细化的动作,当前机械部分的困难较小,算法层面直接决定了下一步的商业化速度。
风险因素:
全球经济增速放缓导致下游需求不及预期的风险;持续高通胀导致机器人企业成本上升和利润率下降的风险;全球半导体芯片短缺持续加剧对机器人产业链的冲击风险;机器人技术发展和产业化进程不及预期的风险;人工智能技术创新和算法迭代速度放缓的风险;机器人安全性、可靠性事故引发的法律诉讼和声誉损失风险;人才竞争加剧导致企业研发和管理成本上升的风险等。
来源:智通财经网