特斯拉股价狂飙，具身AI将成为下一波浪潮

作者：科技资本论发布时间：2023-06-21

6月20日,特斯拉股价又大涨5.34%至274.45美元，比年初的最低点101美元涨了170%，势头之猛仅次于英伟达。

特斯拉有哪些利好？美国政府对电动车的补贴、特斯拉供应链在全球经济恶化环境下凸显的成本和价格优势、下半年Cybertruck将实现量产，这些都微不足道。我认为最大的利好是，特斯拉在具身AI上的突破和潜力，让资本市场确信它将引领这一领域，就像OpenAI引领生成式AI一样。

何谓具身AI（Embodied Intelligence）？生成式AI是机器能理解人类的自然语言，并输出文字、图像、声音、代码等，而具身AI是指机器能和物理世界进行感知交互，输出各种机械动作。

大家对机器人并不陌生，这几年涌现出各式各样的炒菜机器人、送餐机器人、还有给小孩唱歌、讲故事的机器人等。但这些机器人通常只能处理某一类型的任务，而具身AI则更具有通用性。

具身AI还有一个最大特质，它能够以主人公的视角去自主感知物理世界，用拟人化的思维路径去学习，从而做出人类期待的行为反馈，而不是被动地等待数据投喂。

跟生成式AI一样，具身AI也经历了艰难的探索之路。2016年AlphaGo 成功后，学术界就开始探索具身AI。从 2017、18 年开始，出现了很多仿真训练平台，让智能体放进去，通过与环境的交互中获得反馈，进而学习一个策略。

但因为仿真环境和现实环境总是有差距的，学到的策略不一定能迁移到现实里。能从仿真迁移到现实环境中的，主要还是像移动导航、单步骤的抓取或者操作这类较为单一的技能，而且很难泛化。

此外，机器人的执行需要 4D 数据（三维环境加上机器人运动的时序轨迹），数据量和丰富度都远不如图片和文本，采集成本也高得多，因此迭代演化的难度比大模型高得多。

多年以来，在机器人领域积累最深厚、技术最领先的当属波士顿动力，其机器人Atlas已经能像人类一样灵活地走、跳、跑，甚至翻跟斗。

因此，当特斯拉在2022年9月的AI Day上推出了人形机器人Optimus时，人们觉得大跌眼镜。Optimus裸露着线路板，走路颤颤巍巍，有时还需要人搀扶。大家忍不住对马斯克冷嘲热讽，有网友开玩笑：我93岁的爷爷都比它利索。而跟Atlas相比，Optimus看上去既寒碜、又低能。

但事实上，真正懂技术的人就明白Optimus的价值。第一，它再造了跟人类一样灵活的手，能做很多精确细微的动作，而反观Atlas的手只是一个圆球。

第二，Optimus采用电机驱动。Atlas是液压驱动的代表，虽然功率大、精度高，但需要专业的维护团队，而且成本高昂，使得Atlas一直没能走出实验室。而电机驱动方案在功率、控制性、成本等方面较为平衡。

第三，Optimus在软件上采用了特斯拉汽车的FSD系统，结合特斯拉新推出的神经网络occupancy network，机器人能准确地识别自己的位置，有什么任务，怎么去做。

第四，Optimus充分简化了设计，有效地降低了制造成本，从而达到了规模化量产的条件。比如，Optimus机器人使用了与特斯拉汽车一样的FSD计算机、SOC芯片等，这样就能利用特斯拉现有的供应链和产能；一些不同部位的关节设计是一样的，Optimus全身只有三种不同的关节。

Optimus的成本可以控制在2万美元左右，而相比之下，Atlas的成本高达200万美元，优必选机器人的成本约为10万美元，小米的Cyberone为60-70万人民币。可以说，Optimus是目前全球惟一具备大规模量产条件的机器人。

Optimus的进化也很快。今年3月1日的投资者日上，特斯拉展示的视频中，Optimus已经能四处走动，做拧螺丝等工作。

5 月17日的特斯拉股东大会上，马斯克又展示了Optimus的最新进展，它的行走更加自然，更会看路，还能灵活地从一个容器中拾取物体并将它放入第二个容器中。

马斯克表示，人形机器人将是今后特斯拉主要的长期价值来源。人们对机器人的需求量可能是 100 亿乃至 200 亿个，远超电动车数量。

也几乎在同一时间，黄仁勋在2023 ITF世界大会上演讲时预言，AI 的下一波浪潮将是具身 AI，包括机器人、自动驾驶汽车等。

特斯拉的股价从此开始起飞。显然，资本市场认为特斯拉将引领具身AI浪潮，就如OpenAI引领生成式AI。

值得一提的是，具身AI跟生成式AI也有密切的关系。

微软最近正计划将 ChatGPT 的能力扩展到机器人领域，用语言文字来控制机器人。此前机器人要靠工程师编写代码和程序来控制，费时、昂贵且低效，使用场景有限。ChatGPT 带来一种新的机器人应用范式，即通过大语言模型将人的语言快速转换为代码。这样，人们不需要学习复杂的编程语言或机器人系统的详细信息，就可以通过自然语言来控制机器人完成各种任务。

微软的实验已经能够通过给 ChatGPT 的对话框输入指令，控制机器人在房间中找到“健康饮料”、“有糖和红色标志的东西”(可乐)，以及一面供无人机自拍的镜子。

在具身AI领域，谷歌也是一个实力强劲的玩家。今年 3 月 6 日，谷歌和德国柏林工业大学的一组人工智能研究人员公布了视觉语言模型 PaLM-E（Pathways Language Model with Embodied）。

PaLM-E是史上最大的视觉语言模型，包含了540B的语言模型和22B的视觉模型，总参数量达到了562B。它能够理解语言和图片，并且可以观察物理实体世界的信息，进行分析和理解后再通过决策结果反馈至物理世界，从而实现物理世界和虚拟世界的沟通。

它能够通过自主学习来完成机器人的长周期任务，例如将绿色色块推到乌龟旁边，即便机器人之前没有见过这只乌龟摆件，也能完成任务。

PaLM-E的泛化能力也非常强，它能通过分析来自机器人摄像头的数据来实现对高级命令的执行，而无需对场景进行预处理，这样就能够更自主地控制机器人，消除了人类对数据进行预处理和注释的需要。

但毕竟微软和谷歌在硬件制造上没有基础和经验，具身AI何时引爆，还是要看特斯拉的。

本文来自微信公众号“科技资本论”（ID:Tech_Capital），作者：卢爱芳，36氪经授权发布。