当前位置:首页|资讯

专访地瓜机器人:今天的具身智能就像八年前的自动驾驶,投入要趁早|甲子光年

作者:甲小姐甲子光年发布时间:2024-09-25

把地平线自动驾驶的路径,在具身智能复制一遍。

作者|赵健

今年,地平线公司有两件大事。

第一件大事是在今年3月,地平线正式向港交所递交招股书,在创业的第9年迈入一个新的征程;第二件大事,是在今年年初,地平线拆分其机器人事业部,成立独立子公司“地瓜机器人”。

地平线是国内最受关注的智驾科技公司之一,已经深深地打上了“自动驾驶”的烙印。但其实,机器人才是地平线的终极愿景,连地平线公司的全名都是“地平线机器人(Horizon Robotics)”,而其核心业务自动驾驶可以看作机器人落地最快的场景之一。

成立初期,地平线专门成立AIoT事业部,探索自动驾驶之外的落地场景。几经探索与业务调整之后,地平线在2021年逐渐明确将业务重心聚焦在机器人领域,并在2022年推出第一代机器人开发平台Horizon Hobot Platform。2023年,在大语言模型的“东风”下,具身智能成为机器人领域最大的风口。这是地瓜机器人独立的背景。

地瓜机器人CEO王丛认为,今天的具身智能,与七八年前的自动驾驶非常相似。大家核心的共识是,这将是一次巨大的产业革命。但除此之外,技术路径、技术成熟度、落地场景等具体的细节,尚未形成统一共识。但非共识才恰恰是创业的最佳时刻,在行业初期布局,才会赢得通往未来的门票。

地平线已经在自动驾驶领域证明过这一点。现在,地瓜机器人要做的事,一定程度上可以看作地平线将其成功路径在具身智能机器人领域的复刻。

具体怎么做?地瓜机器人不是机器人,也不自己生产机器人,而是要做机器人领域的“Wintel”——一个集成了软件与硬件的操作系统。今年9月20日,地瓜机器人首次公开亮相,在深圳举办开发者日,发布了面向机器人行业的旭日5智能计算芯片,RDK X5和RDK S100两款软硬一体的机器人开发套件,以及最新的客户与开发者生态成果。

「甲子光年」专访了地瓜机器人CEO王丛,来拆解机器人领域的Wintel,如何迎接具身智能大时代。

1.今天的具身智能,就像八年前的自动驾驶

甲子光年:今年年初地瓜机器人从地平线独立出来运作,原因是什么?看到了什么机会?

王丛:从去年下半年开始,机器人领域的热度快速提升,大模型的突破也让通用智能前景更加明朗。我们认为,现在的timing(时机)很像2016、2017年的自动驾驶,均处在行业早期阶段。恰恰是在这样的阶段,更应该聚焦,用更大的资源、更独立的运作方式来推动业务发展。早期的投入和积累至关重要,若待行业成熟再介入,有可能会错失良机。

甲子光年:今天的具身智能像七八年前的自动驾驶,具体哪些方面像?

王丛 :那时候,Waymo、百度以及很多做自动驾驶的公司,大家的技术路线各不相同,传感器搭配算法的选型都不一样。后来,资本市场点燃了行业的热情,大小企业积极参与。现在人形机器人呈现出相似态势,各家公司技术路线不尽相同,虽都强调大模型的泛化能力,但具体实现方式尚无定论。正如自动驾驶先在美国兴起,后由中国等国跟进,吸引众多计算机视觉专家转投自动驾驶领域,人形机器人领域也正吸引着来自不同背景的人才汇聚。

通用人形机器人的发展绝非一朝一夕之功。自动驾驶从2016年做到现在,仍在持续演进,远未达至终局,通用机器人的发展同样还很漫长。

甲子光年:地瓜机器人的独立是一个很好的timing,做出这个决策需要多久?

王丛:其实是很自然而然的事情。独立之前我们就是相对独立运作的事业部。发现这个timing之后,整个决策就是水到渠成。

甲子光年:更大资源的投入之后,业务带来的最大的变化是什么?

王丛:变化是多方面的。在品牌层面,去年我们叫地平线开发者日,今年叫地瓜机器人开发者日。地平线在自动驾驶领域已经深入人心了,但圈子外的人,可能对于地平线在机器人业务上的发展和成果都知之甚少。采用独立品牌后,更容易在机器人领域打出影响力,无论是人才招聘、客户体验、资金投入、团队内部精气神上都会产生积极的推动作用。

甲子光年:地瓜机器人的芯片业务也会独立出来吗?

王丛:是独立的。两个市场本来就存在显著差异,客户需求大相径庭。不同类型的机器人不一样,有的追求低功耗、性价比,有的追求极致性能;而自动驾驶在接口、外设,产品设计、算法等方面也自有其独特性,直接将自动驾驶的算法应用到机器人上是行不通的。

当然,两者在底层架构上仍有相通之处,我们团队的很多成员都来自自动驾驶领域,对于底层架构非常熟悉,能够根据机器人客户的需求,提供更合适的解决方案。

甲子光年:“地平线”这个名字很有诗与远方的感觉,但“地瓜机器人”却很接地气。品牌名字是怎么确定的?

王丛:通俗地说就是 “地平线结的瓜”。我们聊了机器人的客户,会觉得他们都是很接地气、很务实的一群人。作为面向机器人开发者的生态,我们还是要拉近开发者的距离,就像“小米”这个农作物名字一样,会让大家感受亲切。

我觉得“地瓜”本身是一个很好的寓意,它在任何地方都可以生长,能无性繁殖,藤蔓枝叶都很有风貌,也可以养活无数的人。我也希望这家公司能在各种各样的条件环境下都能成长,能滋养机器人行业的各种用户。

2.从AIoT事业部到地瓜机器人

甲子光年:地瓜机器人源自地平线最早的AIoT事业部,早期做过物联网业务,后来逐步收敛、聚焦在机器人领域。这个过程是怎么走出来的?

王丛:阿里的曾鸣教授曾提出过一个战略框架,在“想做、能做、可做” 之间找到一个交集区。对地平线与地瓜机器人团队来说,我们的核心能力集中在两大领域,一是芯片,二是由强智能驱动的业务。

一开始,我们很多市场都会去尝试,最后发现,机器人行业的客户对我们的诉求是最多的,而且机器人的研发工具、基础设施,确实还处在一个初级阶段,存在巨大的发展空间。同时,机器人本身也是我们最热衷的领域,价值客户呼声最高,自然而然就将重心聚焦到了机器人行业。

总之,无论是地平线在汽车领域的布局,还是地瓜机器人在机器人领域的深耕,本质上做的都是对智能诉求更迫切的领域,并通过尝试找到了最适合我们的发展方向。

甲子光年:早期在物联网领域的尝试算是走的弯路吗?

王丛:对我个人以及团队来说,反而是非常宝贵的财富。我经常跟团队讲,很少有创业公司能像我们这样深入研究过如此多的市场。即便不谈机器人,物联网行业的各类解决方案,我几乎都亲历过。这极大锻炼了团队的各种能力,比如如何服务客户、如何分析需求等等,很多问题其实是相通的。与其说是弯路,不如说是必经之路。

甲子光年:是从2020年开始决定把业务聚焦在机器人上吗?

王丛:中间经历过一段时间的过渡。因为初期存在一些历史遗留项目,虽然团队做了调整,但仍需确保对客户的持续服务,这是我们的责任所在。因此,我们一方面努力完成遗留项目的交付,一方面积极探索自己的业务重心。慢慢到2020年下半年以及2021年,我们开始服务科沃斯等机器人客户,逐渐明确了我们的发展方向。

甲子光年:跟科沃斯的合作算是一个转折点吗?合作是怎么开始的?

王丛:的确,与科沃斯的合作,对我们的而言是一个比较重磅级的合作。

我们致力于与客户建立长期稳定的合作关系,因此在合作过程中,我们会非常坦诚地与客户分享我们的专业知识和经验,比如告诉对方,哪些算法在我们的芯片上运行效果更佳,并主动分享我们在自动驾驶领域积累的算法经验。这样,客户可以根据我们的建议优化自己的算法,从而实现双方的长期合作共赢。

3.机器人领域的“Wintel”是什么?

甲子光年:地瓜机器人不是机器人也不造机器人,而是做机器人领域的“Wintel”,这个定位是什么时候确立的?

王丛:地平线从成立之初就希望做机器人时代的Wintel。最开始机器人这条业务线叫AIoT,到2022年年底我开始制定机器人业务的Wintel战略,2023年产品准备就绪之后逐渐对外发布。这一战略定位极具价值,它是我们之前广泛探索,然后逐步聚焦的成果。

甲子光年:“Wintel”实际上是两家公司构成,微软做软件,英特尔做硬件。为什么地瓜机器人可以两者都做?

王丛:每个时代都会孕育每个时代的公司,在电脑、手机、汽车领域都会产生各自时代的行业巨头,有做芯片Infra的,有专注于软件的。我们相信机器人时代会同样如此。当前,机器人领域存在大量“重复造轮子”的现象,这些不会产生额外的价值,核心还是在于市场上没有好用的工具,导致客户只能自行解决。因此,一定要有人解决这件事,进而推动行业发展。

在我们看来,地瓜机器人来承担这一角色是顺理成章的。因为我们有很多软硬结合的经验,都能沉淀到芯片设计当中。同时,我们也更懂芯片的底层架构,清楚哪些软件、算法能够最大化发挥芯片的性能,我们也懂机器人领域的挑战。因此,由地瓜机器人来做这件事,对于帮助客户提升开发效率是最高的一种选择。

甲子光年:重复造轮子指的是什么?

王丛:之前行业里不乏开源平台,也的确有很多人使用。但开源方案的问题在于,机器人的开发链路很长,涉及的模块众多,不是单一工具能够覆盖。

我们的客户在解决这些问题时,经常需要四处搜寻合适的工具,哪个工具不尽人意,或开源项目停止维护,就不得不自行研发替代方案。结果,几乎每一家机器人公司都从零开始。实际上,开源产品或多或少都能做出60分水平,然后在此基础上修修补补,但这样做难以创造真正的用户价值。

甲子光年:真正的用户价值是指?

王丛:以开源为基础虽然可行,但若工具不够好用,最终产品还是会存在很多不足。即便勉强做出来了,也不一定能卖得很好,因为它可能只能提供一些底层的基本功能,虽然够用,但不会成为好的产品。

甲子光年:既然地瓜机器人具备了机器人各个环节的能力,为什么不直接造机器人?

王丛:每个时代,总有人选择成为苹果、特斯拉那样的企业,但也有人选择做底层,成为服务行业的基础设施提供者。我觉得两种都是很伟大的选择。

甲子光年:这个决策在你们内部产生过分歧吗?

王丛:实际上并没有,这仿佛是刻在企业基因里的事情。我2018年加入地平线的初衷,也是被计算平台这件事所吸引,所以在我们的意识里,从未有过做端到端产品的想法。

甲子光年:为什么过去很少有人来做一个更好用的机器人商业操作系统?

王丛:要打造一个纯软件的中间件,或者操作系统,你会发现很难收费。过去众多SaaS软件公司,跑通商业闭环是很难的一件事。而且,机器人的软件跟硬件耦合得非常紧密,很难做成一个独立的软件平台。很多公司可能都看到了机会,但没有把握能把这件事做好,加上机器人的链条也很长,要做得足够好用,需要长时间的投入和坚持。

甲子光年:所以像地瓜机器人这样软件搭配硬件的商业闭环会更容易吗?

王丛:确实如此。地瓜机器人团队实际上是市面上少有的既有芯片设计能力、又有算法能力,同时对机器人的研发、行业的相关Know-how,都有很深厚的积累。这样的综合优势使得我们在构建软硬件结合的商业闭环上更具竞争力。

甲子光年:地瓜机器人的商业模式是什么?

王丛:面向成熟的to B市场,我们以旭日为核心,通过极具竞争力的计算方案,助力行业头部客户打造爆款产品;面向更广泛的开发者to D (Developer,开发者)市场,我们主要以RDK系列的开发者套件为主,同时软件平台也会随着它的价值厚度不断增大,发展成为与芯片协同的SaaS软件。

甲子光年:开发者怎么赚钱?

王丛:开发者群体大致可分为三类。第一类是学生,天然以学习为目的,购买我们的产品用于做项目或毕业设计;第二类是极客,天生热爱创新,享受技术探索的乐趣;第三类是小型创客,由于团队规模较小,难以获得大公司的支持,而我们可以提供一个工具友好完善、文档清晰的社区环境,助力他们创新。

虽然这些开发者群体当下更多是以个人身份活动,但学生也会毕业,创客也会成长,慢慢可能会发展成为我们的to B项目。可以说,to B与to D是一个相辅相成的关系。

甲子光年:自动驾驶也做生态,但主要是产业链上下游。地瓜机器人的生态面向开发者,这两种生态的运营方式有什么不同?

王丛:跟服务的人群有关系。机器人行业不像汽车行业有那么高的确定性,变革速度很快,每过一两年就会产生一大批新客户,其中很多都有可能就是现在的学生与创客成立的。相比之下,汽车行业还会产生十家新车企吗?显然不会。因此,我们的生态需要更加灵活,以适应快速变化的市场需求。

甲子光年:面向开发者的模式是怎么形成的?

王丛:这一模式其实在半导体行业已有深厚基础,比如TI、英伟达、英特尔,都设有强大的大学计划,服务于正处在项目孵化阶段的人群。如果说地瓜机器人有哪些不同,就是我们不仅像半导体公司的大学计划那样提供开发板,还会针对机器人开发超长的链条,进一步提供完善的工具和Infra设施的支持。

甲子光年:链条很长,会有多长?

王丛:从硬件选型开始,我们作为硬件的核心(芯片),会联合生态伙伴提供传感器、雷达、地盘等硬件,确保这些硬件在我们的平台上都能轻松使用,让开发者无需再为寻找合适的雷达或其他硬件而烦恼。此外,我们还提供一些核心的算法模块,比如感知、SLAM等,我们也提供很多开源的原型,以及完整的应用软件参考框架。更重要的是,我们会把这些环节串在一起,帮助开发者快速打造出机械臂等原型Demo,并支持后续的长尾迭代和算法优化等工作。整个流程中,我们不会涉及最终硬件的量产,但整个的研发环节,我们都会全力支持开发者解决各种难题。

甲子光年:芯片公司都会建立自己的软件标准,比如英伟达CUDA建立了很难突破的护城河。机器人领域有没有类似的问题?

王丛:这正是我们致力于解决的问题。机器人行业现在缺少统一标准,广泛存在重复造轮子、闭门造车的现象。虽然CUDA已经把深度学习的标准建立起来,但机器人的链条涵盖了深度学习、规划控制,以及与周边硬件的结合、数据迭代等多个环节,如何把这些环节串在一起,尚无统一的标准,这正是地瓜机器人想解决的事情。

甲子光年:英伟达也推出了机器人开发平台Isaac,地瓜机器人跟英伟达有哪些不同?

王丛:市面上有太多问题没有被解决,英伟达解决了一部分,地瓜机器人会去解决另外一部分。我们并不以对标竞品为目的,而是兼容并蓄。对于竞品已经做得很好的,我们也会去兼容。如果还有很多产品问题没有被解决,我们则会努力去达成。

甲子光年:英伟达哪些地方做的不错?

王丛:比如,英伟达的Simulator(仿真)做的确实不错,这个地瓜机器人也在做,但思路有所不同。英伟达侧重纯仿真的路线,我们还会关注现实环境的结合,把数据采集、数据增广的部分给补充进来,然后把全套流程跑通,再部署到我们的芯片上。我们也会更关注企业具体场景的落地难点问题。

4.千元内最佳机器人开发平台

甲子光年:地瓜机器人这次发布了两款RDK开发套件:X5与S100,有什么区别?

王丛:没有一款芯片能够包揽所有任务。所以,我们根据不同市场需求,发布了两款不同算力的RDK机器人开发者套件。

RDK X5算力在10 TOPS左右,是 千元内最佳机器人开发平台,它会更关注当前阶段已实现规模化落地,但又需要不断提升智能化水平、突破智能天花板的机器人,比如扫地机器人、服务机器人、机械臂等;RDK S100 面向市场热度较高的具身智能机器人,算力在百TOPS,星动纪元、逐际动力、求之科技、清华大学AIR智能产业研究院、睿尔曼、国讯芯微等数家行业顶级合作伙伴率先搭载。

甲子光年:就是中低端与高端产品的定位?

王丛:站在芯片的角度可以这么理解,但站在行业与场景的角度,其实这是两个截然不同的市场,分别面向不同的需求,不能简单进行比较。

甲子光年:地平线在2020年发布旭日3,今年才发旭日5。为什么两代芯片要隔四年?这个相对较慢的节奏跟疫情有关系吗?

王丛:或多或少有一些关系,但影响的不仅仅是机器人,而是整个行业,客户对于下一代芯片的迫切感没有那么强烈。整个行业的放缓,使我们决定不必急于求成。旭日5很早就规划定义了产品的规格,但直到前年年底、去年年初我们才真正推进量产。

甲子光年:机器人公司对地瓜机器人的诉求是什么?

王丛:在过去,扫地机器人、割草机器人、机械臂等产品主要基于控制系统,不需要太大算力,对我们也没有过多诉求。但现在的趋势是,这些品类的机器人做智能化升级,RDK X5的核心定位是满足这一部分需求;另外一方面,像清华大学智能产业研究院孵化的求之科技,以及星动纪元等做前沿机器人的公司,也会用到RDK S100这样百TOPS级别算力的开发套件的支撑。

甲子光年:智能化的部分更多是感知能力,地瓜机器人会做运动控制的能力吗?

王丛:所有涉及运动控制的部分其实都是MCU芯片驱动,但是如何感知、如何判断怎么去控制,是抓可乐还是矿泉水、横着抓还是竖着抓,都是计算芯片要做的事情,只是让MCU去执行具体的动作。

甲子光年:RDK X5这款产品面向的机器人智能化升级的需求强烈吗?

王丛:很多时候,最后都是客户用订单来说话。我最近频繁出差,深入了解了不同客户的需求,客户真的是会拿真金白银去做智能化升级。当然,目前来看市场需求还相对保守,未来还有很大的增长空间。

甲子光年:未来非智能化的机器人会被淘汰吗?

王丛:我觉得这与手机行业的发展轨迹类似。现在,已经很少有人用非智能手机了,在考虑问题时,我们总会着眼于未来,比如我们的产品在扫地机器人这个细分赛道里,可以算是中高端定位。但技术更迭的速度非常快,今年的中高端到明年可能就会成为标配。

甲子光年:人形机器人现在成本非常高,价格很贵,芯片计算平台占成本的多少?

王丛:现在分析人形机器人的成本占比,实际意义不大,因为人形机器人的差异很大,成本构成也各不相同。以成熟的手机行业为例,一台六七千元的旗舰智能手机,芯片的成本大概是100~150美元,占比约为1/6;汽车行业中域控制器的占比也差不多,但略低一点。未来当机器人走向标准化的时候,预计芯片的占比大约是1/10左右。

甲子光年:Figure与OpenAI合作做人形机器人,这一合作案例对你们有参考价值吗?

王丛:Figure与OpenAI的合作是调用其云端模型能力,而我们更专注于在端侧芯片上跑规模小一点的、部署在本地的语言模型。在多模态领域,我们也在适配视觉大模型的部署,实现对不同物体的抓取。

我认为,最终的目标要回归第一性原理,就像人类一样,虽然很难记住所有东西,也需要上网检索信息,但在一些本地的、惯性的行为上,比如让机器人抓取杯子、摆放物品,应该直接在端侧实现。至于说让机器人写作等高级能力,我们并不特别关注。

甲子光年:在解决客户问题的时候,你最关注的问题是什么?

王丛:我们产品覆盖的机器人形态包含了当下的成熟市场,也包含了未来新兴的人形机器人市场。我们更希望在这两者之间找到底层算法上的共通之处。比如环境感知技术,特斯拉研发的Occupancy Network(占用网络)在它的机器人上同样适用。此外,数据链路也是关键,比如扫地机器人对数据的需求非常大,但如果靠采集,成本太高,因此就需要用数据生成的方式,未来的机器人同样会面临这一问题。

人形机器人的发展虽然尚需时日,但抽丝剥茧后,一些核心技术模块背后的技术大概率是不会变的,这些技术应用到成熟的扫地机器人、割草机器人时,可以产生技术复利,这正是我们现在努力的方向。

甲子光年:具身智能的技术路线,现在业内达成共识了吗?

王丛:涉及到人形机器人的通用化如何做的问题,市场尚未形成共识,目前,有采集真实数据做端到端的Imitation Learning(模仿学习)的方式,有纯仿真的方式,也有Learning from Video的方式,每家方法各异。

甲子光年:如果技术路线都不同,地瓜机器人怎么提供标准化的能力?

王丛:我们提供硬件的能力、底层框架的能力相对来说可以统一,感知部分的占用网络也可以复用,但这套体系不解决所有的问题,只解决其中一部分。

甲子光年:美国有一家对冲基金Coatue判断,具身智能领域不会有“ChatGPT时刻”,因为机器人受到很多物理限制、成本限制,会是一个相对平缓的发展过程。你判断这个行业的发展节奏会是怎样的?

王丛:当下来看,关键在于技术路径尚未收敛,更核心的原因是数据匮乏。和ChatGPT利用全互联网的数据来训练不同,机器人领域的数据量非常有限,这导致在设计机器人本体和技术路线时会面临诸多挑战,数据标准的不确定性会影响技术的迭代发展。

这有点像“鸡生蛋、蛋生鸡”的关系,算法、本体不定型,数据就无法定型;而数据不定型,算法又难以迭代。当然,这些问题可能会在某一天有所突破,后面的难题就会迎刃而解。所以在技术尚未突破之前,我认为大家不应过度夸大具身智能机器人,就现阶段而言,它更多是一种能够更好地解决问题的机械设备。

5.所有人后退,我不能退

甲子光年:地瓜机器人的团队配置是怎样的?

王丛:地瓜机器人的团队以研发为核心,研发人员占比高达七八成,其中芯片与软件开发人员各占一半,此外还有销售、生态等部门。生态部门会专注于开发者相关的社区建设、运营,以及高校合作等活动。

甲子光年:你怎么判断业务是在走在正轨上,还是偏离了客户诉求?

王丛:我每周大约有一半的时间在出差或者见客户,同时也参与大部分客户对接群的交流,所以基本上我们都能直接感受到客户的真实需求。我虽然不是最精通技术的,但也是研发出身,能够轻松理解各种最新技术特点,从而更好地把握客户需求。

甲子光年:从一个事业部负责人到一家公司的1号位,这种身份转变带来最直观的感受是什么?

王丛:我之前有过作为企业联创的创业经历,深知公司1号位与部门1号位的巨大差别。作为公司CEO,我时刻感受到一种责任感,就是即使所有人都后退,我也不能退。这种感受非常强烈,也是身份转变带来的最直观体验。

(封面图来自地瓜机器人)

END.


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1