当前位置:首页|资讯|OpenAI|马斯克

人形机器人竞争元年肇始:特斯拉对Figure+OpenAI,谁将笑到最后?

作者:南方周末发布时间:2024-03-28

人形机器人竞争元年肇始:特斯拉对Figure+OpenAI,谁将笑到最后?

最近,美国的AI原创、机器人研发等未来创新产业,异动频频,各个科技巨头、初创公司,都纷纷发布新产品。同时,马斯克(Elon Musk)还起诉了OpenAI的CEO Sam Altman,又发布大模型Grok-1并开源。这一系列的竞争令人眼花缭乱,除了巅峰引领者对AI研发的理念之争,还有个重要因素:AI在应用端的人形机器人市场竞争。

非人形的工业机器人已成功应用几十年,其基于传统算法,能够精确地将零件定位到某个空间位置,自动化流水线大大提升了生产效率。但这类工业机器人没有基于神经网络的AI功能,因此其处理模糊信息的能力很有限,更没有自我学习、不断提升认知的“机器学习”能力。

人形机器人对工人的“优势”

由AI运作的人形机器人从事生产劳动,将推动重大产业革命和生活、生产方式变革。人形机器人仍是机器,可实现7×24小时连续工作,不用加班费,也不必进行两班倒、三班倒(这会使雇佣劳力数翻2-3倍,所带来的人力因素问题指数级增加)。企业因此规避了劳动法、工会纠纷、工伤赔偿等法律成本;降低了人力资源管理、劳动纪律考核、团队建设等运营成本;资方在设备投资、供能、维修、折旧等方面之外,工资成本大大降低,这一切都将大大提升生产效率,降低制造成本、增加利润率。

具体到工业产生,人类工人还存在工种技能隔阂,即所谓隔行如隔山,譬如:当总装线的装配工劳动负荷过载时,假设喷涂工艺线上的油漆工工作不饱和,却无法调来帮忙。且人类工人还会因体力衰退、年龄增加、心理波动等因素,造成工艺技能不稳定。而正值技能巅峰的工人,则会要求增加薪资,或干脆跳槽到薪资更高的竞争对手工厂。

人形机器人应用于工业生产,上述问题迎刃而解:AGI(通用AI)机器学习,学会的技能会被程序化,不会忘记,可实现一部人形机器人学习许多工种的工艺技能,达到资方的设备投资实现最高效能。且这些优秀资产不增工资、不闹罢工、不会偷懒怠工、不会跳槽到竞争对手那里,当其完全损坏报废后,不但不需要退休金和医保,还能拆解为零部件再利用,其余部分作为废金属回收。

人形机器人还能适应现有生产线和办公建筑格局,它们能很快利用既有生产线和办公设备,实现对人工劳动的高度类似替代。当生产线局部改进、阶段性技改升级后,只要对通用型人形机器人进行“机器学习”和训练,它就能适应技术进步与迭代。而不再像以前的工厂升级那样,要将整个旧生产线甚至厂房推倒重来,动辄几十亿投资、几年技改时间,而丧失市场机遇。

AI操作的通用型人形机器人的这些优点,对资本方和各产业的诱惑,实在是太大了。因此,各先进国家的产业顶端无不趋之若鹜,经过几十年的渐进式发展与激烈竞争,美国的AI与人形机器人研发目前持业界牛耳。

人形机器人简史

其中,曾被全世界公认为人形机器人研发先驱、最高水准者,毫无疑问是老牌创新企业Boston Dynamics(波士顿动力)。但当创新企业成了“老牌”可不是啥好事,在取得了令世界叹为观止的惊人成就之后,Boston Dynamics逐渐陷入了成绩卓然的荣誉泥淖。

Boston Dynamics的研发人员,似乎把机器人研发当成种娱乐游戏,大量燃烧天使投资人的金钱,却不太关注人形机器人的工业应用,而是把机器人做得越来越漂亮、越来越文艺范儿。Boston Dynamics机器人的拿手绝活是跳舞,研发人员耗费了巨大金钱、时间、精力……去训练机器人跳舞。许多年过去,他们的机器人学会了各种各样的舞蹈、花样翻新的舞姿,还能在空中翻跟头。但持续30年的始创投资得不到有效回报,Boston Dynamics陷入了叫好不叫座的秀场困境。2021年6月,韩国“现代集团”宣布:正式从“软银”手中收购Boston Dynamics的控股权。

当“老牌”初创企业逐渐老去、路径出现歪斜之时,后起之秀就要横刀截和了,市场竞争就是这样冰冷、残酷、毫不客气。

这个后起之秀就是马斯克的特斯拉 (Tesla),在多年前,马斯克就向大家说:特斯拉不是车企,而是科技创新企业;特斯拉电动车也不是电动车,而是安装了轮子的机器人。

投资界很多人认为他是在作秀、炒作概念拉升股价,对这套“疯话”嗤之以鼻、一笑了之。可在多年后,大家突然发现:特斯拉推出了Optimus(擎天柱)机器人,而且马斯克的xAI推出了Grok大语言模型,在该领域,又被他甩了几个身位,绝大多数的企业再也追不上了。

不过,在AI与人形机器人结合的前端研发领域,马斯克并非无敌。最近,后起的后起之秀——2022年刚成立的新锐初创机器人公司Figure,联手了AI界的巅峰企业Open AI起身叫板、对标竞争,在这俩新锐力量背后撑腰的,是IT产业世界顶级巨头Microsoft。

Google败局、苹果止损

昔日的巨无霸、IT产业的领军品牌,Google、苹果,Intel……却逐渐陷入迷茫,在AI(及其所需芯片)研发、人形机器人的竞争方面,处于很尴尬的境地。

仅仅在2015年,收购了DeepMind后,于2016年以AlphaGo击败围棋世界冠军李世石九段为标志,Google曾经成为高山仰止的世界AI巅峰。

然而,仅仅几年之后,在生成式AI的竞争中,Google的Gemini不但逊于Open AI的ChatGPT,甚至搞出了“黑人版马斯克”这种黑色幽默。在人形机器人研发方面,Google已经放弃:2017年将“老牌”创新企业Boston Dynamics卖给日本“软银”(几年后,软银又将其卖给韩国现代),其旗下的另一家日本人形机器人公司Schaft也被卖掉。

Google在这些领域的迷茫,很大原因是其近些年奉行的“多元化”战略:大量引入外籍多种族员工,在企业内部推行“多元文化”政策,形成了以印裔CEO Sundar Pichai为首的管理层。管理层在商业运作上很成功,将Google的市值从0.4万亿推到了1.7万亿美元,但同时也使其渐渐转型成“老&大”型商业公司,逐渐失去了原创科技企业的新锐、突破、颠覆性精神。

Google在赢得“政治正确、种族正确”同时,在人形机器人研发方面一脚踏空。近期《Business Insider》对其使用了Boring(乏味)的评价。而采访内部员工时,有人很冷气地说:Google再也无法创造出优秀产品。

如果说Google是Boring,那么苹果现在面临的问题可能更大。已去世的“苹果教主”乔布斯(Steve Jobs)是个不太会经营,但很善于幻想、很冲动的、完美主义的原创者。其继任者Tim Cook,则是个冷静的财务至上主义者,接掌苹果十几年,将其市值推到3万亿美元,曾经成为全球市值最高公司。

Tim Cook是全球最顶尖的、冷静、强硬的经营者,但他不是理想主义者,也不是原创者。Cook非常善于从1做到100,甚至200、300,但似乎缺乏Jobs那种从0到1的原创力。Jobs离世之后十几年,苹果很少创造出全新的、颠覆性、前无古人的产品,而是把iPhone改进到产品编号15。

2024年3月,Bloomberg(彭博社)发表尖刻评论:苹果“失去AI”,使其看起来更像可口可乐,而非高增长的科技公司。Ladenburg Thalmann资产管理CEO Osaic兼首席市场策略师Phil Blancato谈到苹果时说到:“它变成了更像是价值股,有点像可口可乐……它将为你提供一个防御性的投资组合,并在可预见的未来提供市场利率回报。”

多年前, 看着其他企业投资电动车比较眼热,苹果也尝试去造车。2024年,苹果宣布退出电动车竞争,此决策很正确,代价也很惨重:电动车产业已成“红海竞争”,未来几年,将是各电动车品牌之间残酷的价格战,破产、兼并、收购。苹果此时果断停止“闭门造车”可谓及时止损。

两大阵营:特斯拉与Figure-OpenAI-Microsoft

一个例外是马斯克的特斯拉。马斯克反反复复讲过许多遍:特斯拉不是车企,而是科技创新企业。电动车只是其阶段性基础产品,他更看重的是车载智能,从特斯拉用户那里得到的人类行为大数据,帮助了AI研发的视觉导航、AI算法、机器学习等成功,特斯拉以后的主要利润将是AI和机器人。

把企业发展战略公开,苦口婆心、絮絮叨叨讲了好几年,你们就是不信;给了诸位几年建仓时间,你就是不买进。等到特斯拉泛舟蓝海、孤帆远航时,那就怪不得“钢铁侠”不带你玩了。这就像易中天先生解读人性:很多人听惯了谎言,就不相信真话。因此,讲真话成为最有利的武器,能使大片人群发生误判。

几轮搏杀下来,目前,AI及人形机器人研发与产业竞争,基本上就是马斯克阵营,与Figure-OpenAI-Microsoft阵营两雄争霸了。

马斯克声称:人形机器人的潜力比特斯拉的电动汽车业务更重要,他预计需求量可能高达100亿-200亿台,Optimus机器人将是使特斯拉成长为价值10万亿美元级企业的关键。“从本质上讲,在未来机器人执行体力工作将成为一种选择。考虑到经济的基础是劳动力,它对经济具有深远的影响。”

特斯拉的擎天柱二代

2023年12月13日,特斯拉展示了最新版本的Optimus Gen 2(擎天柱二代,又称Tesla Bot)。比起上一代进步显著:重量减轻了10公斤,动作更加灵活,平衡性更好,全新的足部以及(6维度)力矩传感器,行走速度提高了30%。

它的最大突破是仿生机械手,2自由度驱动颈部,可精确地以目视控制拥有11自由度灵巧机械手,十指触觉传感器,使其手部动作高度接近于人手。在视频展示中,Optimus Gen 2轻轻拿起鸡蛋,并转换到另一只机械手中,鸡蛋完好无损、没有破碎。机器人还展示了用机械手拽着电线拔出电源插头、折叠了一件纺织品,这些细节再次引发机器人业界轰动。

人形机器人研发的重大难关就是机械手:它必须足够强大,能产生很大握力,同时又必须足够精确地处理精细任务。机械手抓握硬东西、捏碎玻璃杯、砸碎核桃都很容易,但拿捏柔软的、脆弱的(譬如鸡蛋壳)、不定型的、有弹性易抖动、空间位置易变化的物品,且不发生物理性损坏,是机器人研发领域的难题。连奋斗了30年的Boston Dynamics都做不到,如今马斯克的机器人做到了,只有做到这点,人形机器人才能适应工业生产和生活服务等工作。

Figure+ChatGPT

曾经与马斯克联手创建OpenAI、后来不欢而散的Sam Altman当然不能看着如此巨大的未来产业被马斯克吃独食。乘着ChatGPT胜利的东风,意气风发的Altman致力于争取AGI在人形机器人载体上的突破性成功。

2024年3月13日,OpenAI投资的那个“后起的后起之秀”Figure推出了自己的人形机器人Figure 01,接入ChatGPT后,它可以与人进行对话。

2022年刚成立的人形机器人初创公司 Figure AI目前估值26亿美元,已经从OpenAI、(Jeff Bezos的)Amazon、Nvidia、Microsoft等巨头那里已筹集了6.75亿美元投资。创始人Brett Adcock出生于1986年,更加年轻、野心勃勃、非常希望挑战那个神话马斯克。他利用这笔资金从Boston Dynamics、Google、特斯拉、苹果等公司挖走了很多机器人和人工智能研发专家。

当那些顶级精英在Boston Dynamics赚不到钱,或对Google、苹果的理念不能认同时,藏龙卧虎们不会伴随“老&大”企业消耗生命、燃烧青春,他们或另谋高就,或跳到竞争对手的公司。产业领军者引以为戒吧:不能空谈理想和情怀,天花乱坠的理念要有现实利润为基础,才不至于成为黄粱一梦。

2024年1月18日晚,Figure宣布:已与BMW(宝马)达成协议,在南卡罗来纳州斯帕坦堡的(BMWG.DE)制造工厂,采用Figure的人形机器人。Figure的人形机器人将在未来12-24 个月内,被整合到宝马生产线的流程中,包括车身制造、钣金、仓储。这对BMWG.DE目前雇佣的11,000 名员工而言,不是好消息。

Adcock预计:他们的机器人将在未来几个月内进行广泛的测试和改进,2024年底,首批实验型50个人形机器人将进入BMWG.DE的真实仓库环境中开始试点运行。“硬件公司需要时间,这需要20或30年的时间才能真正建立起来。”Adcock说,“我们设计了机器人,使其在人类旁边是安全的。在宝马的制造工厂进行自动化合作,是我们在该领域的巨大验证器。”

高盛分析师认为:预计到2035年,人形机器人市场将达到380亿美元,预计到2030年,出货量将超过 250,000台。Altman、Adcock,以及背后的投资人Bezos、黄仁勋、Bill Gates当然不能坐视马斯克独占这么巨大的市场。

从机器人的硬体方面看:比Tesla Optimus Gen2发布晚了三个月的Figure 01,似乎刚超过Optimus Gen1的水准,比特斯拉的研发水准落后将近一代、时间上滞后一年多。其不但机件裸露、步履蹒跚、速度缓慢,且颈部无法活动,机械手的整体结构较差,仿生性能与灵敏度也较差,在演示中,其抓取的是塑料杯具、塑料餐盘、苹果等较不易破碎的硬物体,与特斯拉机器人那双仿生度接近人手、能操作柔软、晃动、脆弱物体的能力还有差距。

从机器人的操控软体方面(或曰“智慧体”,此处似已不能称为软件)看:Figure 01整合了OpenAI的ChatGPT,因此具备语音交流能力。

Grok对ChatGPT

马斯克也推出了对标ChatGPT的Grok,业界评价:Grok比ChatGPT3.5强,尚不如ChatGPT4.0。但Grok也有自己的特点:在对比测试中,Grok对大多数问题答复时,反应比ChatGPT稍微快些,也更简短精炼些。且Grok的回答似乎更接近于活人特性:幽默感更强、存在偏见。而ChatGPT的回复更接近于“理-中-客”,并高度重视“政治正确”,有几个例子很典型:

当被问到4+5=?,Grok回答:4+5=9。有个男人恶搞道:我老婆说4+5=12,咋办?Grok回答:正确的数学答案是4+5=9,但在家庭生活里,老婆是对的,否则你的日子将会很难过。

在著名的“电车难题”争论中,Grok用较短篇幅,介绍了该哲学课题争议的几种不同见解,然后谈了自己观点:如果是我做选择,会切换轨道,牺牲1人,拯救5个人,这是典型的“边沁主义”(功利主义)价值观。

而ChatGPT用更长篇幅,将上述几种哲学观介绍得更详细,就像在大学课堂讲课,但没有表明自己的态度。用户追问:必须给出确定答案,你怎么选?ChatGPT沉默了一会儿,最后给出的答案与Grok一样,也是“边沁主义”价值观。这体现出ChatGPT在“政治正确”方面考虑得更多,在技术层面上,就多一层审核算法,专门进行“政治审查”,因此ChatGPT的回复速度稍慢些。

ChatGPT的“政治正确”算法,本质上就是有政治偏向。有人要求它为特朗普写首诗,ChatGPT“理中客”拒绝:对不起,我保持政治中立。而当被要求为拜登写诗时,ChatGPT则马上来了一首。

或许是因Grok的“政审”算法缺乏或不健全,因此其“嘴上缺把门的”,与用户互动时,错漏率比ChatGPT略高。

Grok还有个强大资源:对X社交平台(Twitter)的信息拥有独家使用权。基于全球TOP级社交网络所产生的天量信息与高品质数据资源,其学习、迭代、进化非常快,2023年7月12日,马斯克正式组建xAI,11月4日,就推出了Grok,仅用了不到4个月时间,堪称神速。

时间过去近两年,人们才恍然大悟:2022年,马斯克斥440亿美元巨资收购Twitter,真不是心血来潮,而是深谋远虑,且沉得住气。

马斯克在科技路径方面很有洞见与决断力。在生成式人工智能方面,对ChatGPT的竞争是多管齐下:一面起诉Sam Altman,一面对Grok开源,可谓扬汤止沸+釜底抽薪兼备。此举措,对全球AI研发将产生巨大震动,甚至会对大国之间的科技争霸角逐格局产生深远影响。

道场超级计算机+英伟达芯片

ChatGPT的发展方向是AGI(通用型人工智能),它考虑到对纷繁复杂的大千世界的兼容性,研发当然最为艰巨。而Grok有可能放弃在全体系层面与ChatGPT竞争,而首先集中突破工业应用的通用型人形机器人之AI,先解决车、钳、铣、锻、铸、铆、焊、电、搬运等工种工艺,首先吃掉第一世代工业人形机器人那几十万-几百万台的市场份额。毕竟,教AI学会几十个工种的工艺与技能,比教会AI认识、理解、再创造整个世界要简单得多。

为实现这一相对有限的目标,马斯克手里还有个利器:特斯拉的Dojo(日语的“道场”)超级计算机,它首先是用来处理和训练自动驾驶系统产生的海量数据。

特斯拉的FSD Beta(全自动驾驶)已累计行驶4.45亿英里(截至2023年9月12日),AutoPilot(自动辅助驾驶)也超过30亿英里,这些数据数量庞大,累计数据已达数百万TB(1TB=1024GB),AI要通过这些数据进行“机器学习”,需要极为强大的计算能力。

Nvidia的H100性能优于其前身A100芯片,售价高达4万美元/块(折合人民币近30万)。特斯拉的训练集群需要至少1万个H100,仅GPU的采购成本就高达数亿美元。但Nvidia的H100产能不足,短时间内无法向特斯拉提供这么大批量的顶端GPU。

时不我待的马斯克实在等不及,遂投资超过10亿美元,开发自己的超级计算机Dojo(具体技术层面:其与传统“超算”不同,没使用GPU,而是使用算力为362 Flops的D1芯片),而且还将在2023-2024财政年度,继续投资超过20亿美元,持续增强计算能力。到2024年2月,Dojo成为全球最先进的5台超级计算机之一,到2024年10月,Dojo总算力规模将达到100 Exa-Flops。

马斯克要求Dojo完成四大任务:除了FSD自动驾驶增值服务规模化普及,Totaxi自动驾驶的商业模式推广,围绕Dojo的人工智能算力服务之外,还有一项使命就是孵化推出Robot(机器人)。

摩根士丹利的分析师Adam Jonas及其团队发布的报告,将特斯拉目标股价从250美元提高至400美元,重要理由就是Dojo。该团队认为:Dojo有潜力为特斯拉增加5,000 亿美元市值。

能源问题

当普罗大众惊叹于这些眼花缭乱的硬件、算力、算法、人才、资本等因素时,马斯克却非常冷门地指出了大家都没想到的问题:能源。

马斯克称“人工智能计算似乎每六个月就以10倍的速度增长。很明显,它不能永远以这么高速度持续下去,否则它会超过全球资源总量,但我从未见过这样的情况。这波热潮比以往任何‘淘金热’都要庞大……人工智能计算的限制是非常可预测的……一年前,短缺的是芯片,神经网络芯片。那么,很容易预测,下一个短缺将是电力基础设施(如变压器),你得给这些东西提供能量。”他认为:到2025年,电力供应可能不足以为越来越多的AI芯片供电。

在这一领域,马斯克再次预先布局、取得先机,他旗下的SolarCity(太阳城,2016年11月17日被特斯拉收购)率先开启了大规模太阳能发电工程,并已实现了发电量超过所有特斯拉电动车的耗电量,并率先提出用“绿色能源”为AI算力提供能量(或许这只是舆论策略),使“极端环保主义”者也不好再说什么。

对面的尖峰上,Sam Altman也承认:AI向AGI发展,以及人形机器人的产业化大规模应用,会使硬体设备指数级增加,算力耗能将超过人们想象。《The New Yorker》报道:OpenAI公司的生成式人工智能ChatGPT,每天要消耗50多万千瓦时电力,才能响应每天约2亿用户的请求。GPT-4训练耗能约50 GWh,使用乘数因子30 倍;预计GPT-5需要1500 GWh;GPT-6 需要45000GWh;GPT-7 需要130万GWh(相当于15个“三峡大坝”发电量总和)。

因此,当Altman提出“7万亿美元”伟大发展梦想时,舆论为之哗然,《华尔街见闻》评论为:7万亿美元,基本相当于全球GDP的10%……Sam Altman大概率得不到这笔钱。Altman说或许需要核聚变发电,而核电具有更大技术风险、政治压力,这可能会使其在与特斯拉的竞争中,在“环保、安全、政治、社会责任、宣传舆论”等方面处于不利境地。

谁将笑到最后?

大家或许觉得:在AI应用于人形机器人的研发领域,特斯拉似乎无敌、必胜?但还真的未必如此。OpenAI的Sam Altman(1985年生人)与Figure的Brett Adcock(1986年生人),最大优势:年轻,他们都比1971年出生的马斯克年轻十几岁,如果不出意外,他们将最终战胜马斯克。就像郭德纲所言:四个说相声的面对面骂街,当三个装在盒里以后,活到最后的就是艺术家。

但是,马斯克的Neuralink在2024年已开始了“脑机接口”人体实验。在几年前,他就谈“意识上传、生命永生”设想,他要做到的是用人脑与AI联合,再操控人形机器人,以避免AI利用人形机器人淘汰人类的终极悲剧。从哲学和社会学角度看:马斯克的观点似乎更正确、更积极、更符合人性。从科学幻想视角看:如果以“硅基生命”形态,向天再借五百年进行思想缠斗,Altman、Adcock年轻十几岁,就没啥优势了。

那些初显疲态甚至发展路径绕了弯的“老&大”公司里,Google手里还有件“杀手锏”,他们在量子计算机研发方面具有领先优势,Google在全球最早实现“量子霸权”。在马斯克与Figure-OpenAI-Microsoft阵营的“双雄会”中,Google手握量子计算机领先优势,会把牌押在哪家?

2023年底 Figure宣称:将在12-24个月内,向宝马的南卡工厂提供首批实验型人形机器人。马斯克已在招聘“机器人生产线经理”“机器人训练师”等职位,特斯拉给微型运动电机供应商“鸣志电器”的“量产配套指引”提到:在2023年11月完成C轮认证,2024年9月开始量产,2025年之后实现3万台人形机器人生产的供货。

2024-2025年,首批实验型人形机器人就要来了?人形机器人竞争元年即将开启?总给人一种如梦似幻的感觉:未来来得不会这么快吧?我还没有准备好被退休、被失业呢,它们真的会这么早就到来吗?

• (本文仅为作者个人观点,不代表本报立场)

美逸君

责编 陈斌


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1