最近,小马智行CTO楼天城在接受《36氪汽车》采访时表达了一些非常反共识的观点。主要有3个,我们提取如下:
第一点就是:世界模型是目前最佳最重要的东西,没有之一,我们将其理解为通往自动驾驶的唯一解。
他认为,世界模型大概可以理解成一个人类模拟出来的“老司机”,对L2系统而言,它的驾驶能力等同老司机;对L4系统而言,它的驾驶水平远高于人类司机,由他来训练智驾系统,结果肯定也好于人类司机。
简单点说就是认为创造一个“老师傅”(世界模型)出来供系统学习,“老师傅”的能力上限就是智驾系统的上限。因为L2和L4对智驾系统的要求不同,世界模型的上限能力也就不同。
今年以来,大家可能对端到端都已经听得耳朵起茧子了,但是世界模型了解得并不多。事实上,理想,蔚来,地平线等公司今年都对世界模型有过阐述。
地平线官方对世界模型的优势描述里有这样一段描述:一是通过生成式大模型生成带有预测性质的视频数据,实现corner case多样化训练;二是采用强化学习的方法认识复杂驾驶环境,从视频输出驾驶决策。
但这又延伸出了一个更有意思的话题,如果世界模型是提高智驾水平最重要的事,那世界模型的好坏如何评估,能力上限又该如何提升。
楼天城没有给出明确答案,只是说世界模型和端到端之间可以相互影响和评价。
基于此,楼天成提出了一个更加颠覆性的观点,他认为过量的数据并不能实现自动驾驶,反而会成为自动驾驶的负担。
此前,外界已经被马斯克的观点逐渐统一了共识,通过L2的数据积累,最终实现L4,甚至马斯克还提出了数据超过60亿英里时,会说服监管部门放开对自动驾驶的限制,在已经积累了10亿英里数据的前提下,马斯克宣布在今年8月8日推出Robotaxi(目前已经改为10月10日)。
楼天城并不这么认为,他的原话如下:“行业现在对数据的盲目依赖,是没有意识到靠数据其实没法越过这条线(人类司机的线)。当真正接近这条线时,会意识到其实越不过去。最顶尖的人其实都知道,比如Waymo就从来没有说过要纯依靠数据。”
事实上,仅在近期来看,轻舟智航CTO侯聪也都表达了类似观点,不能完全依赖数据来实现L4。
楼天城的核心逻辑很简单,L2是辅助驾驶,他学习人,最终成为“人”(和人类司机驾驶水平一样)就可以。所以用大量的人类数据,最终训练出一个类人的驾驶系统这条通路能实现。
但L4级对驾驶的要求高于人,要好于正常人类认知的10倍,用人类司机的数据去训练它相当于提前给他设置了一个上限,因为人的驾驶水平有上限,所以训练出来的结果也有上限。
楼天成还表示,“当自动驾驶超越人类时,数据就变成干扰项,并不是越多越好”。
比如在事故发生瞬间,人类司机会采取惯性反应,如果系统学习人类,他碰到类似问题时也会出现相同的反应,但是人类司机对这种场景的处理未必正确。就容易对系统造成干扰。
楼天城说马斯克也表达过类似观点 “之前马斯克提到,平路空白路上的数据是没用的。因为大语言模型迭代,它的梯度会很快下降为0,没办法收敛,这是技术原因。但本质是当你超越,你会发现这些数据会出现反面效果。当你从1000走到10000,数据达到一定数字,帮你做一些事是可以的,再多就是负面向,会把你拉回来。”
普通消费者对端到端的认知要追溯到2023年四季度,特斯拉推送了基于端到端架构的FSD v12系统,丝滑的体验瞬间引发了国内车企效仿。
小米联合创始人林斌,小鹏汽车创始人何小鹏都先后去美国体验了特斯拉基于端到端的FSD系统,并且都给出了非常高的评价。
今年初,各大企业开始加入端到端的舆论战。4月的中国电动汽车百人会上,元戎启行CEO周光表示,端到端将给自动驾驶带来根本性改变;随后,华为智能汽车解决方案发布会上,华为智能汽车解决方案BU CEO靳玉志也公布了其端到端方案;5月20日,小鹏汽车推送了基于端到端的智驾系统。尤其是此前在智驾上落后的理想更像是抓住了一个弯道超车的绝佳机会,疯狂宣传端到端系统。地平线,轻舟智航,卓驭科技,商汤绝影,Nullmax等企业也都在今年公布了端到端智驾方案。
《圆周智行》粗略统计,目前包括主机厂和自动驾驶公司在内的企业中,已经有至少20+企业发布了端到端方案。
然而,就在端到端被神话了半年之后,终于在下半年迎来了不一样的声音。楼天城表示,今天的高阶智能驾驶,即便采用了端到端技术,上限也只能做到L2.99,难以抵达L4。
事实上,早在楼天城之前,前图森未来创始人侯晓迪就已经说过端到端的弊端,呼吁行业理性看待,不要神话端到端。如今楼教主再次声援侯晓迪。
“端到端或者大语言模型的本质,只是拟合现有数据,并没有给出某些智能逻辑。所以模型的能力会被数据的表现所限制。”楼天成认为端到端属于大语音模型,它的能力会被数据限制,输入的数据好,系统学习出来的效果就好,输入的数据差,系统训练出来的结果也差。
对智驾行业来说,端到端有几个明显的好处:降低信息损失,系统延迟等,并且端到端采用了更少的代码量,帮车企省了大量的人工成本,不用疲于奔命去设计各种场景的规则。此前基于CNN(卷积神经网络)的学习方式,主要基于规则堆砌,场景有细微的变化就会出错,只能像打地鼠一样不断去手写规则覆盖,即存在能力无法泛化、没有理解力等问题。
随着何小鹏等大佬发声,行业里对端到端有似乎神话的感觉,认为端到端无所不能。事实上,喧闹之外,行业还需要对端到端有一些基本常识的认知。
楼天城认为,端到端并不是一个特别大的模型,比如理想汽车的端到端方案其实在一个orin-x上就能跑通,其中还牵扯到大量的rule-based。
端到端也并非万能,其自身的“黑盒”特性决定了无法简单通过明确的、可解释的规则约束系统的安全边界,存在安全性挑战;另一方面,端到端无法复现复杂的、偶发的corner case,考验可解释性和泛用性能力,把上限提高的同时拉低了下限,即所谓的“跷跷板效应”。所以在端到端之外,几乎所有车企都会采取规则兜底的方式,甚至Nullmax等企业还用了鱼脑这种双重兜底的方案。
最重要的是,目前很多人认为,端到端就是一个自学习的神经网络,只要喂入足够多的数据就能无限提高上限。按照楼天城的说法,端到端只是拟合了现有数据,并不能凭空“想象”一些智能逻辑。所以在L2阶段,端到端的上限最多是像“人”,想要达到L4的要求,需要更好的“师傅”来“教”。
元芳,你怎么看?
本文来自微信公众号“圆周智行”,作者:圆周智行,36氪经授权发布。