2024年3月7日至8日,由上海焉知信息技术有限公司主办的“焉知汽车电子与软件生态合作科技节”在上海丽昂豪生大酒店隆重举行。在主题为“数智融合,智驾未来”的主论坛上,我们开展了主题为《AI大模型+端到端,能否助力城市NOA摆脱激光雷达和高精地图的束缚?》的圆桌对话。
我们有幸邀请到了安霸半导体研发副总裁孙鲁毅、智行者联合创始人张放以及亿咖通自动驾驶算法工程师&算法工具链负责人汤易冰参与圆桌讨论。
在圆桌讨论环节,各位嘉宾畅所欲言,分别发表了自己看法与见解。以下内容是焉知汽车在不改变嘉宾原意的基础上,对核心内容进行了整理和提炼,以供业内人士参考。
01
对于城市NOA功能,需要面对和处理更复杂的交通环境和更多类型的道路参与者。因此,系统遇到的“长尾”场景也会大幅增多。在这种情况下,有人认为:解决城市NOA功能的安全性和用户体验,是保障其落地的关键。那么,现阶段实现城市NOA的规模化落地,还存在哪些问题需要解决?又该如何解决?
孙鲁毅:现阶段,城市NOA还处于探索阶段。因为城市道路结构相当复杂,在有些路况下,人驾车都觉得困难,更何况是自动驾驶系统。现阶段,我们还需要解决一些通用障碍物的检测与识别的问题,比如在施工道路工况下。那么,我们不仅需要有充足的算力和算法储备,并且,也需要支持摄像头、激光雷达以及4D毫米波雷达等多种异构传感器的融合。
张放:关于城市NOA的落地,我主要谈两个方面:第一个方面,是要解决城市NOA使用范围的问题。“有图”方案的城市NOA功能的使用范围主要限制是在高精地图;现在,“无图”方案通过在线生成拓扑关系,解决了城市NOA功能在使用范围上受限的问题。
第二个问题,我认为也是更重要的问题 —— 城市NOA用户体验的问题。我个人理解现在已经量产落地的城市NOA功能大都是处于“可用”的状态,并没有在达到“好用”的状态。比如,在相对复杂的城市工况场景下的体验还有待优化,再比如,我们有紧急的事情要处理,需要能够快速的达到目标地点。在这种情况下,城市NOA还给不到非常好的体验,可能大部分人还是会选择自己开车。也许,我们刚买车的时候,我们会抱着尝鲜的想法会试用城市NOA功能。但是,如果不能解决好“用户体验”的问题,那么,它就不可能成为用户高频次使用的功能。
汤易冰:我们的思路跟特斯拉类似,即基于数据驱动和数据闭环的方式,通过大量的数据“喂”出来一个智能化的模型,去解决长尾问题。
在城市道路非常复杂的情况下,传统的方式,比如地图+障碍物检测这样的框架,在很多情况下显得有些力不从心。现在,有占用栅格网络以后,相当于进行了一次革命。我们已经看到华为和小鹏等一些头部企业的“无图”方案在陆续量产落地,我们可以持续跟踪和关注这些方案在城市道路上的表现。
另外,我觉得很多城市NOA的解决方案,现在多模态融合的技术路径效果较好,但如何在低成本和低复杂度的限制下达到同等效果还有很多工作要做。
02
当前阶段,AI大模型和智驾的融合是大家共同探索的方向。比如,a. 城市NOA的落地对自动驾驶模型的泛化能力提出更高的要求,生成式AI有助于提高模型的泛化能力;b. 基于Transformer大模型去实现端到端的智能驾驶解决方案。相较于目前模块化的开发方式,感知、决策一体化的端到端的大模型可以避免级联误差,提升视觉信息表达,优化终端性能体验。
那么,除了上述两个示例,AI大模型还能够助力城市NOA克服哪些挑战?贵司目前在AI大模型上面做了哪些相关的工作,打算如何通过AI大模型给自己当前所做的业务赋能?
孙鲁毅:作为芯片公司,我们的工作主要是为大模型提供好基础的算力支撑,也就是说如何让芯片更好地去支持大模型的运行。今年的CES上,安霸展出新款N1系列SoC芯片,在上面能够流畅运行多模态大模型(LLM)- Llama-2(130亿参数的大模型)。
大模型在智能驾驶场景的应用,包括场景的理解、自然语言与场景结合的一些应用等。比如,交警做出一个指挥手势信号,这个手势代表什么意思呢?个别路口用液晶显示牌通过文字指挥车辆该怎么走:往前走,往左转等;总之,这些都需要系统对场景做出正确的“解读”。
我前面举的是场景理解的情况,场景理解可能还会拓展到道路规划。比如,用户打算去一个地方,但不是给出一个具体地理位置的点 ,而是一个笼统的位置—— 附近的商业中心,或者是附近风景比较好的景点,这就需要系统能够理解用户的意图,并且能够具化到跟用户需求比较匹配的地点,这是比较高级的匹配,而不是一个简单的搜索。
总之,大模型的应用方向非常多,但它的底层都是基于相似的架构,比如基于 Llama-2或者类似的架构。作为芯片公司,我们主要是从芯片和工具链等方面去支持通用的 Model,但具体到怎么应用大模型,还需要研发算法的这些同行去做具体的实施。
张放:现在,端到端和大模型这两个话题都比较火。我理解端到端和大模型是两个不同的概念。之前从感知定位到规划控制,分别都是由不同的模块来完成。如果每一个模块都是通过神经网络去做,这也是一个端到端的方案。
如果想实现更高阶的自动驾驶系统,比如城市NOA,并且要达到更好的性能体验,端到端并不是核心难点。如果通过从头到尾的小模型进行串联或者并联,或者说是不同小网络的叠加,其实最终并不能实现非常好的性能体验。问题的关键在于所使用的模型够不够大 —— 神经网络参数够不够多,网络层数够不够多,这才是核心。
另外,对于大模型在自动驾驶领域的应用,我主要谈以下两个方面:
第一个方面:大模型能不能直接应用到车上,然后去完成车端的整个自动驾驶任务的实现?这一点现在还不是很成熟。无论是从车端算力的支持,还是从整个大模型在通用人工智能和自动驾驶方面的一些能力来看,现在还不太能够支持整个大模型在车端的落地和量产。
另一个方面:如果大模型不能直接应用到车端,我们是否能提供一些间接的东西?其实,现在很多公司都已经开始基于大模型在做类似的事情,比如利用大模型去提升标注的效率 —— 通过自动化标注去节省人工以及整个数据的标注成本。并且,我非常看好大模型在合成数据方面的应用。现在,OEM量产一款新的车型,包括从数采到数据标注的整个过程,可能数据的成本至少是千万级别。然而,通过数据合成的方案,也许能够大规模缩减整个数据使用的成本,包括人工的成本等各方面。目前,我们自己,也包括我们的一些合作伙伴,也都在做这方面的探索。
汤易冰:自动驾驶系统原来是一个比较复杂的多模块任务,现在大家希望可以通过一个类似人工智能大脑的端到端系统 —— 输入传感器的原始数据直接输出自车控车的方案或者决策。
但是,目前大模型还很难在车端直接应用。现在,我们主要还是应用大模型的理解能力在云端去做一些事情,比如数据标注、数据挖掘等。当然,前面提到的数据合成,或者说场景重建也非常重要。只不过,现在基于大模型的场景重建可能还没有达到我们想要的效果。
03
城市NOA的技术发展路径也可以分为跨越式路线和渐进式路线。
从应用场景角度划分: 跨越式路线,可以理解成直接开发全场景的城市NOA功能;渐进式路线,可以理解成先从场景固定的通勤NOA开始,然后再不断地扩大应用场景,最后迭代升级到全场景城市NOA。
从使用高精地图的角度划分:跨越式路线,可以理解成直接开发“无图”的城市NOA功能;渐进式路线,可以理解成先开发依赖高精地图的城市NOA ,然后再开发“轻地图”的城市NOA,最后再开发纯“无图”的城市NOA。
您认为城市NOA的技术发展路径应该是怎样的?另外,OEM又应该如何根据自身的情况去选择适合自己的技术路线?
汤易冰:作为一家供应商,我们希望能够提供不同的方案去满足OEM不同车型平台的差异化需求。因此,我觉得渐进式的发展可能对我们来说更有意义。有的OEM可能需要一体化的方案,有的可能只需要一个基础的方案,如果我们都有相应算法和平台可以支持,那当然是最好的。
总的来说,如果要从大模型这个角度入手,似乎我们很难走渐进式的发展过程,但这也取决于我们怎么去运用大模型。我觉得还是从云端应用大模型开始,先把场景构建起来,这样便可以提高我们的研发效能,同时提高我们模型和软件的泛化能力,进而加快城市NOA的量产落地速度。
张放:我先从通勤NOA和城市NOA这两个功能之间的关系说起。我理解:通勤NOA是城市NOA的一种过渡状态,而且是非常短的一个过渡状态。通勤NOA就类似于在城市场景下面的“记忆泊车”的概念,只不过现在变成了“记忆行车”。
当系统感知能力不足的时候,“记忆行车”功能在第一次跑某个路段的时候,通常是没有办法正常使用。那么,就先由人驾驶跑一遍,把所经路段的landmark记下来,然后,下次再跑的时候,“记忆行车”功能就可以正常使用了。
对于城市NOA,目前已经有头部供应商给客户去Release全场景的“无图”方案。在这种情况下,如果其它供应商再去做类似中间状态的方案,我认为会稍微慢了一个节拍。
另一方面,从高精地图的角度去看,我认为高精地图还是能够给城市NOA提供较大帮助,比如,在一些复杂的路口 —— 不标准的十字路口(5岔或6岔口),并且路口比较空旷,如果现在车辆是处于路口中间,并且没有高精地图,系统只能基于在线的感知数据去进行决策,车辆行驶起来会比较犹豫,可能只有在“看清或看到”某些东西的时候才会去执行下一步动作。但是,如果有高精地图,并且能够跟在线的实时感知相匹配,那么,系统便可以提前做好预判,并及时作出适当的执行操作,驾驶体验才会更好。
孙鲁毅:我从另外不同的角度谈一下个人看法。不管是跨越式,还是渐进式,需要辩证的去看问题。如果想实现跨越,一定要在某个方面已经有所积累,并持续不断“积累”,直到“厚积薄发”。但“积累”也不一定是沿着当前市场最主流的方向。
举例子,特斯拉在2021年发布了BEV模型,但BEV网络模型并不是特斯拉发明的,只不过,特斯拉是第一个把BEV模型应用到自动驾驶领域的企业。所以,你可以认为是特斯拉在BEV的基础上渐进式的发展,最后实现了跨越。当前面的领军者已经跑得很快,如果其他人再亦步亦趋的去跟随,大概率是跟不上的。
但究竟是选择渐进式路线,还是跨越式路线,可能更多的是决策者的问题。同时,它也是一个非技术问题,更是一个综合的问题 —— 不仅仅要看市场上什么最先进,还要考虑本企业、本团队的能力值在哪里等多方面的因素。
如果现在图商能够提供很好用的“轻地图”方案,那么,智驾方案解决商或主机厂完全可以拿过来用,这其实就是一种“最小代价的选择”。但是,如果现在没有找到任何“最小代价的选择”,也不妨尝试其它路径,比如特斯拉选择的方法是通过寻找到在相关行业研发赛道上做得比较领先的一些人才,并邀请他们加入特斯拉,最后通过这些人才的跨领域创新,用在其它赛道上的方法解决了在自动驾驶赛道上遇到的问题。
刚才,我们谈到的大语言模型,大家都刚开始探索,现在并没有决出最终的“胜利者”。因此,不同的方向都值得去思考和探索。对于一个企业,如果按传统的方法没有取得自己的位置。那么,不妨去考虑一下,在新的赛道上,站在前人的肩膀上和新的发展方向上去找到自己的空间,因此,到底是选择渐进式,还是选择跨越式,企业最后还是要针对市场的需求和自己所具有的能力进行综合考量。
04
不少业内人士认为:激光雷达是为自动驾驶提供安全保障的终局方案的必备传感器。现阶段,对于城市NOA功能,到底要不要上激光雷达?更多的可能不是技术问题,而是商业考量的问题。言外之意:现阶段,出于商业层面的考虑,激光雷达也许还不会被大规模量产应用,但是未来要实现L3及以上等级的自动驾驶,或许又将是必备的安全冗余传感器。
在现阶段,基于纯视觉的感知方案是否能够实现真正“好用”的城市NOA功能?实现真正“好用”城区NOA功能,究竟需要怎样的传感器配置方案来支撑?若是必须上激光雷达,那么,激光雷达的存在又可以具体解决哪些场景下的问题?
汤易冰:相比纯视觉,带有激光雷达的方案可以弥补很多感知上的不足,尤其是远距离目标的检测,纯视觉方案目前还是不如带激光雷达的方案。
但是,使用激光雷达最大问题就是成本。虽然激光雷达的价格已经降到一个可以接受的程度,但价格战又让OEM利润变得更加微薄,因此,是否上激光雷达,我觉得确实不是一个从技术上可以拍板的事情。
从大模型或者算法发展的角度来说,现在的发展趋势是 —— 不同传感器之间的数据融合和多模态数据处理变得更加成熟,这将有助于多传感器方案成为更多企业的选择。
张放:我认为实现“好用”的城市NOA功能的瓶颈不在传感器,而在于系统是否有一个很聪明的“大脑”。
通过纯视觉方案能不能实现一个“好用”的城市NOA功能?我认为最终一定能实现。但目前的情况是“脑子”跟不上,那么,这种情况下,激光雷达有没有用?如果不考虑成本,单从技术角度来讲,现阶段,多一类异构传感器一定是好的,最起码多了从另外一个维度去感知外界环境。举个例子,在阴天或者夜晚,摄像头不太好用的时候,如果有激光雷达一定是能够提升安全性。
我认为现在这个阶段,激光雷达是好用的。从长远来看,如果只是要达到像人一样的驾驶水平,纯视觉方案也完全够用,但让它去实现超越人的驾驶水平,那就不一定能实现了。
孙鲁毅:首先,我讲一下我理解的现状:从目前主流的智驾芯片和领先车企的算法能力来看,如果把激光雷达彻底去掉,在城市的有些场景中确实还会存在问题。原因在于,目前我们数据训练集所支持的泛化指标的能力有限,同时也不可能采集到那么多数据。虽然有些企业也采集了很多数据,但是他们算法的准确度以及产品应用方法也受限。
所以,当有些头部车企选择通过使用激光雷达去解决上面所说的一些问题时,它正好符合我前面所说的“最小代价选择”的原则。但我并不觉得这是一个长期的趋势。
特斯拉选择纯视觉的方案,虽然不排除可能会考虑其他的传感器,但视觉肯定是最主要的传感器,包括Mobileye也是如此。自动驾驶最终到底要达到什么样的能力?其实并不是让自动驾驶系统跟人竞争,让系统在一个漆黑,又下雨的夜晚,在城区把车飙到120km/h 也不现实。在某些情况下,人都不能驾驶,也不要对机器寄予太高的期望,这是我个人的看法。
所以,到底上不上激光雷达,是要看当前算力、算法发展的成熟程度,也要结合数据采集以及泛化能力、可量产性,以及未来技术发展趋势等要素综合来考虑。
总体来讲,我对激光雷达的发展前景不是特别看好。因为激光雷达是一个相对复杂的元器件,并且属于主动器件。摄像头和人眼都属于被动器件,主动器件跟被动器件的一个很大的差别在于,主动器件的发射的光波会互相干扰,如果所有的车或大部分的车都装配激光雷达,在这种情况下,这些车辆之间相互的多重反射必然会造成一定程度的干扰,进而造成行车安全隐患。
另外,主动发射器件还存在功耗大和结构复杂等问题。在同样的技术条件下,一般来讲,复杂系统的成本会更高、可维护性更差、寿命更短。
从长期来看,我个人比较看好被动传感器。但是,在中短期来看,主动传感器里是否有可以挑战激光雷达的传感器?我认为4D毫米波雷达将来有可能会取代激光雷达。4D毫米波雷达的技术优势在于它比激光雷达有更高的反射率,探测距离更远;其次,在恶劣天气情况下,比如大雨或者大雾,4D毫米波雷达受到的影响更小。另外4D毫米波雷达还具有成本优势。
05
在“降本增效”的大环境下,要实现城市NOA功能的规模化量产应用,尽量摆脱对高精地图的依赖已经成为业界共识 。目前,业界有两种比较主流的做法:1)给高精地图“瘦身”,即在“精度”和“要素丰富度”上进行裁剪和简化,只保留对智能驾驶有用的图层和元素,最大程度上去解决高精地图更新慢、采集成本高等问题。2)直接不使用高精地图,使用感知传感器实时绘制的“矢量地图”。
如何看待这两种技术路线方案?未来这两种技术路线会长期共存么?
汤易冰:我认为这两种技术路线应该会长期共存,在可预见的未来,我甚至觉得高精地图还是会存在。因为高精地图可以去服务更高价位的车型,或者说更高端的产品,毕竟高精地图在城市场景还是能够发挥出它独特的优势。
高精地图在城市场景下的应用限制,主要是时效性的问题(鲜度),还有就是覆盖度的问题,这些问题目前也没有太好的解决办法。
对于“轻图”方案,我目前还没有看到太多比较成型的产品出来。这些“轻图”如果能把上面提到的高精地图存在的一些问题解决好,并且又能够满足城市NOA功能的使用需求,那么,我觉得“轻图”也将是一个可靠性的方案。
对于“无图”的方案,从我们做算法的角度来讲,我们非常有信心,可以基于现有的视觉传感器,或者再加上毫米波雷达、激光雷达等传感器的实时感知数据,通过算法也可以做到像“轻图”一样的建图效果。所以,从长期来看,我觉的这两种方案会共存。
张放:有一些企业在发布全场景“无图”方案的时候,并没有明确到底后面有没有高精地图去支持更新,虽然它可能不是高精地图,但还是可能需要“轻地图”去更新,所以现在并不好下定论。但从长远来看,我个人认为应该走“无图”的方案。
其实跟人开车一样,人类驾驶员通过电子导航地图知道哪里该左转,哪里该右转这些基础的信息即可。其它大部分情况,都是靠驾驶员自己在线去“感知”和“理解”外界情况。如果把时间线拉得足够长,自动驾驶系统肯定也是能够达到这个能力水平。只是在现阶段,“轻地图”是一个很好的补充传感器,因为他能够帮助自动驾驶系统去做超视距的感知。
孙鲁毅:我个人认为,这个趋势大概率是朝着“轻图”的方向去发展。所谓的“轻图”并不是找别人买来的那种地图,而是要靠自己的车队去动态生成。实在没有车队,自车多跑几遍,形成自用的“记忆地图”。这种方式生成的地图,才更加接近于人的驾驶体验。比如,我开车在上海徐家汇某个地方兜几圈,系统就会自动绘制出这块路线的“地图”,不仅知道道路大致的拓扑结构,还会知道哪个地方大概是在修路,这些就是所谓的“先验知识”。先验知识怎么得来?先验知识往往需要通过大家共同的“积累”,就是所谓“众包”或者“众源”的模式,大家共同分享和使用数据。
因此,如果图商能够帮助主机厂做上面所说的一些事情,跟图商合作肯定是有价值的。但是,如果觉得图商的做的东西不能达到主机厂的期待值,也不妨自己去做。我觉得特斯拉大概就是做了自建图,只是他建图的完善度不需要达到高精度地图的标准而已。就像之前Mobileye做的REM地图,它采集地图只是提取了一些核心的语义信息,我认为这种语义地图和规则地图,就是能够告诉自动驾驶系统:什么地方不能左转/右转,什么地方不能超速,什么地方有学校必须得减速等。但如果没有这样的地图,就不能提前获取到这些信息,驾车时遇到场景中的遮挡,就会影响到用户体验。
06
城市NOA最终的竞争的焦点是:成本和用户体验。这点基本上在业内已经达成共识,但最终的发展方向上还存在不同的看法:随着城市NOA功能越来越成熟(越来越好用),它最终会变成一项标准化的功能,还是会变成一项个性化和定制化属性越来越强的功能?您如何看此问题?
汤易冰:城市NOA现在的问题在于很难完全覆盖所有的场景和所有的地域。因为在一些复杂的工况下,还是存在一些 corner case需要去做非常特殊的工程去解决。因此,当城市NOA作为一个产品推出的时候,可能需要去做定制化的考量。
但是站在用户体验的角度,要做一个通用的、标准化的城市NOA功能,相对来讲又是一个比较困难的课题。但从长期来看,城市NOA最后将会是一个比较统一的功能,只是对于不同地域或者不同需求的用户可能需要一些相对应的局部调整。
张放:我理解所谓的定制化,应该就是千人千面。对于智能座舱,因为内容上的关系,需要实现千人千面。但是对于自动驾驶功能,我认为不需要实现千人千面。因为自动驾驶一旦成熟,就相当于我请了一个“AI司机”。如果我有一个司机,我不会要求司机的驾驶风格跟我一样,我只要求能开得平稳,能够安全的把我从a点送到b点就行。
城市NOA要做差异化的原因,其实更多的是站在卖车的角度。但那是因为我们还没有实现真正的通用人工智能,还没有实现真正的“无人驾驶”。一旦实现了L3及以上高级别的自动驾驶,对于用户而言,也许他们更需要买的并不是一辆车,而是一项通勤服务。
从长远来看,一旦实现了真正的“AI代驾”,对于我们大多数人而言,是不需要买车的,只是需要按需购买相应的出行服务就好。对于出行服务,即便存在定制化,更多的是根据乘员或者载物的多少
定制不同大小的车,但是对于自动驾驶这个功能,我认为还是应该标准化。
孙鲁毅:关于这个问题,我先抛出观点:需要定制化。首先,从商业化的角度来讲,它就需要做定制化。为什么呢?比如说,主机厂打算开发一款定价在30万左右的车型,自然要去考察这个价位消费人群的“喜好”。同样是豪华车,比如奔驰、宝马、奥迪,他们的目标客户群体就不太一样 —— 宝马目标客户偏向于喜欢操控感和运动感,奔驰目标客户更关注内饰的豪华感和乘坐的舒适性。
对于城市NOA这个功能,也是如此。站在车企的角度来讲,他们就需要去研究目标消费者的行为习惯。所以,有的车企会主打单激光雷达配置,有的主打双激光雷达配置,双激光雷配置达到底有多大用,我不知道。但是,如果说他的目标客户群体就是觉得双激光雷达好,那就叫“正中下怀”。
其次,从纯技术上来讲,因为驾驶习惯有很多种,用户希望系统能学习自己驾驶习惯,或者说至少有多种驾驶风格可以供自己去挑选。驾驶风格多,就势必会对传感器的配置产生影响,比如,有的人习惯加塞,跟车距离比较近,要求车辆能够刹停快,启动迅猛。那么,它对于角雷达的需求可能就比较大。
另外,未来的智能汽车不仅仅是车,也是一个智能移动的空间,这就必然会打上个人色彩的标记。所以我的看法是:城市NOA需要做差异化,因为这里面的“差异化”往往也是这家企业的价值所在。