继「拼PPT指标」之后,大模型上车正尝试进入初步落地周期。
事实上,目前所说的大模型上车,多指大模型部署在云端,助力车端的部分功能升阶/实现,其中以座舱交互、高阶智驾的感知算法为典型,这给部分存量赛道带来变革的可能性,同时带来增量赛道。
座舱交互(语音、视觉)由于用户感知度高、落地相对容易,成为大模型导入的第一切入点。
比如,2024年1月的CES上,梅赛德斯-奔驰发布MBUX虚拟助理,基于大语言模型开发,包括CLA级概念车(即下一代CLA)在内的MMA平台4款新车将搭载。宝马发布了全新一代BMW智能个人助理,基于亚马逊Alexa 大语言模型打造。
大众则展示首批整合ChatGPT和IDA语音助手的车型,从2024年第二季度起,其将成为首个在量产车型中标配ChatGPT的汽车品牌,驾驶员可通过语音与ChatGPT互动。
这,正让座舱交互赛道「焕发新生」。
作为存量升级赛道,根据高工智能汽车研究院监测数据,2023年中国乘用车(不含进出口)前装语音交互渗透率已经超过80%,传统语音交互进入成熟期,用户体验缺乏实质性提升,营收天花板效应凸显,单车价值量下行。
「从业内人士的角度,大模型对座舱交互是大变革」,云知声车载业务负责人在沟通中称。
对于通用大模型基座的能力,和基于底座在具体应用微调的能力,两者对于体验的影响占比,行业内认知差异颇大,有的认为基座能力已经足够强,能做到90%-95%乃至更高。
但,云知声有自己基于行业理解的判断和逻辑,「要想把这个事情做好,如果我们从结果来倒推的话,它真正的核心其实在于微调的工程化过程,通用大模型基座对体验的影响占比,我个人的判断是30%~40%,微调占60-70%。」
「类似打开车窗等这样的指令,在一个车里大概有500-700个,它其实就是一个意图,我们都会去跟车厂去做一对一的需求理解,只有足够的理解了他的需求之后,才能够去做数据工程的准备,才能够去做数据工程的微调训练。」
通过这样的微调工程化过程,最终能够产生在车端比较良好的意图理解的表现,「这个是很多公司现在不愿意做的事情,他们会认为这是一个dirty work,但是这恰恰是做好车载方案无法忽视的一个步骤」。
2023年5月,云知声发布山海大模型,从基础层(数据、算法、算力)、技术层(通用大模型、行业大模型)、应用层构筑自身全栈能力。其中,车载领域为公司重点发力的应用方向之一。
一直以来作为车载语音交互巨头,赛轮思亦在频频发力。
2024年3月,备受AI行业瞩目的英伟达GTC大会上,赛轮思CTO出席演讲,分享了利用生成式AI和LLM重构车载用户体验。3月21日,赛轮思宣布全球三大汽车制造商将成为首批客户,率先采用由赛轮思提供NVIDIA技术驱动的解决方案。
更早一些时间,2023年12月,赛轮思发布具有开创性的汽车级大型语言模型CaLLM™,核心优势为依赖公司在车载智能助手广泛部署以及在车载人机交互领域深入的经验,打造的可深度定制的跨语言跨平台的端云一体的车载智能助手解决方案。
「我们不能简单说,通用模型对语音交互体验的影响占多少,微调占多少,最终还是要看落地应用,根据做出来的产品效果做判断」,赛轮思产品工程VP吴边在沟通中认为。
「我们还是秉持这样一个原则,就是看实际的产品表现,语音数据方面我们公司是有优势的,这包括全球的数据,怎么能够微调一个模型满足各个区域的需求,数据配比也可以灵活调整的。」
根据介绍,赛轮思拥有经过微调的、包含数十亿个token且不断增长的汽车数据集。
「定制化微调能力做好了以后,其实可以灵活的去切换基座模型,速度很快,我们其实现在就做到了。」
百度横跨AI和技术应用两大赛道,落地节奏具有一定代表性。
「只有以AI来驱动,才算是真正的智能车」,2024年3月的极越AI DAY上,极越发布OTA V1.4.0新版软件,亮相自动驾驶、LD地图、人机交互领域三项能力。
高阶智驾方面,百度Apollo自动驾驶视觉大模型VTA(Vision Takes All)正式发布,打造行业第一的智驾数据生产线,推动端到端自动驾驶技术发展。
座舱交互方面,据介绍,极越汽车立项之初,即
提出智能座舱全域全端侧理念,以打造真人交流速度体验,将业内的3s延迟压缩至用户不感觉到卡顿的0.5s。
并且,其视频语音融合的多模态交互方案即将上车
,同时通过多合一端侧模型进一步提升语音识别准确率。
技术之外,商业模式的构筑至关重要。
事实上,伴随智能化成为车企差异化竞争重点,头部造车新势力深度介入智能化上层软件开发,以实现对产品的深度自定义和差异化。
例如,2023年10月,小鹏汽车宣布将自研的XGPT灵犀大模型接入语音系统,使小P的能力进一步提升。2023年下半年,蔚来汽车亦表示NOMI 已经接入了高达千亿Token的自研 GPT 模型,将增加NOMI 的理解和推理能力。
但,车企是否需要介入自研座舱交互的行业大模型,多名产业人士在沟通持保留态度,认为更可能的分工方式为,车企调用第三方的大模型能力。
举例来看,云知声目前提供4种合作模式,从浅至深分别为:其一,云知声提供提供山海大模型、SSP、KWS等AI原子化能力;其二,提供云平台能力,接入客户云平台,端侧由客户提供;其三,提供SDK+云云平台,客户开发座舱应用端;其四,提供Turnkey 方案。
针对车载领域,云知声提供两种全链路Turnkey车载解决方案:车载语音OS、山海(大模型)车载OS。另外,作为核心原厂语音技术提供商,云知声深度联结诸多车企客户,包括奔驰、吉利、荣威、江铃、宇通等。
单一的交互升级之外,多模交互已箭在弦上。
一方面,
根据高工智能汽车研究院监测数据,2023年中国乘用车(不含进出口)前装DMS搭载量为231.13万辆,同比增长77.12%,渗透率为10.94%,正处于进入快速增长期的拐点。
而同时配置“语音+视觉”车型,为率先升级多模交互提供基础。
另一方面,行业内已经形成共识,深度学习未来必然从单一语音/视觉等交互,进入深度融合的多模交互阶段。「商汤等舱内视觉交互的玩家,与语音交互的玩家,未来必然成为友商」,多名业内人士在沟通中称。
部分车企端已经开始布局造势。2023年12月,理想汽车在智能软件发布会上推出OTA 5.0,引入自研的多模态认知大模型Mind GPT。更早一些时间,2023年1月,理想汽车在发布的全员信中称,希望「在2030年成为全球人工智能行业的领导者」。
在底层算力端,一批玩家正在提前布局
,其中既包括英伟达、AMD,也包括国内芯砺智能、原粒半导体等以chiplet技术切入的公司。在后摩尔时代,要实现端侧大算力平台的更低成本落地,以支撑大模型在车端的部署,chiplet技术被认为最优解之一。
一旦thor等进入实质性上车阶段,车端算力的掣肘逐步降低,大模型从云端部署转向「端侧+云测」部署,产业链内的竞合态势将进一步变化。