语音交互是智能座舱的重要组成部分,也是我们驾车过程中分心最少,最为安全的一种交互方式。一个好的语音交互可以大幅提升驾驶体验。
那么一个好的语音交互功能应该达到怎样的水准?长城Coffee OS 2想要成为新的标杆。
目前语音交互已经发展到了相当高的程度,多命令执行、多音区识别、可见即可说屡见不鲜。Coffee OS 2想做标杆自然得拿出真本事,它做到了4大行业最优。
1、瞬间响应
Coffee OS 2的语音唤醒速度250ms,行业第一梯队平均为300-350毫秒;
指令响应速度达到毫秒级,行业第一梯队平均为1-1.5秒。
2、多领域多意图指令执行
“打开车窗、打开空调、温度20度、风量二挡、吹面、关闭音乐、导航最近的加油站再回家......“,Coffee OS 2支持一句话内包含10个指令识别与执行。
而且这一句话中的指令可以跨领域。我们知道,目前车辆的电子电器架构处于域控制阶段,一般划分为动力域、车身域、智驾域、底盘域、座舱域,每个域都有独立的一套域控制器进行控制。
而Coffee OS 2的语音交互功能打通了域之间的壁垒。比如“关闭车窗、驾驶模式切换至运动,打开音乐“,这样一个进入开快车模式常用的指令,就横跨了动力、车身和座舱域,寻常的语音辅助往往需要三次唤醒,三轮对话才能完成。
Coffee OS 2可以一句话搞定,而无需间歇等待,让语音功能操作变得便捷而高效,使用的畅快感自然提高了。
3、后排干扰抑制
多音区识别很多都能够做到,但多音区声源定位,干扰分离仍然是语音识别的难点,Coffee OS 2ID做到分离主副驾及后排音频,拒识无效输入,后排闲聊不影响前排语音交互。
4、超强上下文关联及泛化理解能力
“播放李健的传奇?“,”换成他的风吹麦浪“;”周杰伦是谁?“,”放一首他的歌吧“。这种对话在我们的日常交流中再寻常不过,但对于机器,后一个指令中的他指的是谁?就考验了它的记性,即使是文心一言或者ChatGPT这种AI面对这种涉及上下文关联的难题时,都撑不过几轮。
可智能语音系统的目标就是发展的和日常对话别无二致,Coffee OS 2强大的上下文关联与模糊指代理解能力向这一目标迈出了一大步。
除了这四大行业最优之外,Coffee OS 2还具有多种优质语音交互系统特性。比如
免唤醒:
支持导航在内的多个全局免唤醒指令
可见即可说:
不仅仅是车控、系统设置,长城还对一些第三方应用做了深度开发。
无需唤醒,直接说出界面中显示的内容,就可以实现语音控制,甚至语音无需全部一一对应,Coffee OS 2可以做到泛化理解。
全双工多轮对话:
一次唤醒后30s内无需再次唤醒可进行连续对话,告别话痨繁琐;
可自主选择15s、20s、30s延时聆听。
在此基础上,用户还可以和车机开启闲聊模式,通过海量的语料库和共感、生成模型,车机不仅仅可以回答用户的问题,还可以主动抛出新问题,确保“对话“,内容更加丰富、自然,接近真人的交流体验。
除了语音交互功能之外,Coffee OS 2还支持触控交互、手势交互、头姿交互(点头要求进行确认、取消、退出等意图,无需说话)等多种交互模式,为用户带来更便捷、更自然的交互体验。
车载语音交互功能并不是Coffee OS 2的 全部,他是长城汽车基于V3.5平台打造的新一代全自研智能座舱系统,它是车辆硬件与用户之间桥梁。Coffee OS 2以“1个自研中间件”为设计思维,立足“2个自研统一接口”,实现“N种硬件配置+应用服务生态“。全方位满足用户出行体验需求,带动主动交互式人车关系升级。
长城通过一场公开课,把Coffee OS 2领先的语音交互能力直观地展现在用户眼前。智能语音系统是一个相当强感知的功能,窥一斑而知全豹,长城也是在向公众发声,谁说只有新势力才能做好智能座舱,我也能做标杆。
本文作者为踢车帮 Route 64