8月30日,科大讯飞星火极速超拟人交互技术正式上线讯飞星火App,率先面向全民开放体验。据了解,这是国内首个对标GPT-4o语音的大模型产品,用户可在讯飞星火App中直接体验使用。根据官方介绍,星火极速超拟人交互在响应和打断速度、情绪感知情感共鸣、语音可控表达、人设扮演四个方面实现重大突破,让整体交互体验更自然、更具情感。
上线当天,科大讯飞研究院常务副院长高建清针对星火极速超拟人交互技术及应用展开进一步解读,不仅剖析了星火超拟人交互的“端到端”“共情力”等核心技术亮点,还为公众勾勒出技术产业化的愿景图。
业界首个“端到端”的极速交互体验
笔者第一时间抢先体验星火极速超拟人交互,最直观的感受就是响应速度极快,支持随时打断,可以识别不同的情绪并代入符合情境的对话和回复,丝毫没有“机械感”与“磕巴感”,真的就像平时跟朋友或家人对话那样随和自然。其中,极速响应是确保一切体验的基础,也是区别于其他语音产品的关键能力。
据悉,“端到端”技术框架是实现极速响应的重点。目前在全世界范围内,框架模型算法持续演进。国外以GPT-4o、特斯拉FSD等为代表的多模态端到端方案,已被证实可进一步提升技术效果和用户体验。科大讯飞极速超拟人交互作为业界首个端到端极速超拟人交互,通过将此前级联方案升级为统一神经网络,直接实现语音到语音的“端到端”建模,大幅缩短响应时间,做到了真正的极速。
而人类语言被称为世界上最动听的语言,是因为具有独特的情绪感染力,能够传达复杂的情感和思想,实现文明的传承和进化。但一直以来,智能语音与自然语言处理技术主要针对“内容”模块下功夫,比如能“听懂”更多的语种,“解答”更多的问题。但想要获得拟人化的对话体验,还需要“内容”与“情绪”等模块的协同作用。
大模型时代的到来,恰好能让不同的模块化功能进行“大统一”。高建清表示:“以往语音交互系统都是不同的模块,比如语音识别、语音合成和大语言模型。而科大讯飞星火极速超拟人交互技术基于端到端大模型框架,并结合讯飞多维度语音属性解耦表征训练模块,实现情感、方言、韵律、音色等的可控,实现了对语音交互的拟人化升级。”
大模型开始“情感共鸣”
星火极速超拟人技术还将星火大模型的“共情力”带到了新的高度,在这次单交互系统上线之前,业界的交互系统大多没有情感,均以中性情绪回复,或者个别系统有这种情感,但大多停留在文本层面,而星火极速超拟人技术可以实现情感共鸣,当人机对话时,机器可以理解你的声音内容,包含情绪表达。高建清认为,虽然目前系统暂时不能使用表情,但未来如果将表情、声音内容与声音情绪三者结合在一起,将会是一条可行的新路径。
星火极速超拟人语音的情绪感知能力,能够感知到数十种音频事件与情绪,比如喜怒哀乐、害怕、困惑等,AI会以“感同身受”的方式进行语言组织和情绪表达。而情感共鸣会结合声音和内容等不同维度,在合适的情境下采用合适的情感进行回应,比如用户开心的时候用笑声呼应心情,用户悲伤的时候用安慰语气进行安抚,让AI变得有血有肉有温度。
共情力对于大模型是一项重要的基础能力,或许在未来的人形机器人身上,我们将看到共情力的具象表达。比如你一进门,机器人就向你笑脸相迎地问候道,就像1999年科幻电影《机器管家》里面的人形机器人安德鲁,让人机之间也有情感纽带。当然畅想这些还为时尚早,现阶段的星火极速超拟人交互更有另一部电影《Her》的既视感,TA可以用笑声回应开心,用急促回应愤怒,更自然,更逼真,更还原真人对话的语境。
至于快速打断功能,这也是真人对话中经常出现的状况。比如你入住酒店问前台客服,如果对方答非所问肯定当即打断;同理,没耐心听AI讲一大堆话,或者回答跑偏,立即打断是人的生理本能。“这是个极其复杂的工程问题,需要去判定何时打断、何时不应打断,我们通过技术创新与强化底座认知能力,解决了打断和响应时间平衡的问题。”高建清说道。
谋局未来 挖掘产业应用价值洼地
针对星火极速超拟人交互的未来发展,高建清表示,星火极速超拟人交互的未来计划是“三个更多”,即融入更多模态,具备图片视频模态输入与超拟人虚拟人输入;融入更多语言,增加更多语言、方言的语音交互能力和翻译能力;以及持续拓展情感、人设种类,继而实现诸如口技、唱歌等更多能力与更好体验。
根据中金企信国际咨询测算的数据,我国对话式人机交互核心产品的市场规模将在2025年达到237亿元,直接带动相关产业规模达到1525亿元。同时语音语言技术与大模型结合将赋能更加广阔的应用场景,下游领域包括家电、汽车、消费电子、金融、物流、房产、政务、医疗等,预计智能语音语言技术在垂直行业应用的核心产品规模将在2025年达到159.1亿元,带动相关产业规模达到875.1亿元。
据高建清介绍,星火极速超拟人语音交互在商用领域大致分为三个层级。第一层是闲聊陪伴场景,将在儿童玩具、情感陪伴等品类上增强情感表达能力。第二层是机器人场景,结合多模态能力会加强产品竞争。第三层是智能汽车、智能家电等场景,让车机聊天更具情感,有助于提升车企智能化水平,包括奇瑞汽车、中国一汽、大众汽车等车企都是讯飞星火的合作伙伴。
无论是从技术迭代角度,还是从用户体验角度,星火极速超拟人交互的创新,正让语音交互从“能用”“好用”走向“常用”的新阶段。以讯飞星火为代表的大模型创新,或将重塑语音交互领域,推动语音产业新变革,带来诸如汽车、机器人、家电等更广阔的应用空间,推动万物互联时代的加速到来。
上游新闻 张皓