8月19日,科大讯飞股份有限公司(科大讯飞,002230)发布星火语音大模型更新,推出对标GPT-4o的语音功能产品——星火极速超拟人交互。
星火极速超拟人可实现随时打断、插话后实时回复,感知情绪变化,改变方言、情感和强度,还可以模仿不同角色进行交流。
科大讯飞表示,此次星火极速超拟人交互采用统一神经网络直接实现语音到语音端到端建模,对比传统的语音转文字、大模型生成回复文本、语音合成而言,大幅缩短了响应时间,交互拟人度和流畅度得到提升。同时,结合多维度的语音属性解耦表征训练准则,将内容、音色、情感、语言、风格都信息进行解耦训练,使得该产品能更灵活控制各类元素,还能根据需求便捷定制,快速落地应用。
据悉,星火极速超拟人交互8月底将向全民开放使用。今年5月OpenAI发布了GPT-4o,展示了堪比电影《Her》中的人机交互体验,但目前仍只向一小部分测试参与者开放了部分语音功能。(澎湃新闻记者 秦盛)