10月25日,智谱宣布推出大模型家族新成员——GLM-4-Voice 端到端情感语音模型。
GLM-4-Voice 能够理解情感,有情绪表达、情感共鸣,可自助调节语速,支持多语言和方言,并且延时更低、可随时打断。
GLM-4-Voice 具备以下特点:
· 情感表达和情感共鸣:声音有不同的情感和细腻的变化,如高兴、悲伤、生气、害怕等。
· 调节语速:在同一轮对话中,可以要求 TA 快点说 or 慢点说。
· 随时打断,灵活输入指令:根据实时的用户指令,调整语音输出的内容和风格,支持更灵活的对话互动。
· 多语言、多方言支持:目前 GLM-4-Voice 支持中英文语音以及中国各地方言,尤其擅长粤语、重庆话、北京话等。
· 结合视频通话,能看也能说:即将上线视频通话功能,打造真正能看又能说的AI助理。
作为端到端的语音模型,GLM-4-Voice 避免了传统的 “语音转文字再转语音” 级联方案过程中带来的信息损失和误差积累,也拥有理论上更高的建模上限。
GLM-4-Voice 已经在清言 App上部署,消费者可以通过App 体验。
GLM-4-Voice 模型之后将与清言的视频通话能力合体,据了解,今年8月份,智谱宣布上线基座大模型 GLM-4-Plus,同时清言App 推出视频通话功能,用户拨打清言的视频通话窗口,即可与它进行流畅通话,即便频繁打断它也能迅速反应。只要打开摄像头,我们看到的画面,清言也可以看到,同时可以听懂指令并准确执行。
GLM-4-Voice 发布即开源。
代码仓库:
https://github.com/THUDM/GLM-4-Voice
智谱表示,GLM-4-Voice 在 GLM-4-9B 的基座模型基础之上,经过了数百万小时音频和数千亿 token 的音频文本交错数据预训练,拥有很强的音频理解和建模能力。为了支持高质量的语音对话,智谱设计了一套流式思考架构:输入用户语音,GLM-4-Voice 可以流式交替输出文本和语音两个模态的内容,其中语音模态以文本作为参照保证回复内容的高质量,并根据用户的语音指令变化做出相应的声音变化,在保证智商的情况下仍然具有端到端建模 Speech2Speech 的能力,同时保证低延迟性(最低只需要输出 20 个 token 便可以合成语音)。