清言上线情感语音模型GLM-4-Voice

作者：数据杂志发布时间：2024-12-17

10月25日，智谱宣布推出大模型家族新成员——GLM-4-Voice 端到端情感语音模型。

GLM-4-Voice 能够理解情感，有情绪表达、情感共鸣，可自助调节语速，支持多语言和方言，并且延时更低、可随时打断。

GLM-4-Voice 具备以下特点：

· 情感表达和情感共鸣：声音有不同的情感和细腻的变化，如高兴、悲伤、生气、害怕等。

· 调节语速：在同一轮对话中，可以要求 TA 快点说 or 慢点说。

· 随时打断，灵活输入指令：根据实时的用户指令，调整语音输出的内容和风格，支持更灵活的对话互动。

· 多语言、多方言支持：目前 GLM-4-Voice 支持中英文语音以及中国各地方言，尤其擅长粤语、重庆话、北京话等。

· 结合视频通话，能看也能说：即将上线视频通话功能，打造真正能看又能说的AI助理。

作为端到端的语音模型，GLM-4-Voice 避免了传统的 “语音转文字再转语音” 级联方案过程中带来的信息损失和误差积累，也拥有理论上更高的建模上限。

GLM-4-Voice 已经在清言 App上部署，消费者可以通过App 体验。

GLM-4-Voice 模型之后将与清言的视频通话能力合体，据了解，今年8月份，智谱宣布上线基座大模型 GLM-4-Plus，同时清言App 推出视频通话功能，用户拨打清言的视频通话窗口，即可与它进行流畅通话，即便频繁打断它也能迅速反应。只要打开摄像头，我们看到的画面，清言也可以看到，同时可以听懂指令并准确执行。

GLM-4-Voice 发布即开源。

代码仓库：

https://github.com/THUDM/GLM-4-Voice

智谱表示，GLM-4-Voice 在 GLM-4-9B 的基座模型基础之上，经过了数百万小时音频和数千亿 token 的音频文本交错数据预训练，拥有很强的音频理解和建模能力。为了支持高质量的语音对话，智谱设计了一套流式思考架构：输入用户语音，GLM-4-Voice 可以流式交替输出文本和语音两个模态的内容，其中语音模态以文本作为参照保证回复内容的高质量，并根据用户的语音指令变化做出相应的声音变化，在保证智商的情况下仍然具有端到端建模 Speech2Speech 的能力，同时保证低延迟性（最低只需要输出 20 个 token 便可以合成语音）。

清言上线情感语音模型GLM-4-Voice

推荐体验

相关资讯

智谱清言上线情感语音模型GLM-4-Voice：有情绪表达、情感共鸣

智谱推出情感语音模型 GLM-4-Voice，懂你情绪，人人可用

智谱推出情感语音AI模型GLM-4-Voice 可表达情绪和共鸣

刚刚，智谱推出情感语音模型 GLM-4-Voice，懂你的情绪，人人可用

智谱发布GLM-4-Voice情感语音模型：多语言支持与灵活互动

近期资讯

科技“红娘”走俏的启示

四种时尚配色曝光，华为畅享 70X颜值升级，1月3日同步开启预售.

国产色谱仪首次进入海外钢铁行业市场聚光科技ProGC系列产品成功出海

京东3C数码采销直播间送跨年福利 iPhone 16 Pro Max享直播专属价

从设立“企业家日” 看绵阳科技城新区发展态度

宜安科技：镁合金与非晶合金材料应用于新能源汽车与消费电子

紫光展锐推出 4G 智能穿戴平台 W377E：四核 A53，搭载安卓 8.1

成都新津：智赋能，让城市管理“耳聪目明”

重点支持6类数据企业发展！国家数据局发声

AI眼镜百镜大战将至，星纪魅族卢勇：未来两年是关键竞争期

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响