当前位置:首页|资讯

语言模型 F5-E2 TTS:音色 & 情绪一键克隆,轻松实现多角色对话

作者:BugHunter大魔王发布时间:2024-12-16

F5-TTS 是由上海交通大学、剑桥大学和吉利汽车研究院(宁波)有限公司于 2024 年共同开源的一款高性能文本到语音 (TTS) 系统,它基于流匹配的非自回归生成方法,结合了扩散变换器 (DiT) 技术。 F5-TTS 的主要功能包括零样本声音克隆、速度控制、情感表现控制、长文本合成以及多语言支持。它的技术原理涉及到流匹配、扩散变换器 (DiT)、ConvNeXt V2 文本表示改进、Sway Sampling 策略以及端到端的系统设计。E2 TTS,全称为「Embarrassingly Easy Te...【查看原文】


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1