当前位置:首页|资讯

大模型之语音篇(STT和TTS)

作者:AI8ge8888888发布时间:2024-10-30

如果有Nvidia显卡,一般都建议安装pytorch进行GPU加速。

标配:Nvidia Driver + CUDA + cuDNN + python虚拟环境安装pytorch的安装难点是找到适配python和CUDA的torch的GPU版本


whisper

项目地址:https://github.com/openai/whisper

pip install -U openai-whisper

whisper test.mp3 --model tiny --language English --output_format txt

可转录的音频格式有mp3,wav,flac,mp4,mpweg,mpga,m4a,webm,输出文本格式有txt,src,vtt,json,tsv),模型对应文件大小如下图:

whisper的模型大小


F5-TTS

网址:https://f5tts.org

在线体验:https://f5tts.org/playground

安装

运行webUI

访问 http://localhost:7860

F5-TTS


ChatTTS-ui

项目地址:https://github.com/jianchang512/ChatTTS-ui?tab=readme-ov-file

一个简单的本地网页界面,使用ChatTTS将文字合成为语音,同时支持对外提供API接口。

安装

运行

ChatTTS WebUI


tts-generation-webui

项目地址:https://github.com/rsxdalv/tts-generation-webui

运行bat下载速度慢,docker镜像很大,也容易下载失败。


pyVideoTrans

网址:https://pyvideotrans.com/

在线体验:https://tts.pyvideotrans.com/

安装

如果是 Windows10/11 系统,直接下载压缩包,解压到无空格无中文的路径下,双击 sp.exe 即可使用(必须先解压再使用,不可直接压缩包中双击sp.exe)。

Linux和macOS的安装指南:https://pyvideotrans.com/downpackage.html


pyVideoTrans



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1