当前位置：首页|资讯|Whisper|GitHub

大模型之语音篇（STT和TTS）

作者：AI8ge8888888发布时间：2024-10-30

如果有Nvidia显卡，一般都建议安装pytorch进行GPU加速。

标配：Nvidia Driver + CUDA + cuDNN + python虚拟环境安装pytorch的安装难点是找到适配python和CUDA的torch的GPU版本

whisper

项目地址：https://github.com/openai/whisper

pip install -U openai-whisper

whisper test.mp3 --model tiny --language English --output_format txt

可转录的音频格式有mp3,wav,flac,mp4,mpweg,mpga,m4a,webm，输出文本格式有txt,src,vtt,json,tsv)，模型对应文件大小如下图：

whisper的模型大小

F5-TTS

网址：https://f5tts.org

在线体验：https://f5tts.org/playground

安装

运行webUI

访问 http://localhost:7860

F5-TTS

ChatTTS-ui

项目地址：https://github.com/jianchang512/ChatTTS-ui?tab=readme-ov-file

一个简单的本地网页界面，使用ChatTTS将文字合成为语音，同时支持对外提供API接口。

安装

运行

ChatTTS WebUI

tts-generation-webui

项目地址：https://github.com/rsxdalv/tts-generation-webui

运行bat下载速度慢，docker镜像很大，也容易下载失败。

pyVideoTrans

网址：https://pyvideotrans.com/

在线体验：https://tts.pyvideotrans.com/

安装

如果是 Windows10/11 系统，直接下载压缩包，解压到无空格无中文的路径下，双击 sp.exe 即可使用(必须先解压再使用，不可直接压缩包中双击sp.exe)。

Linux和macOS的安装指南：https://pyvideotrans.com/downpackage.html

pyVideoTrans

推荐体验

相关资讯

大模型之语音篇（STT和TTS）

如果有Nvidia显卡，一般都建议安装pytorch进行GPU加速。标配：Nvidia Driver + CUDA + cuDNN + python虚拟环境安装pytorch的安装难点是找到适配python和CUDA的torch的GPU版本whisper项目地址：https://github.com/openai/whisperpip install -U openai-whisperwhisper test.mp3 --model tiny --language English --output_for

AI8ge8888888 2024-10-30

文字转语音TTS真人发声哪个好？微软azure 语音企业适用

目前企业需要通过微软官方合作伙伴获取服务，可以合规、稳定地提供企业用户使用AzureAI语音服务、ChatGPT等的可能，满足国内发票需求。在下面这段文本中，我们将叙事旁白设置成了中文版晓晓的“新闻”说话风格…

等保测评办理 2024-07-18

评测国内大模型之智谱清言篇

随着ChatGPT的出现，国内也涌现出众多的国产大模型AI来和它一较高下。比较知名的有文心一言、讯飞星火、智谱清言以及通义千问等等，这些模型各具特色，使用场景也略有不同。本次我们主要测评其中比较知名的一款国产大模型智谱清言，它基于ChatGLM2构建，具有千亿级别的参数，是一款非常有前景的国产大模型。我们主要测试智谱清言的常规数学计算能力、编程能力、科普问题的解答能力、推理能力、AI绘图能力等多方面综合能力，看看它是否接近或达到ChatGPT的实力和水平，还有哪些不足之处。话不多说，我们开始吧。首先我们

ChatGPT 文心一言通义千问编程

黑白1998 2023-10-18

OpenAI 最新文字转语音模型详细使用教程 Windows｜ Text to speech ｜ TTS

在今天正式介绍我们的主项目之前大家先听一段音频：没错，利用OpenAI的文本转语音功能，我们可以创造出如“出师表”这样的语音内容。要实现这一功能，需要按照以下步骤操作。首先，你需要登录到OpenAI账号并激活平台赠送的5美元API使用权限。想知道如何操作吗？请继续阅读。注册OpenAI账户的过程中，该平台会赠送给我们5美元的API使用额度。在目前的API调用收费标准下，这个额度相当优惠。这笔免费的额度允许我们体验OpenAI提供的服务相当长一段时间。接下来，让我们看看如何注册OpenAI的ChatGPT

无限理论派 2023-12-09

ChatGPT的TTS语音对话功能有什么好的用法？openai语音对话功能

ChatGPT大家很熟悉，引起人工智能热潮的生成式人工智能。刚开始版本主要以文字作为交互方式，到4.0版本时候已经初具多模态能力，到4.0 Turbo版本多模态功能已经较为成熟并开放大众使用。也就是识图图文对话、文档分析和语音对话。语音对话功能最基本，应该是语音输入以及语音输出，所以会涉及OPENAI另外两个模型：TTS和whisper。 whisper，英语翻译“耳语”，是作为语音输入模型； TTS，TEXT TO SPEECH,是作为语音输出模型。 [图片] 过往的语音对话功能虽然不常见，但技术

ChatGPT Whisper OpenAI 人工智能

沃卡chatgpt 2024-01-31

近期资讯

单身购房正在改变上海楼市

单身购房正在为哪类房子买单

真叫卢俊 2024-12-26

CMU等提出超实用「模型泛化性」指标，分布外准确率提升6%

LCA距离评估泛化性能，提升OOD准确率。

新智元 2024-12-26

【述职黑话】ToB交易业务解决方案之状态机

年底了大家都要述职，老板都会问：你这个方案，是否沉淀形成一套可复用解决方案？今天就介绍关于一个业务：状态变多、条件分支增多、状态转换规则、依赖关系变复杂，导致代码难以维护，代码可重用性和可扩展性变差

转转技术团队 2024-12-26

和百年能源巨头的投资部老大聊：我不是在投资，我是在和他们共同创业

作为一名投资人，Alan与他的被投企业有着极强的连接，在聊天过程中，他会将被投企业的产品/业务，不由自主地说成是“我们的”产品。

36碳 2024-12-26

豪华汽车市场，中国品牌站稳了

汽车技术话语权的夺取。

36氪品牌 2024-12-26

关于Android 16你想知道的都在这里

介绍一下新一代Android 16 Baklava的发布计划，带来的新功能和API变化，以及如何适配。

稀有猿诉 2024-12-26

Docker-Dockerfile讲解(二)

接上一节讲过的FROM,MAINTAINER,RUN,EXPOSE,WORKDIR,USER,我们这一节继续讲解其他参数。

dessler 2024-12-26

RocketMQ结合源码告诉你消息量大为啥不需要手动压缩消息

背景最近同事发现线上发送的RocketMQ消息太大，同事为了节省网络带宽和存储空间，手动压缩消息然后再进行消息发送，发现磁盘也没有明显的缩减所以我打算结合源码告诉他RocketMQ自带的消息压缩

小奏技术 2024-12-26

Mac电脑全屏【平铺】的时候，窗口周维有空隙

当我们需要将窗口铺满整个屏幕的时候，一般有两种方式：使用快捷键：按住 ⌘ 键，点击绿色按钮；平铺之后，就会发现窗口四周会有间隙，每次都需要手动拖动窗口，很麻烦；解决方法：打开设置；将【平铺

禁止摆烂_才浅 2024-12-26

难道这个世界容不下真正的「mini」吗？

为什么这么大个世界就容不下一台「mini」手机呢？

少数派 2024-12-26

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2025 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1