大模型之语音篇（STT和TTS）

作者：AI8ge8888888发布时间：2024-10-30

如果有Nvidia显卡，一般都建议安装pytorch进行GPU加速。

标配：Nvidia Driver + CUDA + cuDNN + python虚拟环境安装pytorch的安装难点是找到适配python和CUDA的torch的GPU版本

whisper

项目地址：https://github.com/openai/whisper

pip install -U openai-whisper

whisper test.mp3 --model tiny --language English --output_format txt

可转录的音频格式有mp3,wav,flac,mp4,mpweg,mpga,m4a,webm，输出文本格式有txt,src,vtt,json,tsv)，模型对应文件大小如下图：

F5-TTS

网址：https://f5tts.org

在线体验：https://f5tts.org/playground

安装

运行webUI

访问 http://localhost:7860

ChatTTS-ui

项目地址：https://github.com/jianchang512/ChatTTS-ui?tab=readme-ov-file

一个简单的本地网页界面，使用ChatTTS将文字合成为语音，同时支持对外提供API接口。

安装

运行

tts-generation-webui

项目地址：https://github.com/rsxdalv/tts-generation-webui

运行bat下载速度慢，docker镜像很大，也容易下载失败。

pyVideoTrans

网址：https://pyvideotrans.com/

在线体验：https://tts.pyvideotrans.com/

安装

如果是 Windows10/11 系统，直接下载压缩包，解压到无空格无中文的路径下，双击 sp.exe 即可使用(必须先解压再使用，不可直接压缩包中双击sp.exe)。

Linux和macOS的安装指南：https://pyvideotrans.com/downpackage.html

相关资讯

文字转语音TTS真人发声哪个好？微软azure 语音企业适用

目前企业需要通过微软官方合作伙伴获取服务，可以合规、稳定地提供企业用户使用AzureAI语音服务、ChatGPT等的可能，满足国内发票需求。在下面这段文本中，我们将叙事旁白设置成了中文版晓晓的“新闻”说话风格…

微软 ChatGPT

等保测评办理 2024-07-18

评测国内大模型之智谱清言篇

随着ChatGPT的出现，国内也涌现出众多的国产大模型AI来和它一较高下。比较知名的有文心一言、讯飞星火、智谱清言以及通义千问等等，这些模型各具特色，使用场景也略有不同。本次我们主要测评其中比较知名的一款国产大模型智谱清言，它基于ChatGLM2构建，具有千亿级别的参数，是一款非常有前景的国产大模型。我们主要测试智谱清言的常规数学计算能力、编程能力、科普问题的解答能力、推理能力、AI绘图能力等多方面综合能力，看看它是否接近或达到ChatGPT的实力和水平，还有哪些不足之处。话不多说，我们开始吧。首先我们

ChatGPT 文心一言通义千问编程

黑白1998 2023-10-18

顾京 2024-09-02

近期资讯

捕捉精彩每一刻：mentech全景时光PanoX V3相机新品上市

3.专业之眼8K视界：支持8K10FPS高解析度全景视频及7200万像素全景照片拍摄，定格细节之美。4.双重视野模式随心：前后镜头分屏模式，同时记录前后风景，不错过任何一个方向的惊喜。7.Sony1/2"4800万像素传感器：带来更高的宽容度与感光度(iso)，保留更多细节便于后期处理，暗部表现更出色，带来更完美的拍摄体验。

中国财富网 2024-10-29

买iPhone 16首选京东11.11现货充足至高补贴2249元

具体来看，购买iPhone16系列至高补贴2249元，即日起购iPhone16可价保至11月3日，而且还都是现货开售，下单就发货不用苦等预售。以128G版本的iPhone16为例，原价5999元，叠加领券立减500元、以旧换新至高补贴1100元福利后，最终到手价低至4399元。

手机中国 2024-10-29

苹果官网 240W USB-C 充电线（2 米）降价 20 元：原价 249 元，现 229 元

这款充电线原本售价为249元，现已降价20元，售价调整至229元。据苹果官方介绍，这款2米长的充电线采用了编织设计，并且两端均配备了USB-C接头，可以用于给设备充电，同时也适用于通过USB-C进行数据传输或者进行同步操作。该充电线支持最高达240瓦的功率输入，并且以USB2速率传输数据。

中关村在线 2024-10-29

神十九明天发射，神十八下周回家！这次两位“90后”——

据中国载人航天工程办公室消息，经空间站应用与发展阶段飞行任务总指挥部研究决定，瞄准北京时间10月30日4时27分发射神舟十九号载人飞船。神舟十八号航天员乘组在与神舟十九号航天员乘组完成在轨轮换后，计划于11月4日返回东风着陆场。

光明网 2024-10-29

中国大唐集团申请用于火电厂SIS系统一次调频性能考核计算评价方法专利，实现机组一次调频功能响应的考核

金融界2024年10月29日消息，国家知识产权局信息显示，中国大唐集团科学技术研究总院有限公司中南电力试验研究院和大唐巩义发电有限责任公司申请一项名为“一种用于火电厂SIS系统的一次调频性能考核计算评价方法”的专利，公开号CN118825971A，申请日期为2024年6月。

金融界 2024-10-29

荣耀方飞详解MagicOS 9.0：以智能体为核心革新人机交互体验

AI浪潮奔涌而来，智能手机行业正站在变革的十字路口。操作系统，作为连接用户和硬件的桥梁，成为这场变革的关键突破口。MagicOS8.0借助AI的力量，实现了意图识别人机交互，能够智能预测用户交互意图，实现服务直达，将传统交互模式下繁琐的操作大幅简化，做到了“服务找人”。

砍柴网 2024-10-29

晶科能源亮剑，第三代TOPCon厚积薄发

随着第三代TOPCon670瓦/24.8%组件在澳洲首发，公司负责人在当地接受采访时表示，考虑到市场对高功率、高双面率N型产品需求，以及竞争对手的该类型产能远不及它，公司很可能考虑涨价。分析称，明年头部企业的决胜战很可能出现在650瓦以上的节点上，但从规模、成本、良率、单瓦发电效能和功率效率方面来看，TOPCon会持续保持并拉大其优势。

中国财富网 2024-10-29

vivoX100s抄底价来袭：小屏旗舰体验媲美X200，性价比爆棚

自vivoX100s于2024年5月发布以来，这款手机就以其精致的外观设计、强大的硬件配置以及优秀的用户体验赢得了消费者的广泛关注。随着新一代产品线逐渐浮出水面，为了给即将登场的新机型腾出空间，vivoX100s进行了大幅度的价格调整。

小米地瓜 2024-10-29

一加 13 手机搭载仿生振感马达 Turbo：体积 602mm³、N54 磁钢

602mm³体积，宣称是安卓最大马达N54磁钢，振动量、频宽、启停速度领先72类O-Haptics振效适配700+系统振效调校。官方表示，一加13手机率先带来《某大型开放世界手游》的“手柄级4D振感”，号称甩技能都能感受到游戏更带感。运行：提供24GB+1TB版本信号：超级信号工程2.0|400米超远距灵动蓝牙|全新360°环绕式天线。

IT之家 2024-10-29

lifeme 魅蓝 M1 合金机甲无线耳机开售，119 元

IT之家10月29日消息，lifeme魅蓝M1合金机甲无线耳机现已上架京东并开售，这款耳机主打“360度环绕音、0.05s延迟”，首发价为119元。据介绍，该耳机充电盒外观采用“科幻机甲合金风格设计”，使用全锌合金机身，搭配金属喷涂工艺；耳机本体支持电容触控快捷操作。

IT之家 2024-10-29

大模型之语音篇（STT和TTS）

推荐体验

相关资讯

文字转语音TTS真人发声哪个好？微软azure 语音企业适用

评测国内大模型之智谱清言篇

OpenAI 最新文字转语音模型详细使用教程 Windows｜ Text to speech ｜ TTS

ChatGPT的TTS语音对话功能有什么好的用法？openai语音对话功能

视觉语言模型-基础篇之CLIP

近期资讯

捕捉精彩每一刻：mentech全景时光PanoX V3相机新品上市

买iPhone 16首选京东11.11现货充足至高补贴2249元

苹果官网 240W USB-C 充电线（2 米）降价 20 元：原价 249 元，现 229 元

神十九明天发射，神十八下周回家！这次两位“90后”——

中国大唐集团申请用于火电厂SIS系统一次调频性能考核计算评价方法专利，实现机组一次调频功能响应的考核

荣耀方飞详解MagicOS 9.0：以智能体为核心革新人机交互体验

晶科能源亮剑，第三代TOPCon厚积薄发

vivoX100s抄底价来袭：小屏旗舰体验媲美X200，性价比爆棚

一加 13 手机搭载仿生振感马达 Turbo：体积 602mm³、N54 磁钢

lifeme 魅蓝 M1 合金机甲无线耳机开售，119 元

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响