当前位置：首页|资讯

自制神之嘴: fish-speech 容器镜像 (文本转语音 AI 大模型)

作者：穷人小水滴发布时间：2024-09-16

首发日期 2024-08-15, 以下为原文内容:

穷, 没有 N 卡 ! 穷, 没有 N 卡 !穷, 没有 N 卡 !! (重要的事情说 3 遍. )

最近发现了一个很新的 AI (神经网络) 文本转语音大模型:https://speech.fish.audio/

fish-speech 可以根据输入的文本, 生成高质量的人类说话声音, 效果挺好的.fish-speech 官方已经提供了容器 (docker) 镜像, 但是这个镜像很大 (好多 GB),下载速度慢, 使用并不方便.

所以决定自制容器镜像, 方便直接部署运行 (podman).那么问题来了: 把派蒙装进容器, 一共需要几步 ?

这里是穷人小水滴, 专注于穷人友好型低成本技术.下面开始吧 ~

相关视频: 《win10 安装 Podman Desktop (教程)》

相关文章:

《构建 deno/fresh 的 docker 镜像》

《基于 sftp 的 NAS (局域网文件存储服务器)》

《光驱的内部结构及日常使用》

目录

1 天下苦 N 卡久矣
2 制作 fish-speech 容器镜像

2.1 构建 python 基础镜像
2.2 构建 fish-speech 镜像
2.3 镜像的长期保存 (刻录光盘)

3 测试运行 (CPU 推理)
4 总结与展望

1 天下苦 N 卡久矣

AI (神经网络) 大模型已经火了好几年了,但是普通人想要在本地运行 AI 大模型, 仍然面对巨大的困难:

(1) N 卡 (CUDA) 垄断.如果没有 N 卡 (没有 CUDA), 那么基本上各种 AI 都是玩儿不了的,A 卡和 I 卡基本没啥用, 只能在角落吃灰.(大部分能够本地运行的 AI 都只支持 N 卡. )
(2) 网速太慢.AI 大模型相关的软件, 通常体积巨大, 几 GB 都是小的, 几十 GB 也很常见.然而下载速度又太慢, 一个模型需要下载好久, 甚至下载失败.

在下, 作为根正苗红的穷人, 那自然是无论如何也买不起 N 卡的.只能仰天大呼: CUDA 宁有种乎 ?

于是乎, 只能祭出终极大杀器: CPU 推理 !既然被 GPU 无情抛弃, 那么就转身投入 CPU 的温暖怀抱 !

用 9 年前的弱鸡老旧 CPU (i5-6200U) 强行小马拉大车,配合 16GB 内存 (DDR3-1600MHz), 吭哧吭哧虽然很吃力, 但也不是不能运行嘛 !

什么 ? CPU 运行太慢 ??穷人嘛, 钱是没有的, 时间那可是大大的有 !反正穷人的时间又不值钱, 慢慢运行也是能出结果的啦.

总之, 买 N 卡是不可能买的, 这辈子都不可能的,也就只能是蹭蹭温暖的娇小 CPU, 在风扇声旁安然入睡这样子.

2 制作 fish-speech 容器镜像

首先从这里下载源代码包: https://github.com/fishaudio/fish-speech

然后从这里下载 "模型" 数据文件: https://hf-mirror.com/fishaudio/fish-speech-1.2-sft

2.1 构建 python 基础镜像

构建容器镜像的过程中, 需要从网络下载大量文件, 所以为了方便制作,方便修改和调试, 这里首先制作一个基础镜像, 安装好依赖的各种软件包.

Dockerfile 文件内容:

fish-speech 要求使用 python 3.10 版本, 如果 python 版本不对,可能会出现一些奇奇怪怪的问题, 所以使用 ubuntu:22.04.

构建命令:

可能需要执行较长时间, 结果如下:

此处 f-base 就是制作好的基础镜像.

2.2 构建 fish-speech 镜像

首先准备所需文件, 解压源码包 fish-speech-main.zip,放入模型数据 checkpoints/fish-speech-1.2-sft/, 再放入参考音频,文件列表如下:

参考音频放在 ref_data 目录, 下级目录格式说话者/情绪,比如此处 1paimon/e1 表示说话者 1paimon, 情绪 e1.这些目录可以随意命名.

然后里面放 参考音频, 格式为 "音频-标签" 对.比如 2003_1.wav 就是一个声音文件 (wav 格式),2003_1.lab 是这段声音对应的文本内容.注意音频文件和标签文件的名称对应.

然后使用的 Dockerfile 如下:

最后的命令 (CMD) 会运行一个 HTTP 服务器, 方便调用.--device cpu 表示使用 CPU 推理 (计算).

构建命令:

结果:

其中 fish-speech 就是构建出来的镜像, 很大, 17.1GB.

2.3 镜像的长期保存 (刻录光盘)

保存镜像:

获得:

压缩后大小 10GB.有了这个镜像文件, 部署运行就很方便了.

上述制作镜像的过程中, 需要通过网络下载大量的数据, 很不容易.所以制作好的镜像文件需要好好保存, 防止丢失.

此处选择使用一张 BD-R 25G 光盘来备份数据:

光盘里面的文件:

可以方便的使用 sha256sum -c sha256.txt 检查光盘中的文件是否损坏:

蓝光光盘最大读取速度可达 35MB/s.

3 测试运行 (CPU 推理)

使用 podman 运行 fish-speech 容器 (HTTP 服务器):

生成音频:

生成过程中产生的日志:

好了, 成功获得了一只神之嘴, 撒花 ~

使用 CPU 推理, 速度大约比 N 卡慢 100 倍, 生成 1 秒的音频大约需要 1 分钟.

这个速度虽然很慢, 但是也是具有一定的实用意义的,比如制作一个 10 分钟的视频, 进行配音, 所需的时间, 也就是晚上睡一觉而已,第二天起来就生成好了.

具体栗子请见视频《win10 安装 Podman Desktop (教程)》 (链接在文章开头).

4 总结与展望

fish-speech 是一个新的 AI (神经网络) 文本转语音大模型,可以生成高质量的人类说话声音.在此感谢开发 fish-speech 并开源的巨佬们 !

通过自制 fish-speech 容器镜像, 并添加参考音频数据,窝们成功获得了一只封装好的派蒙罐头 (真·应急食品).随便放在哪里都可以直接运行, 无需网络, 很是方便好用.

CPU 推理确实很慢, 后续计划寻找无需 N 卡条件下,更快运行大模型的方法.

本文使用 CC-BY-SA 4.0 许可发布.

本文使用 Bilibili-Markdown 工具进行格式化排版:https://www.bilibili.com/read/cv18986956/

推荐体验

相关资讯

OpenAI 最新文字转语音模型详细使用教程 Windows｜ Text to speech ｜ TTS

在今天正式介绍我们的主项目之前大家先听一段音频：没错，利用OpenAI的文本转语音功能，我们可以创造出如“出师表”这样的语音内容。要实现这一功能，需要按照以下步骤操作。首先，你需要登录到OpenAI账号并激活平台赠送的5美元API使用权限。想知道如何操作吗？请继续阅读。注册OpenAI账户的过程中，该平台会赠送给我们5美元的API使用额度。在目前的API调用收费标准下，这个额度相当优惠。这笔免费的额度允许我们体验OpenAI提供的服务相当长一段时间。接下来，让我们看看如何注册OpenAI的ChatGPT

无限理论派 2023-12-09

OpenAI 的 api 调用：批量生成文本，以及文本转语音

OpenAI 的 api 调用：批量生成文本，以及文本转语音

余汉波 2024-02-13

微软azure 语音文本转语音服务，开辟智能交互新领域

目前企业需要通过微软官方合作伙伴获取服务，可以合规、稳定地提供企业用户使用AzureAI语音服务、ChatGPT等的可能，满足国内发票需求。我们选择文本转语音，语音库未来，随着人工智能技术的不断发展和优化，微…

微软 ChatGPT 人工智能

等保测评办理 2024-07-18

语音克隆技术引发担忧，OpenAI 再次解释其文本转语音工具

IT之家6月10日消息，OpenAI在几个月内第二次就其文本转语音工具进行解释，并再次强调该工具目前并未大范围开放，且未来也可能不会。

IT之家 2024-06-10

重磅！！！ChatGPT文本转语音功能可以理解文本，而不是纯粹地“念稿”？？

过去，当我们谈论AI时，谈论的大多是可能性与探索。AI配音也早就不是什么新鲜事，但是ChatGPT，作为AI技术的江湖大佬，它的文本转语音功能（TTS）原以为只是简单的配音工具，然而，在实际使用过程中，我们发现了一些令人兴奋的“彩蛋”。一、ChatGPT的文本转语音功能，悄然“理解”语气在使用openai的TTS中发现，它似乎能够识别并响应简单的语气指令。比如当我们告诉它用“温柔”的语气来读一段文字时，它的声音听起来确实更加柔和。尽管它还不能理解更复杂的语气描述，如“带有爱意的温柔”，但这样的

ChatGPT AI音频 OpenAI

哼哼哞哞不想上班 2023-11-29

近期资讯

Meta宣布禁止俄官媒使用旗下平台

社、RT及其他相关实体因涉外干扰活动，现已被禁止在全球范围内使用我们的应用平台。”美国国务卿布林肯还指责RT是“俄罗斯情报机构事实上的分支”，是俄罗斯“破坏美国民主”的关键部分。RT在一份声明中嘲讽说:“西方为了让自己看起来更好，比赛谁能把RT打得最狠，这很有趣。”

环球时报新媒体 22小时前

“贝碧嘉”过后公铁水空全力以“复”保通畅

今年第13号台风“贝碧嘉”入境后，江苏多地遭受狂风和强降雨侵袭。在狂风暴雨的肆虐下，苏通大桥、沪武高速苏锡常路段遭受严重影响，多处附属设施＂一片狼藉＂。在南京，16日夜间至17日凌晨，南京市交通运输局公路中心各养护单位彻夜无眠，抢险人员24小时值守，抢险保通，保护公路设施安全。

扬子晚报 22小时前

iPhone 17 Pro首发！曝苹果包下台积电2nm首批订单

快科技9月18日消息，据媒体报道，苹果将包下台积电2nm首批产能，预计最快会在明年的iPhone17Pro系列上首发。报道指出，iPhone17Pro和iPhone17ProMax两款机型都将首批搭载台积电2nm芯片，而iPhone17Air超薄机型则继续使用台积电3nm芯片。

快科技 22小时前

江苏8款大模型通过国家人工智能服务备案

近日，国家互联网信息办公室公布一批生成式人工智能服务已备案信息，其中包括江苏汇智智能数字科技有限公司的CarrotAI大模型、智慧芽信息科技(苏州)有限公司的芽仔大模型。截至目前，江苏共有8款大模型通过国家备案，南京、苏州各4款。

金台资讯 22小时前

手握3500元预算如何买新机？这四款手机买完还能有剩

手握3500元预算如何买新机？近年来，手机市场的竞争愈加激烈，各大厂商都在努力通过提升配置、优化用户体验以及定制化功能来吸引消费者。CNMO科技为大家精选了四款3500元以内的热门机型，分别是一加Ace3Pro、iQOONeo9SPro+、真我GT6以及RedmiK70至尊版。

手机中国 22小时前

iPhone 16发货时间缩短表明需求疲软：苹果股价下跌

鞭牛士报道，9月18日消息，据路透社报道，苹果股价周一下跌近3%，此前一些分析师表示，新款iPhone16Pro机型的交货时间表明需求弱于预期，可能是由于关键人工智能功能的推出延迟。

鞭牛士 22小时前

马斯克脑机公司："盲视"获FDA突破性医疗器械认证

钛媒体App9月18日消息，马斯克旗下脑机公司Neuralink表示，已获得美国食品药品监督管理局（FDA）对“盲视”（Blindsight）项目的突破性医疗器械认证。该项目用于帮助盲人恢复视觉重见光明。

钛媒体快报 22小时前

千吨阻尼器硬刚台风“贝碧嘉”，“抗风神器”如何稳住高层建筑？

它被称为“1949年以来登陆上海的最强台风”，上海著名的地标建筑、上海中心大厦的“抗风神器”千吨级阻尼器在台风中摇摆的画面也在社交媒体上热传。据介绍，高层和超高层建筑容易在高空风速影响下产生晃动，不仅会增加结构疲劳、降低建筑物的安全性，甚至会让高层住户产生明显的眩晕。

环球网 22小时前

百亿港元

】香港特区政府创新科技署9月16日推出“新型工业加速计划”（简称加速计划），为从事策略性产业的企业在香港设立新的智能生产设施提供资助，欢迎合资格企业提交申请。创新科技署发言人表示，为推动下游的新型工业发展，特区行政长官在2023年施政报告中提出拨款100亿港元推行“新型工业加速计划”。

深圳商报 22小时前

谁来为人工智能的“三观”把关

“所有高科技都是西方人发明的”“历史是可以捏造的”……近期，某款儿童智能手表频出“毒答案”事件引发社会普遍关注，也触发了人们对人工智能（AI）新的担忧：眼下，越来越多的AI生成功能被集成到手机手表等个人智能终端中，随着个人智能终端向低龄人群普及，AI生成所表现出来的“三观”对未来人们的“三观”将产生重大而深远的影响。

新华日报 22小时前

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2024 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1