当前位置:首页|资讯|编程|AIGC|GitHub

现实版本柯南的“变声蝴蝶结”—AudioGPT大模型应用

作者:千与编程发布时间:2023-11-17

大家好,我是千与编程,目前在程序员鱼皮的编程导航知识星球里担任知识分享嘉宾,负责干货技术的分享。

相信大家都看过名侦探柯南,我以前就特别羡慕柯南的“蝴蝶结型变声器”,可以自由的变换想要发出的声音。

柯南变声蝴蝶结

而今天和大家介绍的大模型应用是AudioGPT模型应用,那效果简直就是现实版本柯南的“变声蝴蝶结”!

AudioGPT的应用是针对于语音算法的领域的大模型应用。以下是AudioGPT程序的Github社区地址:

https://github.com/AIGC-Audio/AudioGPT

以下跟大家演示一下如何在自己的Windows电脑上去运行AudioGPT的代码程序,以及如何学会正确运用AudioGPT实现对应的功能?

首先需要实现搭建模型运行环境,然后安装requirements文件列表里面的这安装依赖项,以及怎么实现在我们本地的客户端去运行AudioGPT的程序。

1. 创建运行程序新的conda环境

2. 安装环境运行所需依赖

3. 下载模型文件

4. 开始运行AudioGPT程序

至此我们可以实际检验AudioGPT的实际功能。

以上的操作步骤还是似乎还是偏向于极客,可以直接使用Hugging Face社区,调用实际的API接口,使用更加方便。

以下是Hugging Face社区的代码地址:

https://huggingface.co/spaces/AIGC-Audio/AudioGPT

AudioGPT效果如下图所示:

Hugging Face社区的界面

实践环节演示

AudioGPT包括以下几种功能,由于AudioGPT的模型属于语音音频方向的大模型。其功能包括以下的内容分类。

第一、实现根据输入文本转换为语音文件的语音合成

例如:生成带有文本“here we go”的语音音频

生成带有文本“here we go”的语音音频

第二、实现将单通道语音转换为双通道语音

单通道语音转换为双通道语音

第三、根据语言的文本描述生成对应语音

例如:生成狗叫声的音频

生成狗叫声的音频

第四,根据音频输出指定文字的描述

例如:给我这个生成音频的语言描述

生成音频的语言描述

第五、根据输入语音信号转换输出其对应的频谱图

语音信号转换输出频谱图

第六、说明音频内部所包含的事件以及起止时间

例如:这段音频中的雷声是什么时候发生的?

说明音频内部所包含事件

不仅如此,AudioGPT也集成了图像识别的功能,根据图片输入的上传图片生成对应的内容描述音频

例如:上传下图的江南水乡的图片

江南水乡

然后通过江南水乡的图片,生成的雨水声音

生成的雨水声音

怎么样感觉效果如何?不过其实告诉大家一个秘密,音频信号的处理,相对来说,比较占用内存,处理音频的时间较长,可以选择不同的加速硬件GPU,如下图所示

加速硬件GPU

原始使用的T4显卡是免费的,其实理论上计算性能也还不错,免费的,还要啥自行车,赶快动手试试吧!

我是千与编程,一个只讲干货的码农,我们下期见~


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1