当前位置:首页|资讯

Low Bitrate High-Quality RVQGAN-based Discrete Speech Tokenizer

作者:痛苦女王大人发布时间:2024-10-17

每日论文阅读 2024.10.16 Low Bitrate High-Quality RVQGAN-based Discrete Speech Tokenizer

keywords: 语音离散编码
出版单位: IBM
Demo page https://s3.us-south.objectstorage.softlayer.net/zk-wav-data/Webpages/SpeechDAC_IS2024/index.html
快读阅读:本文主要是数据层面的工作,通过重新构建数据集来提升DAC的效果。

摘要

由于大型语言模型(LLMs)能够学习其压缩的声学表示,离散音频编解码器(或音频标记器)最近重新受到关注。各种公开可用的可训练离散标记器最近在音频标记化方面展示出了令人印象深刻的结果,但它们大多需要高标记率才能实现高质量的重建。在这项研究中,我们使用多种开源语音数据对一个开源通用音频RVQGAN模型进行了微调,考虑了各种录音条件和质量水平。由此产生的宽带(24kHz)纯语音模型实现了语音重建,其在每秒150 - 300个标记(1500 - 3000bps)的速率下与PCM(脉冲编码调制)几乎无法区分。评估使用了涵盖不同录音条件(包括录音室设置)的全面的英语语音数据。语音样本以及可重现训练模型的细节已公开。该模型已正式发布在huggingface上

1. Introduction

数字语音和音频编解码器最初仅用于数据传输中的高效音频压缩[1,2]。在这种情况下,编码器将数字采样的音频信号(采样率从电话的窄带8kHz到高保真录音室录制的全带48 - 96kHz不等)转换为随后传输的压缩数字流。在编码之前,音频信号通常经历两个步骤。首先,分割将音频数据分成较小的单元,称为帧。接下来,特征提取以一种既能实现高效有损信号压缩又能将对人类听众的感知降级降至最低的方式表示这些帧。某些特征,如频谱图或梅尔频率倒谱系数,描述信号帧的频谱包络,而其余特征描述时域残余信号。在经典编解码器中,频谱特征通常经过多次可训练的矢量量化(VQ),而其余部分则由可训练和基于规则的码本以及各种控制参数的二进制表示混合表示[1,2]。一旦传输,接收器使用解码器从接收到的数字流中重建原始音频。
离散音频标记化是数字音频编码的一种特殊情况,由于其在音频和混合文本/音频领域应用大型语言建模(LLM)技术以实现一次性语音合成[3,4,5]、语音识别[6]、说话人识别[7]的潜力,最近重新受到关注。与对数字编码器输出没有限制的经典音频编码不同,离散音频标记化[8](见图1)涉及将音频信号转换为一系列离散标记,这些标记由作为与一组经过训练的码本相关联的码字索引的整数表示。音频标记旨在使用可训练的解码器捕捉精确音频重建的关键细节。这使得语言模型生成的音频标记能够很容易地转换为高质量的音频波形。

离散标记器通常具有带有量化层[9]的经典瓶颈自动编码器结构。基于残差矢量量化与生成对抗网络(RVQGAN)的架构[8]是标记化最受欢迎的选择之一。它对瓶颈特征采用残差矢量量化(RVQ)[10],其中每个量化层对前一个量化层进行细化,从而为单个音频帧生成多个标记。最近,一些适用于语音或通用音频的离散标记器已经可用,并在开源社区[11,12,13]中受到欢迎。它们大多基于RVQGAN,其高质量工作点从每秒600个标记[14]开始,这是有效训练LLM模型所需的高数据率。为了改进音频的离散生成建模,在保持音频重建的高保真度的同时,进一步压缩表示音频样本的标记序列是非常有益的。
我们的这项工作基于Descript Audio Codec(DAC)[12],这是一种开源的通用离散标记器模型,能够在6 - 8kbps的比特率下在各种音频材料(包括通用音频、音乐和语音)中保持高保真音频质量。然而,在3kbps及以下的比特率下,其性能会急剧下降[12]。
当前工作的目标是将通用音频 DAC 模型调整为具有降低的操作比特率的高质量纯语音离散标记器模型。我们的贡献总结如下:

  • 我们使用各种开源语音数据在低比特率设置(1500 - 3000 bps)下对通用 DAC 模型进行微调,同时仔细平衡各种录音条件和音频质量水平,并专注于高保真语音数据。

  • 我们在各种语音数据集上对得到的模型进行评估,证明了 1.5kbps 模型的高质量重建以及 3kbps 模型的感知透明重建。

  • 我们进行了全面的消融研究,以探索不同质量水平和录音条件的训练语音数据如何影响模型性能,这是通过在多种测试数据上进行评估得出的。

2. Method

2.1 RVQ-GAN Model

残差矢量量化(RVQ)是一种经典的语音编码技术[15],当与生成对抗网络(GAN)[16]训练技术[8]结合时,它最近作为现代神经离散标记化的关键要素而复兴。由此产生的RVQGAN模型概述如图1所示。在这种自动编码器架构中,编码器对输入信号进行下采样,创建一个更紧凑的潜在表示,该表示由RVQ逐步量化,然后由结构与编码器镜像的解码器进行重建。RVQ是一种多阶段矢量量化技术,其中每个阶段对前一矢量量化阶段的残差进行量化。在训练期间,使用重建损失和对抗损失的组合来优化模型参数,其中一个单独的判别器网络与自动编码器网络同时进行训练[8]。非微分量化层使用直通估计器[9]进行优化。
Descript Audio Codec(DAC)[12]是一种基于 RVQGAN 的通用音频编解码器模型,其在包括通用音频、音乐和语音等各种音频材料中保持高保真音频质量的能力非常出色[12]。它通过结合多种技术实现这一目标,例如周期性激活函数、具有 L2 归一化的码本分解以及改进的重建和对抗损失[12]。它还采用随机量化器丢弃以支持单个模型的多种比特率并稳定训练[8]。预训练的 DAC 模型和模型源代码均作为开源发布[3]。它们也被证明优于几个以前流行的离散标记化模型[8,11]。

2.2 训练数据选择

离散音频标记器的质量不仅取决于其架构和训练协议,还取决于训练数据的质量。在那些通常用于训练离散标记器的数据集[14]中,我们观察到语音质量各不相同的数据。一般来说,如果使用多语言数据进行训练,可训练的标记器与语言无关。然而,在这项工作中,我们只关注英语,所以下面我们仅提及用于 DAC 训练的英语数据集(或多语言数据集中的英语部分)[12]:

  • ReadSpeech 是来自去噪挑战的高质量全频段(48kHz)数据集[17],包含约 1000 小时的数据。它主要来源于录制良好的有声读物。

  • DAPS[18]是一个小型(4.5 小时)的录音室质量全频段(48kHz)录制数据集。

  • LibriSpeech[19] 是一个大型(约 1000 小时)的 16kHz 采样的中等质量数据集,也是基于公共领域的有声读物。

  • LibriTTS[20](585 小时)也来源于有声读物,它是中等质量全频段(24kHz)语音的来源,包含一个 LibriTTS-clean 子集,具有更好的录制条件,以及一个 LibriTTS-other 子集,带有重口音的语音和 / 或更具挑战性的录制设置(包括噪声和混响)。它与 LibriSpeech 数据集来源于相同的材料。

  • VCTK[21]是一个中等质量的全频段(48kHz)语音数据集(44 小时,110 位说话人)。

  • Common Voice[22](2500 小时)是一个由大众收集的语音数据集,采样频率为 8 - 16kHz,具有最具挑战性的录制条件和失真情况。

对于仅针对语音场景的 DAC 模型调整任务(见第 2.3 节),我们添加了额外的语音数据源:

  • LJ-Speech[23],是一个时长 24 小时的全频段单人说话的录音室质量数据集。

  • LibriTTS-R [24],LibriTTS 的高保真版本,通过将整个 LibriTTS 数据集传入语音恢复网络创建而成,模拟了干净的录音室录制条件。

  • LibriLight [25] 是一个非常大的(60000 小时)16kHz 语音的混合质量公共领域数据集。在我们的重新训练中,我们将这个数据集用作非合格数据源,以替代 Common Voice。训练数据不能平等地代表各种质量水平。为了解决这个问题,原始训练过程采用平衡数据采样,确保在每个训练小批次中不同来源和质量水平的数据集均匀混合 [12]。我们在模型调整中也采用了这种方法,并将我们的训练数据分为以下类别,这些类别在训练小批次中是均衡的:

  • HQ1:高质量、干净,包含 ReadSpeech、DAPS 和 LJ-speech 数据集。

  • HQ2:恢复后的高质量、干净数据,包含 LibriTTS-R 的干净部分(LibriTTS-R-clean portion)。

  • HQ3:恢复后的高质量、干净数据,包含 LibriTTS-R 的其他部分(LibriTTS-R-other portion),其中存在更具挑战性的口音。

  • MQ1:中等质量、干净,包含 LibriTTS 的干净部分(LibriTTS-clean portion)。

  • MQ2:中等质量、不干净,包含 LibriTTS 的其他部分(LibriTTS-other portion)。

  • UQ:不合格(低质量/混合质量)、不干净,包含 LibriLight 数据集,并上采样至 24kHz。

可以注意到,在提出的设置中,低质量数据的占比不足。我们发现这些设置对于高质量语音重建是有益的。第 3.3 节将探讨其他数据选择趋势。

2.3 实现细节

我们使用上述平衡训练数据,严格遵循[12]中提出的训练过程,对一个24kHz的通用音频DAC模型进行了重新训练。与原始的DAC训练不同,我们省略了量化器随机失活(在训练期间随机丢弃RVQ中的某些后期阶段的过程[8])。虽然量化器随机失活在从头开始训练时被证明是有益的[12],但我们观察到在从预训练模型进行调整时,它对模型性能有不利影响。
我们训练了一组固定比特率模型(没有量化随机失活),每个模型使用不同数量的10位残差矢量量化(RVQ)码本(对应比特率),从公开可用的24kHz音频的24kbps DAC模型初始化[12]。原始模型以75Hz的帧率对一个音频帧进行编码,使用1-32个每个10位的RVQ码本。训练在两个A100 80g GPU上进行了400000步,小批次为72个固定长度为0.38秒的片段(从数据集中较长的语音样本中随机提取)。  

2.4 评估指标

我们使用以下指标进行客观重建评估:

  • 梅尔损失:一种组合的梅尔尺度损失,在 DAC 训练期间用作梅尔重建损失[12]。它被评估为不同频谱分辨率的对数梅尔频谱图的真实值与重建值之间的 L1 距离之和。

  • 短时傅里叶变换(STFT)损失:一种组合的短时傅里叶变换损失,在 DAC 训练期间用作线性频域损失[12]。它被评估为不同频谱分辨率的线性频谱图的真实值与重建值之间的 L1 距离之和。

  • PESQ:宽带(16kHz)语音质量评估得分 [26]。

  • STOI:语音可懂度指标 [27]。

虽然这些指标可用于跟踪趋势和进行模型比较,但它们不能可靠地预测感知上显著的失真。因此,这些指标辅以主观的听力评估(见第 3.2 节)。

2.5 测试数据集

在最终的客观评估和消融研究中,我们都在以下测试数据集上评估了客观指标:

  • Studio:一组专有的包含 1024×2 的男性和女性说话者的录音室质量样本集,以 22.05kHz 采样。

  • DAPS:从全频段高保真 DAPS 数据集中留出的 128 个样本集。

  • LibriTTS-R-clean:从留出的 LibriTTS-R-test-clean 数据集中随机选取的 1024 个样本集,包含未见过的说话者。

  • LibriTTS-R-other:从留出的 LibriTTS-R-test-other 数据集中随机选取的 1024 个样本集,包含未见过的说话者。

  • LibriTTS-clean:从 LibriTTS-test-other 的留出集中随机选取的 1024 个样本集,包含未见过的说话者。

  • LibriTTS-other:从 LibriTTS-test-other 的留出集中随机选取的 1024 个样本集,包含未见过的说话者。

3. Results

3.1 客观指标

重新训练模型的客观指标如表2所示。可以注意到,所有客观指标在所有测试集上都持续改善,并且对于较小的量化码本,这种改善在感知上变得更加显著。在进行感知评估时,发现原始的高比特率模型与录音实际上是透明的,因此它们的改进在感知上并不显著。然而,当码本数量减少时,原始模型的退化变得明显,并且改进在感知上更加突出。

3.2 主观指标

我们选择了4码本(3kbps)和2码本(1.5kbps)模型进行进一步的主观听力测试评估。16名受试者参与了MUSHRA[28]测试,对4个系统(2码本和4码本系统、原始系统以及重新训练的系统)和一个隐藏的 PCM 参考信号进行评估。从 LibriTTS-r-clean、LibriTTS-r-other、LibriTTS-clean、LibriTTS-other、DAPS 和 Studio 测试集中随机选择了30个测试刺激,每个集合有6个刺激。图2给出了具有95%置信区间的 MUSHRA 平均得分。通过 Wilcoxon 秩和检验[29]评估每个系统与 PCM 的差异的统计显著性,结果显示重新训练的4码本系统输出与原始录音之间的感知差异在统计上不显著(表1)。

3.3 数据消融实验

在一系列训练数据消融研究中,我们调查了排除部分训练数据对语音重建质量的影响,如第2.5节所述,在六个不同质量水平的留出测试数据集上进行评估。经过200k训练步骤后重新训练的3kbps模型的结果(小批量大小(B = 72))如表3所示。在消融表中我们省略了STOI指标,因为它在所有列中几乎具有相同的值。这些研究揭示了一些有趣的观察结果。可以注意到,一般来说,中低质量数据对于大多数数据集的重建很重要,包括高保真数据(Studio、DAPS),尽管对于某些测试集(LibriTTS-R-clean、LibriTTS-R-other)并非如此。我们还观察到,去除高质量的 LibriTTS-R 对所有分数都产生了负面影响,包括其对应的中等质量版本的分数。另一方面,高质量的 LibriTTS-R 测试集似乎并没有从中等质量的 LibriTTS 训练数据的存在中受益。

4. 总结

在本文中,我们(i)提出了一种专门针对纯语音数据改进的 RVQGAN 音频编解码器版本;(ii)展示了平衡的语音数据对于难以区分的重建质量的重要性;(iii)提供了一项消融研究,显示了数据选择对训练的重大影响。我们的预训练模型由于其较低的比特率和卓越的质量,可用于语音合成、语音延续以及各种其他任务。虽然当前模型仅在英语环境下进行了训练和测试,但我们打算扩展其适用性,以在多种语言中实现一致的性能。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1