开源AI语音识别新工作：Distil-Whisper真的又快又准

作者：ReadPaper论文阅读发布时间：2023-11-06

OpenAI的语音识别模型Whisper在经过HuggingFace团队的蒸馏处理后，诞生了Distil-Whisper。这一新变体在保持高准确度的同时，实现了数倍的速度提升，尤其在处理英语语音数据时表现出色。虽然模型规模缩小，但其在短音频的词错误率（WER）与原模型相差无几，在长音频处理上甚至超越了原模型。

试玩地址（colab）：https://colab.research.google.com/github/sanchit-gandhi/notebooks/blob/main/Distil_Whisper_Benchmark.ipynb

项目链接：https://github.com/Vaibhavs10/insanely-fast-whisper#insanely-fast-whisper

模型链接：https://huggingface.co/models?other=arxiv:2311.00430

论文链接：https://arxiv.org/pdf/2311.00430.pdf

Readpaper链接：https://readpaper.com/paper/2030129136077441024

Demo链接：https://huggingface.co/spaces/Xenova/distil-whisper-web

1 模型架构与性能

Distil-Whisper是基于OpenAI的Whisper模型的蒸馏版，主要有两个版本，分别是参数量为756M的distil-large-v2和参数量为394M的distil-medium.en。这两个版本在模型大小上都有显著的缩减，但在性能上却做到了与原始模型相近或者在某些方面甚至更好。特别是在处理长音频时，Distil-Whisper展现出了更低的词错误率（WER），这意味着它在转录长段落的语音时更加精确。

2 数据处理与训练策略

Distil-Whisper的训练涉及到了大量的数据处理和策略选择。研究者们使用了伪标签技术来构建一个大规模的开源数据集，并在这个数据集上进行了22,000小时的训练。这个过程中，他们采用了WER过滤器，只选择了质量最高的伪标签进行训练，这一策略是保持模型高性能的关键。

3 鲁棒性与幻觉减少

在对抗噪声方面，Distil-Whisper通过冻结编码器的操作，展现出了极高的稳健性。这意味着即使在背景噪音较多的环境中，Distil-Whisper也能够准确地识别语音。此外，它在处理长音频时有效减少了幻觉，即错误地将噪声或无关声音识别为错误的词或短语。

4 推测解码

Distil-Whisper还引入了推测解码的概念，这是一种通过与原始Whisper模型配对使用，以提高处理速度的技术。在增加很少的计算量（仅8%）的情况下，它能够将处理速度提高2倍，同时保持与原始Whisper模型相同的输出结果。

观点

学术上，我觉得特别需要注意推测解码和WER过滤器。推测解码加速了整个inference的过程，这个方法或许成为一个通用的方法。而，WER过滤器这是提供了一个新的选择，通过了一个启发式的方法来过滤为标签训练数据（详细见论文侯总的9.1节）

商业上，在商业应用中，如客服系统、智能助理等，Distil-Whisper的高速度和准确性能极大提升了用户体验，对于需要实时语音转写的场景尤为重要。特别是现在数字人的火热，还有类似于openai前一阵子推出的语音交互功能，一些小企业也可以简单快速的上手了（不过这限于英文，不过至少提供了思路）。此外，其对噪声的鲁棒性使其在嘈杂环境下也能保持高效能，这也增加了实用性。

特邀作者：日本早稻田大学计算机系博士王军杰