OpenAI的语音识别模型Whisper在经过HuggingFace团队的蒸馏处理后,诞生了Distil-Whisper。这一新变体在保持高准确度的同时,实现了数倍的速度提升,尤其在处理英语语音数据时表现出色。虽然模型规模缩小,但其在短音频的词错误率(WER)与原模型相差无几,在长音频处理上甚至超越了原模型。
试玩地址(colab):https://colab.research.google.com/github/sanchit-gandhi/notebooks/blob/main/Distil_Whisper_Benchmark.ipynb
项目链接:https://github.com/Vaibhavs10/insanely-fast-whisper#insanely-fast-whisper
模型链接:https://huggingface.co/models?other=arxiv:2311.00430
论文链接:https://arxiv.org/pdf/2311.00430.pdf
Readpaper链接:https://readpaper.com/paper/2030129136077441024
Demo链接:https://huggingface.co/spaces/Xenova/distil-whisper-web
Distil-Whisper是基于OpenAI的Whisper模型的蒸馏版,主要有两个版本,分别是参数量为756M的distil-large-v2和参数量为394M的distil-medium.en。这两个版本在模型大小上都有显著的缩减,但在性能上却做到了与原始模型相近或者在某些方面甚至更好。特别是在处理长音频时,Distil-Whisper展现出了更低的词错误率(WER),这意味着它在转录长段落的语音时更加精确。
Distil-Whisper的训练涉及到了大量的数据处理和策略选择。研究者们使用了伪标签技术来构建一个大规模的开源数据集,并在这个数据集上进行了22,000小时的训练。这个过程中,他们采用了WER过滤器,只选择了质量最高的伪标签进行训练,这一策略是保持模型高性能的关键。
在对抗噪声方面,Distil-Whisper通过冻结编码器的操作,展现出了极高的稳健性。这意味着即使在背景噪音较多的环境中,Distil-Whisper也能够准确地识别语音。此外,它在处理长音频时有效减少了幻觉,即错误地将噪声或无关声音识别为错误的词或短语。
Distil-Whisper还引入了推测解码的概念,这是一种通过与原始Whisper模型配对使用,以提高处理速度的技术。在增加很少的计算量(仅8%)的情况下,它能够将处理速度提高2倍,同时保持与原始Whisper模型相同的输出结果。
学术上,我觉得特别需要注意推测解码和WER过滤器。推测解码加速了整个inference的过程,这个方法或许成为一个通用的方法。而,WER过滤器这是提供了一个新的选择,通过了一个启发式的方法来过滤为标签训练数据(详细见论文侯总的9.1节)
商业上,在商业应用中,如客服系统、智能助理等,Distil-Whisper的高速度和准确性能极大提升了用户体验,对于需要实时语音转写的场景尤为重要。特别是现在数字人的火热,还有类似于openai前一阵子推出的语音交互功能,一些小企业也可以简单快速的上手了(不过这限于英文,不过至少提供了思路)。此外,其对噪声的鲁棒性使其在嘈杂环境下也能保持高效能,这也增加了实用性。
特邀作者:日本早稻田大学计算机系博士 王军杰