当前位置:首页|资讯|AI音频|Whisper|Hugging Face|GitHub

开源AI语音识别新工作:Distil-Whisper真的又快又准

作者:ReadPaper论文阅读发布时间:2023-11-06

OpenAI的语音识别模型Whisper在经过HuggingFace团队的蒸馏处理后,诞生了Distil-Whisper。这一新变体在保持高准确度的同时,实现了数倍的速度提升,尤其在处理英语语音数据时表现出色。虽然模型规模缩小,但其在短音频的词错误率(WER)与原模型相差无几,在长音频处理上甚至超越了原模型。

试玩地址(colab):https://colab.research.google.com/github/sanchit-gandhi/notebooks/blob/main/Distil_Whisper_Benchmark.ipynb

项目链接:https://github.com/Vaibhavs10/insanely-fast-whisper#insanely-fast-whisper

模型链接:https://huggingface.co/models?other=arxiv:2311.00430

论文链接:https://arxiv.org/pdf/2311.00430.pdf

Readpaper链接:https://readpaper.com/paper/2030129136077441024

Demo链接:https://huggingface.co/spaces/Xenova/distil-whisper-web


1 模型架构与性能

Distil-Whisper是基于OpenAI的Whisper模型的蒸馏版,主要有两个版本,分别是参数量为756M的distil-large-v2和参数量为394M的distil-medium.en。这两个版本在模型大小上都有显著的缩减,但在性能上却做到了与原始模型相近或者在某些方面甚至更好。特别是在处理长音频时,Distil-Whisper展现出了更低的词错误率(WER),这意味着它在转录长段落的语音时更加精确。


2 数据处理与训练策略

Distil-Whisper的训练涉及到了大量的数据处理和策略选择。研究者们使用了伪标签技术来构建一个大规模的开源数据集,并在这个数据集上进行了22,000小时的训练。这个过程中,他们采用了WER过滤器,只选择了质量最高的伪标签进行训练,这一策略是保持模型高性能的关键。

3 鲁棒性与幻觉减少

在对抗噪声方面,Distil-Whisper通过冻结编码器的操作,展现出了极高的稳健性。这意味着即使在背景噪音较多的环境中,Distil-Whisper也能够准确地识别语音。此外,它在处理长音频时有效减少了幻觉,即错误地将噪声或无关声音识别为错误的词或短语。

4 推测解码

Distil-Whisper还引入了推测解码的概念,这是一种通过与原始Whisper模型配对使用,以提高处理速度的技术。在增加很少的计算量(仅8%)的情况下,它能够将处理速度提高2倍,同时保持与原始Whisper模型相同的输出结果。

观点

学术上,我觉得特别需要注意推测解码和WER过滤器。推测解码加速了整个inference的过程,这个方法或许成为一个通用的方法。而,WER过滤器这是提供了一个新的选择,通过了一个启发式的方法来过滤为标签训练数据(详细见论文侯总的9.1节)


商业上,在商业应用中,如客服系统、智能助理等,Distil-Whisper的高速度和准确性能极大提升了用户体验,对于需要实时语音转写的场景尤为重要。特别是现在数字人的火热,还有类似于openai前一阵子推出的语音交互功能,一些小企业也可以简单快速的上手了(不过这限于英文,不过至少提供了思路)。此外,其对噪声的鲁棒性使其在嘈杂环境下也能保持高效能,这也增加了实用性。


特邀作者:日本早稻田大学计算机系博士  王军杰


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1