当前位置:首页|资讯|Hugging Face

如何在 Unity 游戏中集成 AI 语音识别?

作者:HuggingFace发布时间:2023-06-16

语音识别是一项将语音转换为文本的技术,想象一下它如何在游戏中发挥作用?发出命令操纵控制面板或者游戏角色、直接与 NPC 对话、提升交互性等等,都有可能。本文将介绍如何使用 Hugging Face Unity API 在 Unity 游戏中集成 SOTA 语音识别功能。

您可以访问 itch.io 网站 下载 Unity 游戏样例,亲自尝试一下语音识别功能。

先决条件

阅读文本可能需要了解一些 Unity 的基本概念。除此之外,您还需安装 Hugging Face Unity API,可以点击 之前的博文 阅读 API 安装说明。

步骤

1. 设置场景

在本教程中,我们将设置一个非常简单的场景。玩家可以点击按钮来开始或停止录制语音,识别音频并转换为文本。

首先我们新建一个 Unity 项目,然后创建一个包含三个 UI 组件的画布 (Canvas):

  1. 开始按钮: 按下以开始录制语音。

  2. 停止按钮: 按下以停止录制语音。

  3. 文本组件 (TextMeshPro): 显示语音识别结果文本的地方。

2. 创建脚本

创建一个名为 SpeechRecognitionTest 的脚本,并将其附加到一个空的游戏对象 (GameObject) 上。

在脚本中,首先定义对 UI 组件的引用:

在 inspector 窗口中分配对应组件。

然后,使用 Start() 方法为开始和停止按钮设置监听器:

此时,脚本中的代码应该如下所示:

3. 录制麦克风语音输入

现在,我们来录制麦克风语音输入,并将其编码为 WAV 格式。这里需要先定义成员变量:

然后,在 StartRecording() 中,使用 Microphone.Start() 方法实现开始录制语音的功能:

上面代码实现以 44100 Hz 录制最长为 10 秒的音频。

当录音时长达到 10 秒的最大限制,我们希望录音行为自动停止。为此,需要在 Update() 方法中写上以下内容:

接着,在 StopRecording() 中,截取录音片段并将其编码为 WAV 格式:

最后,我们需要实现音频编码的 EncodeAsWAV() 方法,这里直接使用 Hugging Face API,只需要将音频数据准备好即可:

完整的脚本如下所示:

如要测试该脚本代码是否正常运行,您可以在 StopRecording() 方法末尾添加以下代码:

好了,现在您点击 Start 按钮,然后对着麦克风说话,接着点击 Stop 按钮,您录制的音频将会保存为 test.wav 文件,位于工程目录的 Unity 资产文件夹中。

4. 语音识别

接下来,我们将使用 Hugging Face Unity API 对编码音频实现语音识别。为此,我们创建一个 SendRecording() 方法:

该方法实现将编码音频发送到语音识别 API,如果发送成功则以白色显示响应,否则以红色显示错误消息。

别忘了在 StopRecording() 方法的末尾调用 SendRecording():

5. 最后润色

最后来提升一下用户体验,这里我们使用交互性按钮和状态消息。

开始和停止按钮应该仅在适当的时候才产生交互效果,比如: 准备录制、正在录制、停止录制。

在录制语音或等待 API 返回识别结果时,我们可以设置一个简单的响应文本来显示对应的状态信息。

完整的脚本如下所示:

祝贺!现在您可以在 Unity 游戏中集成 SOTA 语音识别功能了!

如果您有任何疑问,或想更多地参与 Hugging Face for Games 系列,可以加入 Hugging Face Discord 频道!

英文原文: https://hf.co/blog/unity-asr

作者: Dylan Ebert

译者: SuSung-boy

审校/排版: zhongdongy (阿东)



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1