12.大模型让机器人聪明，我再给它加个嘴巴和耳朵，让它能听会说

作者：人工智能大讲堂发布时间：2024-03-28

前面我们用大模型实现了一个聊天机器人，虽然很强大，但只能输入输出文本，而在现实生活中，有的人不会打字，有的时候也不方便打字，有的人有视力障碍，所以我们要给机器人加个耳朵，再安装个嘴巴。

能听的耳朵，就是语音识别技术，能说话的嘴巴，就是语音合成技术。

能听的耳朵

前面我们通过调用openAI的API实现了聊天机器人，openAI同样提供了语音识别API，背后的语音识别模型是Whisper。

https://github.com/openai/whisper

能听话的机器人实现思路也很简单，就是通过Whisper把音频文件或者麦克风的输出转录成文字，再传递给ChatGPT。

我们看到在调用transcribe接口时传了一个Prompt，这是因为Whisper也是一个类似GPT的模型，会用前面转录出来的文本去预测下一帧音频的内容。Prompt会影响后面识别出来的内容的概率，也就是能够起到给专有名词“纠错”的作用。

除了模型名称、音频文件和Prompt之外，transcribe接口还支持这样三个参数。

1. response\_format，也就是返回的文件格式，默认是JSON。实际你还可以选择TEXT这样的纯文本，或者SRT和VTT这样的音频字幕格式。

2. temperature，这个和我们之前在ChatGPT类型模型里的参数含义类似，就是采样下一帧的时候，如何调整概率分布。这里的参数范围是0-1之间。

3. language，就是音频的语言。提前给模型指定音频的语言，有助于提升模型识别的准确率和速度。

除了基本的音频转录功能，Whisper的API还额外提供了一个叫做translation的接口。这个接口可以在转录音频的时候直接把语音翻译成英文，我们不妨来试一下。

不过可惜的是这个接口只能把内容翻译成英文，不能变成其他语言，Prompt也必须是英文。

调用API既花钱又得把音频上传到服务器，Whisper是开源的，所以可以把模型下载到本地部署。

能说话的嘴巴

语音合成其实已经是一个非常成熟的技术了，今天我们先来体验一下微软Azure云的语音合成API。

对于Azure不熟悉的，也可以选择科大讯飞，阿里云，百度，AWS。

注册Azure账号和申请API KEY就此略过，直接上代码。

同样，为了节省资源以及数据安全问题，我们也可以选择本地部署语音合成模型。

我们在这里，就不妨试一下百度开源的PaddleSpeech的语音合成功能，看看效果怎么样。

我们还是要先安装PaddleSpeech相关的Python包。

然后通过PaddleSpeech自带的TTSExecutor，可以将对应的文本内容转换成WAV文件。需要注意，这个过程中，PaddleSpeech 需要下载对应的模型，所以第一次运行的时候也要花费一定的时间。

总结：

今天，我们通过调用API或者本地部署模型的方式为机器人增加了语音合成，语音识别能力。

相关资讯

能听会说，ChatGPT开启新一轮AI助理竞赛

能听会说，ChatGPT开启新一轮AI助理竞赛为了鼓励消费者在日常生活中采用生成式人工智能，科技公司不仅竞相推出新的聊天机器人应用程序，而且还推出新功能。当地时间9月25日，ChatGPT

ChatGPT 人工智能

第一财经 2023-09-26

让机器人听懂“人话”！AI大模型引爆机器人革命

4月27日，阿里云在数字中国建设峰会上发布了千问大模型在工业机器人领域的应用。通过在钉钉对话框中输入自然语言指令，机器人可以识别周围环境，完成移动、抓取和配送等任务。这一技术突破传统编程控制机器人的方式，使机器人能够像人类一样与人进行直接交互。这项技术的问世标志着工业机器人将向更高级别的人机交互方向进发，这不仅可以让机器人更加灵活、高效地完成各种生产任务，也让人与机器间的通信变得更为便捷。据悉，在工业领域内，机器人能够与人类直接对话，是未来十年最重要的机会之一。如果说此前，工业机器人只能按照预先规划好的任

AI大模型编程

科脑机器人 2023-04-28

OpenAI、谷歌“掰手腕” 大模型给人工智能装上“眼睛耳朵嘴巴”

央广网北京5月15日消息（记者牛谷月）北京时间15日凌晨1点，谷歌召开年度I/O开发者大会。根据谷歌官方统计，在这场110分钟演讲中，谷歌CEO桑达尔·皮查伊（SundarPichai）提及AI的次数高达121次，同时推出了一系列以AI为核心的产品和服务。Google新发布的“AI全家桶”，更被视作是对GPT-4o的回击和“叫板”。

OpenAI 谷歌人工智能

央广网 2024-05-15

ChatGPT自制能看会说机器人

ChatGPT

量子位 2023-12-18

OpenAI开发了插件，让插件成为语言模型的'眼睛和耳朵'

OpenAI推出了ChatGPT插件，使其语言模型在定制的商业信息中得以扩展，而非仅限于互联网训练数据。OpenAI不断强调其滚动部署旨在解决安全和对齐问题，尽管一些人认为大型语言模型是一种有毒的构造，其必须受到限制。为了解决此类问题，OpenAI开发了插件，让“插件成为语言模型的'眼睛和耳朵'，让它们可以访问不符合训练数据的更新、个性化或具体信息，这些信息可能包含有用的指示，但实际上还需要另一种过程来实际上执行这些指示。插件可以启用语言模型代表用户执行安全、受限的操作，提高整个系统的实用性。”插件为人们

OpenAI ChatGPT

meiwanlanjun 2023-03-27

12.大模型让机器人聪明，我再给它加个嘴巴和耳朵，让它能听会说

推荐体验

相关资讯

能听会说，ChatGPT开启新一轮AI助理竞赛

让机器人听懂“人话”！AI大模型引爆机器人革命

OpenAI、谷歌“掰手腕” 大模型给人工智能装上“眼睛耳朵嘴巴”

ChatGPT自制能看会说机器人

OpenAI开发了插件，让插件成为语言模型的'眼睛和耳朵'

近期资讯

从前端到Android：揭秘Fragment与Activity的生命周期

一个Kotlin版Demo带你入门JNI,NDK编程

深入理解JDK设计模式，让你的Java开发更高效

vue 实现多个关键词高亮显示功能

Linux内核"bug"导致Android无法获取meminfo的问题定位

【Flutter入门】1. 从零开始的flutter跨平台开发之旅（概述、环境搭建、第一个Flutter应用）

模仿 SU7 网页特效实现3D旋转地球

Flutter Warning: SDK processing. This version only understands SDK XML versions

雪花算法 Snowflake 原理与 Java 实现

js中的事件流

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响