释放 OpenAI 和 ESP-BOX 的力量：ChatGPT 与乐鑫 SoC 融合指南

作者：乐鑫信息科技发布时间：2023-06-13

当前，我们正见证着一场技术革命，而 OpenAI 正处于这场变革的最前沿。其中最激动人心的创新之一就是ChatGPT，它运用自然语言处理的力量，打造出更加引人入胜、直观的用户体验。而将 OpenAI 的 API 与物联网设备相结合，更是为我们打开了无限可能。

本文将探索 ChatGPT 与 ESP-BOX 的潜力，这对强大的组合可以将物联网设备提升到一个新的水平。

本文主要分为三个部分，分别介绍本项目的关键内容：

第一部分将详细介绍 ESP-BOX，阐述其功能和特点。
第二部分为案例研究，描述如何从零开始一步步构建项目。
最后一部分为总结，提供了相关资料的来源，便于您巩固和加深对本项目的了解和理解。（文末链接）

ESP-BOX 简介

ESP-BOX 是新一代 AIoT 开发平台，包含 ESP32-S3-BOX 和 ESP32-S3-BOX-Lite 开发板，二者搭载 ESP32-S3 Wi-Fi + Bluetooth 5 (LE) SoC，为开发集成各种传感器、控制器和网关的 AIoT 应用提供了灵活可定制的解决方案。

ESP-BOX 拥有丰富的功能，使其成为理想的 AIoT 开发平台。接下来将为您介绍其中一些关键功能：

1. 双麦克风远场语音互动

ESP-BOX 支持双麦克风远场语音互动，实现与设备远距离互动。

2. 离线中英文语音指令识别，识别率高

ESP-BOX 提供离线的中英文语音指令识别，具有高识别率，可轻松开发支持语音的设备。

3. 200+ 中英文语音指令可重新配置

开发人员可根据需求轻松配置 200 多个中英文语音指令。

4. 持续识别和唤醒中断

ESP-BOX 支持持续识别和唤醒中断，确保设备始终做好接收语音指令的准备。

5. 灵活可复用的 GUI 框架

ESP-BOX 配备灵活可复用的 GUI 框架，让开发人员可以为应用程序创建个性化的用户界面。

6. 端到端的 AIoT 开发框架 ESP-RainMaker

ESP-BOX 基于端到端的AIoT 开发框架 ESP-RainMaker，为开发人员提供创建强大智能设备所需的工具。

7. 兼容 Pmod™ 接口，支持外设模块扩展

ESP-BOX 具备兼容 Pmod™ 的接口，可轻松扩展设备功能，与各种外设模块互动无障碍。

案例研究

本案例使用 ESP-BOX 和 OpenAI API 开发一款语音控制的聊天机器人 (chatbot)。

介绍

本案例将介绍如何使用 ESP-BOX 和 OpenAI API 开发一款语音控制的聊天机器人。该系统可以接收用户的语音指令，将其展示在屏幕上，并调用 OpenAI API 进行处理，生成相应的回复。回复将显示在 ESP-BOX 屏幕上，然后播放出来。我们将按照下文中的开发流程，逐步深入了解如何巧妙地融合这些技术，打造出高效的语音控制聊天机器人。

环境设置

为了避免错误，需设置合适的环境并安装正确的软件版本。

ESP-IDF

在本示例中，我们将使用 ESP-IDF 5.0 版本（主分支）。如果你需要关于如何设置 ESP-IDF 的指导，请参考官方《ESP-IDF 编程指南》了解更多信息。

*截至撰写本文时，IDF 提交头为 df9310ada2。

ChatGPT API

ChatGPT 是一个基于 GPT-3.5 架构的强大语言模型，要使用 ChatGPT，请先前往 OpenAI 平台上创建账户，获取免费或付费的 API 密钥。通过 API 密钥，可获取很多功能和能力，例如自然语言处理与生成、文本补全以及对话建模等，还可根据自己的需求定义这些功能。更多信息请访问官方 API 参考。

*请务必保障 API 密钥的机密性和安全性，防止未经授权访问您的账户和数据。

赋能离线语音识别

乐鑫开发的创新性语音识别框架 ESP-SR 能够使设备在不依赖外部云服务的情况下识别口语词汇和短语，因此非常适合离线语音识别应用。

ESP-SR 框架包含多个模块，包括音频前端 (AFE)、唤醒词引擎 (WakeNet)、语音指令词识别 (MultiNet) 和语音合成（目前仅支持中文）。请查阅 ESP-SR 官方文档获取更多信息。

集成 OpenAI API

OpenAI API 提供了许多功能，开发人员可以利用这些功能来增强他们的应用程序。我们的项目使用了音频转文本 API 和补全 API，以及基于 ESP-IDF 的 C 语言代码。下文简要介绍我们所使用的代码。

音频转文本

我们使用 HTTPS 和 OpenAI 音频 API 从音频中提取文本，以下为实现代码。

这段代码是一个名为 whisper_from_record 的函数，它接受一个指向包含音频数据的缓冲区的指针和一个表示音频数据长度的整数 audio_len。该函数向 OpenAI API 端点发送一个 POST 请求，对给定的音频数据进行转录。

该函数首先初始化 OpenAI API 的 URL，并使用持有者令牌 (bearer token) 的OPENAI_API_KEY 设置授权头。然后，配置并初始化 HTTP 客户端，包括配置 URL、HTTP 方法、事件处理程序、缓冲区大小、超时和 SSL 证书等。

接下来，将内容类型 (content type) 和多部分表单数据 (multipart/form_data) 请求的边界字符串设置为 HTTP 客户端的头部，还设置了文件数据和文件大小，并构建了一个多部分表单数据请求。使用 malloc() 函数分配 form_data 缓冲区，并添加必要的信息，包括音频文件的文件名、内容类型、文件内容以及将用于转录的模型名称。

一旦构建了 form_data，它就被设置为 HTTP 客户端的 POST 字段，并且客户端将 POST 请求发送到 OpenAI API 端点。如果请求过程中出现错误，该函数会记录错误消息。最后，清理 HTTP 客户端，并释放为 form_data 分配的资源。

该函数返回一个 esp_err_t 错误代码，指示 HTTP 请求是否成功。

聊天补全

我们使用 OpenAI 聊天补全 (Chat Completion) API 发送 HTTPS 请求来进行聊天补全。这个过程使用 create_chatgpt_request 函数，该函数接受一个表示输入文本的 content 参数，并将参数内容输入 GPT-3.5 模型。

该函数首先设置了用于 HTTP POST 请求的 URL、模型和头部信息，然后创建一个包含模型、最大 token 数和内容的 JSON 负载。

接下来，函数设置了 HTTP 请求的头部信息，并将 JSON 负载设置为请求的 POST 字段。

使用 esp_http_client_perform() 发送 HTTP POST 请求，如果请求失败，将记录错误消息。

最后，清理 HTTP 客户端并返回错误代码。

处理响应

ESP-IDF HTTP 客户端库使用回调函数 response_handler 来处理在 HTTP 请求/响应交换过程中发生的事件。

在 HTTP_EVENT_ON_DATA 事件发生时，该函数为接收到的数据分配内存空间，将数据复制到缓冲区，并相应地增加 data_len 变量的值。这样做是为了累积响应数据。

在 HTTP_EVENT_ON_FINISH 事件发生时，该函数打印一条消息，指示 HTTP 交换已完成，然后调用 parsing_data 函数来处理累积的原始数据，释放内存并将数据和 data_len 变量重置为零，释放分配的内存并将缓冲区及其长度重置为零。

最后，该函数返回 ESP_OK，表示操作成功。

解析原始数据

我们使用 JSON 解析器组件解析从 ChatGPT API 和 Whisper AI API 获取的 HTTPS 原始响应。为了完成这个任务，我们使用一个调用解析器组件的函数。有关该工具的更多细节，请参考 GitHub。

集成 TTS API

目前，OpenAI 并未公开提供其文本转语音 (TTS) API 的访问权限。然而，市面上有多种其他的 TTS API 可供选择，包括 Voicerss、TTSmaker 和会话精灵 (TalkingGenie)。这些 API 可以根据文本输入生成语音，你可以在它们的网站上找到更多相关信息。

本教程使用的是 TalkingGenie API，它是目前可用的最佳选择之一，可以生成高质量、自然流畅的英文和中文语音。TalkingGenie 的一个特点是它能够无缝地将混合语言文本（如中文和英文）转化为语音。这对于面向全球受众的内容创作来说是一个宝贵的工具。下面的代码将 ChatGPT 生成的文本响应发送给 TalkingGenie API，然后通过 ESP-BOX 播放生成的语音。

函数 text_to_speech 接受一个消息字符串和 AUDIO_CODECS_FORMAT 参数作为输入。消息字符串是将被合成为语音的文本，而 AUDIO_CODECS_FORMAT 参数指定语音应该以 MP3 还是 WAV 格式进行编码。

该函数首先使用 url_encode 函数对消息字符串进行编码，将一些非有效字符替换为相应的 ASCII 代码，然后将该代码转换为两位十六进制格式。接下来为生成的编码字符串分配内存，检查 AUDIO_CODECS_FORMAT 参数，并设置适当的编解码器格式字符串，用于 url。

然后，函数确定 TalkingGenie API 的 GET 请求需要多大的 url 缓冲区，并分配相应的内存给 url 缓冲区。然后，将适当的参数写入 url 字符串，包括 voiceId（指定要使用的语音）、编码的文本、语音的速度和音量以及音频类型 (MP3 或 WAV)。

接下来，函数使用 url 和其他配置参数设置 esp_http_client_config_t 结构体，并使用该结构体初始化 esp_http_client_handle_t，然后使用 esp_http_client_perform 向 TalkingGenie API 发送 GET 请求。如果请求成功，函数返回 ESP_OK，否则返回错误代码。

最后，函数释放为 url 缓冲区和编码消息分配的内存，清理 esp_http_client_handle_t，并返回错误代码。

处理 TTS 响应

类似地，回调函数 http_event_handler 可用于处理在 HTTP 请求/响应交换过程中发生的事件。

HTTP_EVENT_ON_DATA 事件用于处理从服务器接收到的音频数据。音频数据存储在名为 record_audio_buffer 的缓冲区中，接收到的音频数据的总长度存储在名为 file_total_len 的变量中。如果接收到的音频数据的总长度小于预定义的 MAX_FILE_SIZE，则将数据复制到 record_audio_buffer 中。

最后，HTTP_EVENT_ON_FINISH 事件用于处理 HTTP 响应的结束。在这种情况下，将 record_audio_buffer 传递给名为 audio_player_play 的函数，用于播放音频。

显示

我们使用 LVGL 实现显示功能。LVGL 是一个开源的嵌入式图形库，因其强大且具有视觉吸引力的特性和低内存占用而日益受到欢迎。LVGL 还发布了一个名为 SquareLine Studio 的可视化拖放式 UI 编辑器。这是一个强大的工具，可帮助你轻松为应用程序创建美观的图形界面。

您可以使用乐鑫提供的官方软件包管理工具将 LVGL 集成到项目中，该工具可直接将 LVGL 和相关的移植组件添加到项目中，极大程度地节省了时间和精力。有关更多信息，请参阅官方博客和文档。

总结

OpenAI 的 ChatGPT 与乐鑫的 ESP-BOX 的完美融合，为创造强大而智能的物联网设备开创了新可能。ESP-BOX 提供灵活且可定制的 AIoT 开发平台，拥有远场语音交互、离线语音命令识别和可复用的 GUI 框架等功能。当这些功能与 OpenAI API 相结合时，开发者们即可打造语音控制的聊天机器人，提升物联网应用的用户体验。

您可以查看乐鑫 GitHub 仓库，获取更多有关 ESP-IoT-Solution、ESP-SR 和 ESP-BOX 的开源案例。在 ESP-BOX 仓库的 examples 文件夹找到该项目的源代码。未来，我们计划引入一个用于 OpenAI API 的组件，以便为用户提供更多功能。

相关资源

ESP-BOX
https://github.com/espressif/esp-box
ESP32-S3
https://products.espressif.com/#/product-selector?names=&filter=%7B%22Series%22%3A%5B%22ESP32-S3%22%5D%7D
《ESP-IDF 编程指南》
https://docs.espressif.com/projects/esp-idf/zh_CN/release-v5.0/esp32/index.html
OpenAI 平台
https://openai.com/
OpenAI API 参考
https://platform.openai.com/docs/api-reference/introduction
ESP-SR
https://github.com/espressif/esp-sr
ESP-SR 用户指南
https://docs.espressif.com/projects/esp-sr/zh_CN/latest/esp32/index.html
JSON 解析器组件
https://components.espressif.com/components/espressif/json_parser
JSON Parser Github
https://github.com/espressif/json_parser
Voicerss
https://voicerss.org/api/
TTSmaker 和会话精灵 (TalkingGenie)
https://www.talkinggenie.com/tts
SquareLine Studio
https://squareline.io/
乐鑫官方软件包管理工 (LVGL)
https://components.espressif.com/components/lvgl/lvgl
LVGL 相关博客
https://blog.espressif.com/making-the-fancy-user-interface-on-esp-has-never-been-easier-e44e79c0ae3
LVGL 官方文档
https://docs.lvgl.io/master/index.html
乐鑫 GitHub 仓库
https://github.com/orgs/espressif/repositories
ESP-IoT-Solution
https://github.com/espressif/esp-iot-solution
ESP-BOX
https://github.com/espressif/esp-box

近期资讯

怎么给图片加水印？10个工具保护图片防止被盗用，存档管理方便！

怎么给图片加水印？平时处理自己的图片素材时，是不是大部分小伙伴都会选择在图片的角落添加一个小水印？没错，这就是保护创作者合法权益的一种方式。看来大家对图片著作权的意识还是蛮重的。图片上传到一些平台时，平台也会提供了带水印上传的功能，大家可以对平台多了解一下，起码能节省掉给大量图片添加水印的时间。怎么给图片加水印但如果像小编一样，不喜欢平台上的水印效果，或者想要设计一些好看的水印，那么可以借助专业的图片加水印软件实现，简单几步就能批量搞定，本文整理了10个给图片加水印的方法，有需要的小伙伴可以继续往下阅读看

金舟软件 2024-11-19

ONET一站 2024-11-19

详细介绍几款门禁系统常常会用到的锁具

门禁电机锁(或称灵性锁，一般用在单元门)的设计有效结合了传统电控锁及磁力锁的优点，克服了电控锁噪音过大、磁力锁耗电等方面的不足而开发的新产品，电机锁与电控锁和磁力锁相比较，它的性能更加的完善、优点更加明显，可与楼宇对讲、门禁等智能化系统配套使用。深圳多奥电机锁采用先进的电路设计和模具冲压外壳，加厚的外壳高于同类产品20%以上的防冲撞力，我们的产品已远销到全球六十个国家或地区，且广泛应用于智能小区、智能大厦、学校、出租屋等场所，为全球用户提供方便、快捷、智能化的出入口管理锁具，受到了用户的广泛好评和青睐。

多奥科技 2024-11-19

如何批量新建文件夹？借助这六个方法，1分钟内建立100个文件夹！

如何批量新建文件夹？我们平时在电脑上处理文件时，经常会需要新建大量的文件夹，面对成百上千个需要分类存储的文件，手动一个个创建文件夹不仅耗时费力，还容易出错。那么大家都是如何批量新建文件夹的呢？如何批量新建文件夹本文整理了几个小技巧，可以批量新建文件夹，只需要简单几个步骤就能完成。下面，就让我们一起探索如何批量建文件夹的高效技巧，让文件管理变得井井有条，轻松自在！方法一、复制粘贴批量新建文件夹其实有小技巧的，唯一的难处就是文件名难处理。但是我们可以借助简单的方法批量重命名，操作很简单，具体操作如下：Step

金舟软件 2024-11-19

释放 OpenAI 和 ESP-BOX 的力量：ChatGPT 与乐鑫 SoC 融合指南

ESP-BOX 简介

案例研究

总结

相关资源

推荐体验

相关资讯

乐鑫ESP32-S3物联网数据处理，AI大模型设备方案，启明云端乐鑫代理商

乐鑫ESP32-S3芯片推动AI大模型数据通信应用，启明云端乐鑫代理商

乐鑫科技：公司ESP32-S3及ESP32-P4系列芯片均支持AI运算

使用OpenAI接口释放ChatGPT API 的力量

ChatGPT：释放会话AI的力量

近期资讯

怎么给图片加水印？10个工具保护图片防止被盗用，存档管理方便！

这个物料由于法律只批准了一家供应商，你该如何实现降本？（下）

未来工程的“游戏规则改变者” —— 福州土壤固化剂的崛起

呈现爆款潜质！吉利银河星舰7EM-i大规模发运预售价10.98万起

通讯简单测试—Modscan32使用简介

分享IDEA2024最新激活码、IDEA安装教程

基于SSM+Jsp的仓库管理系统(包含完整源码+万字文档+数据库)

【122】Everysize-测试不同分辨率下的网站显示效果

详细介绍几款门禁系统常常会用到的锁具

如何批量新建文件夹？借助这六个方法，1分钟内建立100个文件夹！

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响