ChatGPT大家很熟悉,引起人工智能热潮的生成式人工智能。 刚开始版本主要以文字作为交互方式,到4.0版本时候已经初具多模态能力,到4.0 Turbo版本多模态功能已经较为成熟并开放大众使用。 也就是识图图文对话、文档分析和语音对话。 语音对话功能最基本,应该是语音输入以及语音输出,所以会涉及OPENAI另外两个模型:TTS和whisper。 whisper,英语翻译“耳语”,是作为语音输入模型; TTS,TEXT TO SPEECH,是作为语音输出模型。 [图片] 过往的语音对话功能虽然不常见,但技术...【查看原文】