微软宣布 GPT-4o-Realtime-Preview 音频和语音公开预览版的推出,这是对Microsoft Azure OpenAI 服务的重大增强,增加了高级语音功能并扩展了 GPT-4o 的多模式产品。
参考链接:https://azureopenai.cloudallonline.com/?zxwsh163
微软 Azure OpenAI 申请
这一里程碑进一步巩固了 Azure 在人工智能领域的领导地位,尤其是在语音技术领域。Azure 在这一领域的传统通过其语音服务长期确立,该服务集成了语音转文本、文本转语音、神经语音和实时翻译功能,涵盖 Teams、Office 365 和 Edge 等核心 Microsoft 产品。
现在,GPT-4o-Realtime-Preview 通过将语言生成与无缝语音交互相结合,进一步突破了界限,为开发人员提供了打造更自然、对话式 AI 体验所需的工具。从创建虚拟助手到提供实时客户支持,这种新模式为语音驱动的应用程序开辟了广泛的可能性。作为新发布的 Copilot Voice 产品的一部分,新模型还与 Copilot 集成。
最新的 Azure OpenAI 服务公告
此次公告延续了 Azure OpenAI 服务的一系列重要更新,包括:
这种持续的演进表明了 Azure 致力于为全球客户提供最全面、最安全、最通用的 AI 工具。
GPT-4o-Realtime-Preview 有什么新功能?
GPT-4o-Realtime API:随着此版本的发布,GPT-4o 不断发展,支持音频输入和输出,实现超越传统基于文本的 AI 对话的实时、自然的语音交互。这种多模式功能使开发人员能够轻松构建创新的语音应用程序。
Azure AI Studio 早期访问游乐场:对于渴望探索的开发人员,这个专用空间允许对 GPT-4o-Realtime API 的音频功能进行早期试验。该工作室提供了一个环境来测试、微调和优化语音交互,然后再将其投入生产环境。
超强性能
早期使用 GPT-4o-Realtime API for Audio 的客户分享了显著的成果,证实了其性能和影响:
GPT-4o-Realtime-Preview 在 Azure OpenAI 服务中的应用
GPT-4o-Realtime-Preview 的潜力遍及各个行业,改变了企业的运营方式和用户与技术的互动方式:
用例推动创新
GPT-4o-Realtime-Preview 的多功能性已经改变了各个领域的运营。以下是一些早期采用者以及他们如何从这项技术中受益:
“AOAI 是我们 HeyBosch – 虚拟销售主管解决方案的理想界面,因为它是对话优先的解决方案。我们可以轻松地将 AOAI 集成到我们现有的解决方案中 – 感谢提供参考样本。虚拟代理的响应时间已大大改善,因为我们现在拥有一个结合两者(语音和 LLM)的单一界面。这有助于将延迟保持在最低限度。这种集成展示了结合 GenAI、3D 技术和实时语音处理功能创造引人注目的用户体验的可能性。”
— Vamsidhar Sunkari 博世全球软件技术私人有限公司高级专家
“ Lyrebird Health 很高兴将音频功能引入医患关系。新的 GPT-4o 实时预览模型将使我们能够为客户和最终用户试验和推出新的体验。这将帮助我们实现提供全球最佳人力技术的使命。”
—Lyrebird Health 联合创始人兼首席执行官 Kai Van Lieshout
微软对值得信赖的人工智能的承诺
Azure 始终坚定不移地致力于负责任的 AI,并将安全和隐私作为默认优先事项。Realtime API 采用多层安全措施,包括自动监控和人工审核,以防止滥用。
在微软致力于负责任的 AI 的指导下,Realtime API 经过了严格的评估。
Azure OpenAI 服务提供内置的内容安全功能(无需额外费用),Azure AI Studio 提供工具来评估 AI 应用程序的安全性,确保安全且负责任的 AI 体验。
GPT-4o-Realtime API 的下一步是什么?
随着微软不断创新和扩展 GPT-4o-Realtime API 的音频功能,微软很高兴看到开发人员和企业将如何利用这项尖端技术来创建语音驱动的应用程序,突破可能的界限。
无论您是想将语音功能集成到客户服务运营中,还是探索多语言交互的可能性,GPT-4o-Realtime API for Audio 都能提供灵活性和强大功能来转变您的 AI 解决方案。从今天开始,您可以在Azure OpenAI Studio中探索这些新功能,在 Early Access Playground 中试用它们,或者直接将公共预览版中的实时 API 集成到您的应用程序中。