7月31日,OpenAI 宣布部分 ChatGPT Plus 用户将即日起开始测试全新的 GPT-4o 语音模式(Alpha 版本),并计划在今年秋季逐步推广至所有 ChatGPT Plus 订阅用户。
今年 5 月,OpenAI 首席技术官米拉・穆拉蒂(Mira Murati)在一次演讲中介绍了 GPT-4o 的创新之处。她表示:“在 GPT-4o 中,我们训练了一个全新的跨文本、视觉和音频的端到端统一模型,这意味着所有输入和输出都由同一个神经网络处理。”由于 GPT-4o 是首个结合所有这些模式的模型,OpenAI 目前仍在探索该模型的功能及其局限性。
原计划在今年 6 月底邀请一小部分 ChatGPT Plus 用户测试 GPT-4o 语音模式,但由于需要更多时间来打磨该模型,提高其检测和拒绝某些内容的能力,官方在 6 月宣布推迟测试。此前曝光的信息显示,GPT-3.5 模型的平均语音反馈延迟为 2.8 秒,而 GPT-4 模型的延迟为 5.4 秒,因此在语音交流方面不太优秀。即将推出的 GPT-4o 则可以极大地缩短延迟时间,近乎实现无缝对话。
据铋读网了解,GPT-4o 语音模式不仅反应快速,其声音更是堪比真人。OpenAI 表示,GPT-4o 语音模式可以感知语音中的情感语调,包括悲伤、兴奋或歌唱。
OpenAI 发言人林赛・麦卡勒姆(Lindsay McCallum)表示:“ChatGPT 不能假冒他人的声音,包括个人和公众人物的声音,并且会阻止与预设声音不同的输出。”
随着 GPT-4o 语音模式的逐步推广,用户将能够体验到更加自然和流畅的语音交流。这不仅是技术上的突破,也为未来的人机互动设立了新的标准。OpenAI 在不断探索和提升的道路上,致力于为用户带来更优质的体验。
OpenAI 的这一最新进展,预示着人工智能技术在语音交互领域的又一次飞跃。我们期待着在不久的将来,更多用户能够体验到 GPT-4o 带来的全新语音互动体验。