OpenAI春季发布会来袭！新模型GPT-4o音频响应速度媲美人类

作者：HawkInsight发布时间：2024-05-14

当地时间周一，OpenAI的春季发布会如期拉开序幕。正如外界所预料，OpenAI又带来新的“王炸”产品。

GPT-4o惊艳亮相

此次发布会的重点就是推出OpenAI的新旗舰模型GPT-4o。

据OpenAI的介绍，GPT-4o里面的“o”代表“omni”，OpenAI将其称为“是迈向更自然的人机交互的一步”。GPT-4o可以接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出。

其中，最让人惊艳的是，GPT-4o可以在短短的232毫秒的时间内对输入的音频作出响应，平均为320毫秒，这个响应速度已经接近人类的响应时间！

此前，用户也可以用语音模式与ChatGPT对话，但由于GPT-3.5和GPT-4支持的 ChatGPT是通过将音频转为文字并输出文字答复，再将文字答复转为答复音频，这样一通操作下来，不仅平均延迟时间较长（GPT-3.5需要2.8秒， GPT-4需要5.4秒），而且也会漏掉一些信息。比如，之前模型就无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。

而最新推出的GPT-4o就解决了上述问题，所有输入和输出都由同一神经网络处理。

我们也可以从一些指标看到GPT-4o的音频处理能力有多出色。

据传统基准测试中，与Whisper-v3相比，GPT-4o在音频ASR性能方面显著提高了所有语言的语音识别性能，尤其是资源较少的语言。Whisper-v3是去年OpenAI推出的语音识别模型。

在音频翻译性能测试方面，GPT-4o为语音翻译树立了新的标杆，在MLS基准测试中优于Whisper-v3。

除了在音频上处理更为出色，GPT-4o在英语文本和代码上的性能与 GPT-4 Turbo 的性能相近，在非英语文本上的性能显着提高。

在文本评价方面，GPT-4o几乎碾压包括Claude 3 Opus、Gemini Pro 1.5、Llama 3 400B在内的一众热门模型。

在视觉理解评估方面，GPT-4o也取得了领先的性能。

在介绍GPT-4o的新闻稿中，OpenAI还强调了模型安全性。公司表示，GPT-4o通过过滤训练数据和通过训练后细化模型行为等技术，在跨模式设计中内置了安全性。OpenAI还创建了新的安全系统，为语音输出提供防护。

在接下来的数周里，OpenAI将致力于技术基础设施、培训后的可用性以及发布其他模式所需的安全性。

在介绍完GPT-4o之后，OpenAI还扔出一个重磅消息——GPT-4o的文本和图像功能将在发布会当天开始在ChatGPT中免费推出！这意味着，不管是免费用户还是付费用户，都可以尝鲜。此举也让OpenAI这个公司名变得名副其实了起来。

不过，OpenAI提到，免费用户会有使用限制，当达到限制时，ChatGPT将自动切换到GPT-3.5。Plus用户的消息限制将比免费用户高出5倍，而团队和企业用户的限制会更高。

开发人员现在还可以在API中访问GPT-4o作为文本和视觉模型。与GPT-4 Turbo相比，GPT-4o速度提高2倍，价格降低一半，速率限制提高5倍。OpenAI称，计划在未来几周内在API中向一小部分值得信赖的合作伙伴推出对GPT-4o新音频和视频功能的支持。