当前位置:首页|资讯|OpenAI

OpenAI春季发布会来袭!新模型GPT-4o音频响应速度媲美人类

作者:HawkInsight发布时间:2024-05-14

当地时间周一,OpenAI的春季发布会如期拉开序幕。正如外界所预料,OpenAI又带来新的“王炸”产品。

GPT-4o惊艳亮相

此次发布会的重点就是推出OpenAI的新旗舰模型GPT-4o。

据OpenAI的介绍,GPT-4o里面的“o”代表“omni”,OpenAI将其称为“是迈向更自然的人机交互的一步”。GPT-4o可以接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。

其中,最让人惊艳的是,GPT-4o可以在短短的232毫秒的时间内对输入的音频作出响应,平均为320毫秒,这个响应速度已经接近人类的响应时间!

此前,用户也可以用语音模式与ChatGPT对话,但由于GPT-3.5和GPT-4支持的 ChatGPT是通过将音频转为文字并输出文字答复,再将文字答复转为答复音频,这样一通操作下来,不仅平均延迟时间较长(GPT-3.5需要2.8秒, GPT-4需要5.4秒),而且也会漏掉一些信息。比如,之前模型就无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。

而最新推出的GPT-4o就解决了上述问题,所有输入和输出都由同一神经网络处理。

我们也可以从一些指标看到GPT-4o的音频处理能力有多出色。

据传统基准测试中,与Whisper-v3相比,GPT-4o在音频ASR性能方面显著提高了所有语言的语音识别性能,尤其是资源较少的语言。Whisper-v3是去年OpenAI推出的语音识别模型。

在音频翻译性能测试方面,GPT-4o为语音翻译树立了新的标杆,在MLS基准测试中优于Whisper-v3。

除了在音频上处理更为出色,GPT-4o在英语文本和代码上的性能与 GPT-4 Turbo 的性能相近,在非英语文本上的性能显着提高。

在文本评价方面,GPT-4o几乎碾压包括Claude 3 Opus、Gemini Pro 1.5、Llama 3 400B在内的一众热门模型。

在视觉理解评估方面,GPT-4o也取得了领先的性能。

在介绍GPT-4o的新闻稿中,OpenAI还强调了模型安全性。公司表示,GPT-4o通过过滤训练数据和通过训练后细化模型行为等技术,在跨模式设计中内置了安全性。OpenAI还创建了新的安全系统,为语音输出提供防护。

在接下来的数周里,OpenAI将致力于技术基础设施、培训后的可用性以及发布其他模式所需的安全性。

在介绍完GPT-4o之后,OpenAI还扔出一个重磅消息——GPT-4o的文本和图像功能将在发布会当天开始在ChatGPT中免费推出!这意味着,不管是免费用户还是付费用户,都可以尝鲜。此举也让OpenAI这个公司名变得名副其实了起来。

不过,OpenAI提到,免费用户会有使用限制,当达到限制时,ChatGPT将自动切换到GPT-3.5。Plus用户的消息限制将比免费用户高出5倍,而团队和企业用户的限制会更高。

开发人员现在还可以在API中访问GPT-4o作为文本和视觉模型。与GPT-4 Turbo相比,GPT-4o速度提高2倍,价格降低一半,速率限制提高5倍。OpenAI称,计划在未来几周内在API中向一小部分值得信赖的合作伙伴推出对GPT-4o新音频和视频功能的支持。

为ChatGPT免费用户提供更多工具

在此次春季发布会上,OpenAI还宣布将向ChatGPT免费用户推出更多智能且先进的工具。

据介绍,使用GPT-4o时,ChatGPT免费用户现在可以访问以下功能:获得GPT-4级的智能体验;从模型和网络获取响应;分析数据并创建图表;聊天讨论你拍摄的照片;上传文件以协助总结、撰写或分析;发现并使用GPT和GPT Store;使用Memory打造更有帮助的体验。

此外,对于所有用户,OpenAI还推出了适用于macOS的新ChatGPT桌面应用程序,该应用程序旨在无缝集成到计算机上执行的任何操作。通过简单的键盘快捷键(Option + Space),用户可以立即向ChatGPT提问。用户还可以直接在应用程序中截图并进行讨论。

Play Video

用户也可以直接在计算机上与ChatGPT进行语音对话,只需要点击桌面应用程序右下角的耳机图标就可以开始。

ChatGPT桌面应用程序将率先向Plus用户开放,并将在未来几周内大规模铺开。而该应用程序的Windows版本,可能要到今年晚些时候才会推出。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1