雷递网 乐天 5月15日
在Google I/O开发者大会公布AI产品前夕,OpenAI发布新一代AI模型GPT-4o,并将推出PC桌面版ChatGPT。
GPT-4o是OpenAI的新旗舰模型,可以实时对音频、视觉和文本进行推理。今天在API和 ChatGPT中推出文本和图像输入,并在未来几周内推出语音和视频。
据介绍,GPT-4o中的“o”是Omni的缩写。OpenAI称,GPT-4o是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。它可以在短至232毫秒的时间内响应音频输入,平均为320毫秒,这与人类在对话中的响应时间(opens in a new window)相似。
GPT-4o在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,在非英语文本上的性能显著提高,同时API速度也更快,成本降低了 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。
在GPT-4o之前,用户可以使用语音模式与ChatGPT对话,平均延迟为2.8秒 (GPT-3.5) 和5.4秒 (GPT-4)。
为实现这一目标,语音模式是由三个独立模型组成的管道:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将该文本转换回音频。这个过程意味着主要智能来源GPT-4丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。
OpenAI称,借助GPT-4o,用户可以跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。
由于GPT-4o是OpenAI第一个结合所有这些模式的模型,因此我们仍然只是浅尝辄止地探索该模型的功能及其局限性。
根据传统基准测试,GPT-4o在文本、推理和编码智能方面实现了GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉功能上设置了新的高水位线。
OpenAI指出,GPT-4o 的文本和图像功能今天开始在 ChatGPT 中推出。 我们正在免费套餐中提供 GPT-4o,并向 Plus 用户提供高达 5 倍的消息限制。 我们将在未来几周内在 ChatGPT Plus 中推出新版语音模式GPT-4o 的alpha版。
据悉,GPT-4o已经可以实时会话语音,还可以进行多种语言的现场翻译,并像真人一样聊天。还可以根据用户需求,识别和模拟不同的情绪、语调进行输出。
GPT-4o还可以根据用户现场所写的数学算式,现场做出解答。
有评论称,这至少可以在一定程度上解放家长,因为以后可以让GPT-4o现场指导孩子如何做题。
———————————————
雷递由媒体人雷建平创办,若转载请写明来源。