当地时间5月13日,OpenAI发布了GPT4o。这一发布仅提前48小时声明,发布时长也只持续26分钟,但效果拔群。
根据OpenAI官网介绍,此次发布的GPT4o,其中“o”指代“Omni”,是一个拉丁词根,意为“所有的”“全部的”或“全能”。而GPT4o也确实不负其名:在发布过程中展现了接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出的能力。
根据OpenAI官网的介绍,GPT4o可以在232毫秒内响应音频输入,平均为320毫秒,与人类在对话中的响应时间相似。在此之前,如果用户使用语音模式与ChatGPT通话,有平均为2.8秒(GPT-3.5)和5.4秒(GPT-4)的延迟。这是由于GPT-3.5和GPT-4使用的是三模型组合管道——先使用简单模型将音频转录为文本,GPT-3.5或GPT-4接收后输出文本,再将其转换回音频。这意味着在过程中GPT-4会丢失大量信息——它不能直接观察音调、多个说话者或背景噪音,也不能输出笑声、歌声或表达情感。
至于GPT4o,OpenAI专门为其训练了一个跨文本、视觉和音频的端到端的新模型,这意味着所有输入和输出都由同一个神经网络处理。因为GPT4o是OpenAI第一个结合这些模式的模型,OpenAI表示,他们仍在探索模型的功能及其局限性。
然而,即便如此,GPT4o展现出的功能已经十分强大。在OpenAI的发布直播中,OpenAI总裁Brockman现场演示,GPT4o可以识别出Brockman所穿的衣服、身处的环境,甚至通过他周围的灯光布置推断出他可能正在进行视频直播。
更令人惊讶的是,GPT4o在与Brockman对话时,可以识别出Brockman的情绪和语气,而其回复相比GPT3.5和GPT4,也更加活泼和生动。
在演示中,Brockman让两个GPT互相对话,新版GPT4o向旧版GPT描述了Brockman的衣着打扮和房间环境。在谈话过程期间有一名女性加入,在Brockman身后比出搞怪的手势,这也被GPT4o发觉并表述出来。在对话最后,Brockman还指挥GPT4o和GPT根据此前聊天的内容对唱。
此外,GPT4o在英文文本和代码上的性能与此前发布的GPT-4 Turbo相当,在非英文文本上有则有显著改善。此外,GPT4o在API上也快得多,要价还比GPT-4 Turbo便宜50%。
这意味着GPT4o可以更便宜的价格,更高效地接入其他的应用中。在OpenAI的演示中,他们就邀请了可汗学院创始人和他的儿子试用了其延展的教育功能:视频中,GPT4o直接读出了孩子手中ipad上的题目,并根据家长的指示帮助辅导儿童,和双方进行语音实时互动。
除了辅导作业外,GPT4o更像一个全方面的AI助理,它还能在视频会议中帮用户录音、做会议纪要、会议总结;渲染合成3D物品;实时进行多语言翻译等等。OpenAI还释出重磅消息:除了GPT4o外,ChatGPT Plus也将免费向大众开放,包括视觉、联网、记忆、执行代码、GPT Store等多种功能。
采写:南都记者 胡耕硕