自打 OpenAI 发布会以来,GPT-4o 模型虽早已被整合到 ChatGPT 里,但备受关注的语音交互却迟迟不见身影。
当时,OpenAI CEO Sam Altman 还在 X 上解释称:
新的语音模式尚未发布(尽管 GPT-4o 的文本模式已经上线)。目前您在应用程序中可以使用的仍是旧版本。不过,新的语音模式绝对值得等待!
正当用户的耐心即将触底时,在法国巴黎最近举行的 Viva Tech 活动上,OpenAI 的开发者体验负责人 Romain Huet 再次向我们展示了一些关于 GPT-4o Mac 版本的功能。
和发布会上演示的功能相类似,视频中的 GPT-4o 确实能够变换不同语音,每一次发声都仿佛真人般的交流。
当团队成员让它充当翻译,将英文翻译成法语,法语翻译成英语时,对话游刃有余,美中不足的是,这法语怎么听都像带着一丝美国口音的腔调?
翻译视频来自@dotey
又或者给 GPT-4o 展示一幅简约勾勒的埃菲尔铁塔与凯旋门的草图,它能精准识别出这些地标性建筑并根据要求规划出前往目的地的路径。
不过这里也抛出一个疑问:倘若不是地标性的建筑,而是一些街角小店,GPT-4o 是否还能识别出草图上的位置,并找出相应的路线呢。
有趣的是,GPT-4o 与 Sora 在演示过程中还来了波梦幻联动。
Huet 精心录制了一段音频,发送给 ChatGPT,然后它就能基于语音功能,用 Sora 生成一段配套视频。
翻译视频来自@dotey
在这个过程中,ChatGPT 还支持选用不同语言的语音,并且保留了原始声音的音色,与此同时,精准同步生成的字幕也进一步提升了观看体验。
据外媒 Tom's Guides 报道,Huet 在演示期间还透露了一张幻灯片,微妙地暗示了下一代 GPT 模型的名称 。
幻灯片显示了 GPT-3、GPT-4 和「今天」以及 GPT-Next 等名称,没有如预期般出现 GPT-5。Tomguides 认为,这表明 OpenAI 下一代模型的命名大概率舍弃了 GPT-5 的命名。
实际上,这也与 OpenAI CEO Sam Altman 最近采访的言论的不谋而合。
他在访谈中透露「实际上还没决定是否将它的名字定为 GPT-5」,并暗示未来可能会偏离 GPT N+1 的递增模式,转而采取持续迭代和优化的策略。
另外,报道称,Huet 还暗示在未来几个月和几年内,我们将看到更多不同尺寸的 OpenAI 模型,而不再是一个适用于所有产品的模型。
这样的好处是显而易见的,小模型节省资源、适配性强,适合移动设备和快速部署;大模型虽消耗资源多,但能处理更复杂任务,提供更高精度和泛化能力。
从 Huet 分享的幻灯片中,我们可以看到在今年年底将会看到一个代号为 GPT-Next 的模型,Tom's Guides 怀疑这实际上可能是 Omni-2——一个更精细、更好训练和更大的 GPT-4o 版本。
图表显示,这将是对现有技术的显著但非突破性的改进——未来几年将有更多更好的技术到来。
包括最近微软发布会上的幻灯片也疑似埋下了一个小彩蛋。
报道称,为配合国际人工智能首尔峰会的发布,OpenAI 表示将花更多时间评估新模型的能力,这也可能解释了尚未公开发布日期的原因。
眼尖网友化身列文虎克,下一次大版本更新疑似在 11 月
作为 AI 领域的一次质的飞跃,GPT-4o 实现了从纯文本推理到涵盖文本、图像及视频的综合理解能力的跨越。
因此,比起 GPT-5 的到来,我们现阶段更希望的是,要不 OpenAI 还是别藏着掖着了,赶紧推送 GPT-4o 的语音模型吧。