Mac 版 GPT-4o 语音交互现场演示来了，与 Sora 梦幻联动，新模型更多细节曝光

作者：AppSo发布时间：2024-05-30

Sora ChatGPT

自打 OpenAI 发布会以来，GPT-4o 模型虽早已被整合到 ChatGPT 里，但备受关注的语音交互却迟迟不见身影。

当时，OpenAI CEO Sam Altman 还在 X 上解释称：

新的语音模式尚未发布（尽管 GPT-4o 的文本模式已经上线）。目前您在应用程序中可以使用的仍是旧版本。不过，新的语音模式绝对值得等待！

正当用户的耐心即将触底时，在法国巴黎最近举行的 Viva Tech 活动上，OpenAI 的开发者体验负责人 Romain Huet 再次向我们展示了一些关于 GPT-4o Mac 版本的功能。

和发布会上演示的功能相类似，视频中的 GPT-4o 确实能够变换不同语音，每一次发声都仿佛真人般的交流。

当团队成员让它充当翻译，将英文翻译成法语，法语翻译成英语时，对话游刃有余，美中不足的是，这法语怎么听都像带着一丝美国口音的腔调？

翻译视频来自@dotey

又或者给 GPT-4o 展示一幅简约勾勒的埃菲尔铁塔与凯旋门的草图，它能精准识别出这些地标性建筑并根据要求规划出前往目的地的路径。

不过这里也抛出一个疑问：倘若不是地标性的建筑，而是一些街角小店，GPT-4o 是否还能识别出草图上的位置，并找出相应的路线呢。

有趣的是，GPT-4o 与 Sora 在演示过程中还来了波梦幻联动。

Huet 精心录制了一段音频，发送给 ChatGPT，然后它就能基于语音功能，用 Sora 生成一段配套视频。

翻译视频来自@dotey

在这个过程中，ChatGPT 还支持选用不同语言的语音，并且保留了原始声音的音色，与此同时，精准同步生成的字幕也进一步提升了观看体验。

据外媒 Tom's Guides 报道，Huet 在演示期间还透露了一张幻灯片，微妙地暗示了下一代 GPT 模型的名称。

幻灯片显示了 GPT-3、GPT-4 和「今天」以及 GPT-Next 等名称，没有如预期般出现 GPT-5。Tomguides 认为，这表明 OpenAI 下一代模型的命名大概率舍弃了 GPT-5 的命名。

实际上，这也与 OpenAI CEO Sam Altman 最近采访的言论的不谋而合。

他在访谈中透露「实际上还没决定是否将它的名字定为 GPT-5」，并暗示未来可能会偏离 GPT N+1 的递增模式，转而采取持续迭代和优化的策略。

另外，报道称，Huet 还暗示在未来几个月和几年内，我们将看到更多不同尺寸的 OpenAI 模型，而不再是一个适用于所有产品的模型。

这样的好处是显而易见的，小模型节省资源、适配性强，适合移动设备和快速部署；大模型虽消耗资源多，但能处理更复杂任务，提供更高精度和泛化能力。

从 Huet 分享的幻灯片中，我们可以看到在今年年底将会看到一个代号为 GPT-Next 的模型，Tom's Guides 怀疑这实际上可能是 Omni-2——一个更精细、更好训练和更大的 GPT-4o 版本。

图表显示，这将是对现有技术的显著但非突破性的改进——未来几年将有更多更好的技术到来。

包括最近微软发布会上的幻灯片也疑似埋下了一个小彩蛋。

报道称，为配合国际人工智能首尔峰会的发布，OpenAI 表示将花更多时间评估新模型的能力，这也可能解释了尚未公开发布日期的原因。

眼尖网友化身列文虎克，下一次大版本更新疑似在 11 月

作为 AI 领域的一次质的飞跃，GPT-4o 实现了从纯文本推理到涵盖文本、图像及视频的综合理解能力的跨越。

因此，比起 GPT-5 的到来，我们现阶段更希望的是，要不 OpenAI 还是别藏着掖着了，赶紧推送 GPT-4o 的语音模型吧。

相关资讯

央视财经 2024-05-15

OpenAI 新发布的 GPT-4o，有血有肉的Ai来了，可实时语音视频交互

今天，OpenAI又又又开发布会了。在大众心里，现在也基本上都知道，奥特曼是一个贼能PR的人。每一次的PR的时间点，都拿捏的极其到位，精准的狙击其他厂商。比如说上一次Sora，其实你会发现从头到尾

OpenAI 阿尔特曼 Sora

梦辞85 2024-05-15

OpenAI教谷歌做语音助手，新模型GPT-4o科幻级语音交互，零延迟满情绪，AI进入HER时代

免费使用！几周后上线！

OpenAI 谷歌

36氪的朋友们 2024-05-14

近期资讯

2024，美国“科技铁幕”重伤欧美芯片大厂

“芯片禁令”重创将欧美大厂：40%份额依赖大陆，光刻机巨头提前暴雷。

锦缎 2024-12-26

特步丁佳敏：成为“企二代”，是“天降的幸运”

“每个人都有不同的压力”

中国企业家杂志 2024-12-26

微盟靠“微信小店”发财背后：4年半巨亏51亿，付费用户数锐减

资本4天狂欢，业绩4年哀嚎。

36氪的朋友们 2024-12-26

微软、阿里老兵胡云华加入智谱，担任「智谱清言」负责人｜36氪独家

智谱清言的增长已经过了新技术驱动获客的阶段，C端产品需要一个专业的带队。

周鑫雨 2024-12-26

反向消费冲击：9.9元风潮背后，品牌们还活得好吗？

9.9元风潮下品牌们如何突围？

ST商业研究社 2024-12-26

《2024年度十大旅行热词》

这一年旅行圈都发生了哪些有意思的事？

ST商业研究社 2024-12-26

第一批离婚的90后妈妈，真的活成了“王铁梅”

单亲妈妈谈恋爱，像极了“课间十分钟”。

新周刊 2024-12-26

网约车越臭，平台赚得越多

网约车司机们，也想好好洗个澡，但现实就是如此无奈。

汽车公社 2024-12-26

从《巫师》到《Mafia》，老牌3A为什么都改用虚幻5了？| 游戏知料

不仅仅是技术的更替，更像是行业风向到了转变的节点

薛德兴 2024-12-26

关于花钱这件事，消费者更深思熟虑了

解锁《2025全球消费者趋势》

红杉汇 2024-12-26

Mac 版 GPT-4o 语音交互现场演示来了，与 Sora 梦幻联动，新模型更多细节曝光

推荐体验

相关资讯

OpenAI推出“全能模型”GPT-4o，支持语音、视频、文字实时交互

新GPT-4o模型解密：“懂你”的AI来了？

OpenAI推出新旗舰模型GPT-4o 上线语音交互等新功能

OpenAI 新发布的 GPT-4o，有血有肉的Ai来了，可实时语音视频交互

OpenAI教谷歌做语音助手，新模型GPT-4o科幻级语音交互，零延迟满情绪，AI进入HER时代

近期资讯

2024，美国“科技铁幕”重伤欧美芯片大厂

特步丁佳敏：成为“企二代”，是“天降的幸运”

微盟靠“微信小店”发财背后：4年半巨亏51亿，付费用户数锐减

微软、阿里老兵胡云华加入智谱，担任「智谱清言」负责人｜36氪独家

反向消费冲击：9.9元风潮背后，品牌们还活得好吗？

《2024年度十大旅行热词》

第一批离婚的90后妈妈，真的活成了“王铁梅”

网约车越臭，平台赚得越多

从《巫师》到《Mafia》，老牌3A为什么都改用虚幻5了？| 游戏知料

关于花钱这件事，消费者更深思熟虑了

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响