OpenAI一夜之间革了Siri和同传的命，GPT-4o五大核心能力炸场！

作者：新榜发布时间：2024-05-15

OpenAI真憋了个大的。

美国当地时间5月13日上午10点（北京时间5月14日凌晨1点），OpenAI春季发布会如约而至，没有GPT-5，没有搜索引擎，但推出了一个新的旗舰模型：GPT-4o。

“o”是Omni的缩写，意为“全能”，接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出。

从直播演示来看，GPT-4o的多模态、实时交互能力，已经足够惊艳到让人直呼科幻电影《her》真的变成了现实。

值得划重点的是，GPT-4o和ChatGPT Plus会员版所有的能力，将免费向所有用户开放！

不过，GPT-4o的新语音模式在未来几周内会优先对ChatGPT Plus会员开放。

此外，GPT-4o也向开发者开放了API。与GPT-4 Turbo相比，GPT-4o价格减半，但速度却快了2倍，速率限制高出5倍。OpenAI称，接下来会向部分API合作伙伴提供新的音频和视频功能支持。

GPT-4o到底有多强？昨晚“头号AI玩家”全程围观直播，现在让我们来一起回顾下其中细节。

GPT-4o惊艳面世，

核心能力全盘点

01.零延迟实时语音交互，自然真实富有情感

首先是零延迟实时语音交互，在这个环节，GPT表现得像是富有情感的真人。

在直播演示过程中，演示者Mark对GPT-4o说：“我正在做demo，我有点紧张。”然后他开始故意喘息得非常急促，GPT-4o很快识别出了他的呼吸声，告诉他：“哦，哦，哦，别紧张，慢下来，你不是个吸尘器。”并指导他调整呼吸。

整个过程中，GPT-4o的语气都非常自然、真实、富有情感，你可以随时打断它，要求它调整语气和音调。

另一位演示者让GPT-4o讲一个关于“机器人与爱”的睡前故事。刚讲一句，Mark Chen就打断了它，说它讲故事的语气不够有情感。GPT-4o调整过后，Mark Chen又很快打断它，要求它情绪再饱满再drama一点，然后GPT-4o的情绪又上了一个台阶，甚至可以说是浮夸的程度。

然后，演示者要求它切换成机器人声音，GPT-4o的声音和语气立马变得冷漠和机械。

这还没完，演示者又让GPT-4o用唱歌的方式把故事讲完，GPT-4o当场把故事改编成了一首歌，并直接唱了出来，节目效果拉满。

相比之下，ChatGPT的语音模式平均延迟为2.8秒（GPT-3.5）和5.4秒（GPT-4），这无疑会破坏对话的沉浸感。

此外，由于模型需要先将语音转录为文本，GPT-3.5或GPT-4接收处理并输出文本，再将文本转换为语音，所以GPT-3.5或GPT-4无法直接获知语气、音调、背景噪音等信息，也无法输出笑声、歌声或表达情感。

02.通过摄像头视觉传达内容，在线解方程式

除了语音交互外，还可以通过视觉+语音的形式，如实时视频、上传图片等方式，与GPT-4o进行多模态交互。

发布会上，OpenAI展示了GPT-4o通过多模态能力帮助用户解决数学题的完整过程。

，时长

02:05

视觉解析图形报表也手到擒来。OpenAI官方博客中，用户一边和GPT-4o语音，一边在平板上画图，根据语音信息，解几何数学题。

03.更智能的保姆级编程助手

用GPT-4o来实时编程，也比以前的纯文本形式或上传图片进行文字对话的方式，更有交互感。

官方演示中， OpenAI使用电脑桌面端GPT-4o来检查代码，它不仅可以解释代码的作用，还可以告诉用户如果调整特定代码会发生什么。

通过一步又一步的实时问答沟通，GPT-4o可以帮助用户提高编程效率，整个过程相当丝滑。

超强的实时语音+视觉交互能力，运用在编程辅助上，以后还要啥程序员鼓励师。

04.视频通话，实时分析面部情绪

演示者还在X上实时收集了网友的反馈，其中有人提出挑战：打开摄像头，看GPT-4o能不能实时分析面部情绪。

演示者先是打开了后置摄像头，拍到的是面前的桌子，GPT-4o立刻分析道：“你看起来是个桌子。”

在切换为前置摄影头后，演示者的脸出现在与GPT-4o进行交互的界面，一整个打视频电话的即视感。

GPT-4o立刻说：“你看起来非常开心，有大大的笑容，你想分享一下让你这么开心的原因吗？”语气中甚至能听出一丝好奇和试探。

演示者回答道：“因为我在做实时演示，让大家看看你有多出色。”

GPT-4o带着笑声说：“拜托，别害我脸红了。”

看到这，“头号AI玩家”脑海里不禁回响起Samantha与Theodore之间的恋人絮语。

《Her》真的变成现实了。

05.同声传译，支持多国语言

目前，ChatGPT支持超过50种语言。据介绍，GPT-4o的语言能力在质量和速度上都得到了改进。

官方演示中，一个人说英语，另一个人说西班牙语，通过语音指示GPT-4o实时翻译，两人实现了流畅的沟通。GPT-4o基本上只在开头停顿了1~2秒，在句子中没有出现停顿、卡壳等现象。

，时长

01:07

不过，有点bug的是，由于GPT-4o是中间的沟通媒介，导致两位对话者并没有直接看对方，而是都看向了手机。未来或许会有新型设备出现，利用AI技术让使用不同语言的人们能够更自然地进行交流。

变革人机交互，

但还不是GPT-5

OpenAI首席技术官Mira Murati在直播中介绍，GPT-4o是标志性产品GPT-4模型的一个迭代版本：提供了GPT-4级别的智能，但速度更快，并改进了其在文本、语音和视觉方面的能力。

OpenAI首席执行官Sam Altman发帖称该模型是“原生多模态”的，在文本、视觉和音频上端到端地训练了一个新模型，GPT-4o所有输入和输出都由同一个神经网络处理。

根据官方博客介绍，在基准测试中，GPT-4o在文本、推理和编码智能方面达到了GPT-4 Turbo级别的性能，同时在多语言、音频和视觉能力上设定了新的标准。

图源：OpenAI官网

OpenAI计划在未来几周内逐步推出GPT-4o的各项能力。其中，文本和图像能力将从发布会后当天开始在ChatGPT中推出，Plus用户可以抢先体验，并拥有相比免费用户多高达5倍的消息限制。带有GPT-4o新版本语音模式也将在未来几周内在ChatGPT Plus中推出。

针对免费用户，OpenAI也主打一个“雨露均沾”，在接下来的几周内会面向所有用户，推出GPT-4o及其相关功能：

1.体验GPT-4级智能

2.从模型和网页获取响应（联网了）

3.分析数据并创建图表

4.支持上传照片进行交互

5.上传文件以帮助总结、撰写或分析

6.发现和使用GPT和GPT商店

7.可自定义控制的ChatGPT“内存”（拥有更强的“记忆力”）

目前已经体验到GPT-4o的玩家告诉我们：体验太丝滑了！后续“头号AI玩家”也将跟进更详细的玩法评测。

当然，炸场的不只是OpenAI，在这个被称为全球“AI月”的5月，肉眼可见地，我们还将迎来谷歌的I/O开发者大会、微软Build年度开发者大会、英伟达一季报发布等AI领域重要事件。

此外，预计6月10日举办的苹果WWDC大会或将推出全新AI应用商店，并可能升级Siri语音助手，引入新的生成式AI系统。

试猜想，如果苹果真的顺利与OpenAI达成合作，GPT-4o被引入到iPhone设备端，取代（或升级）Siri，似乎也是顺理成章的事。

总的来说，相比图形用户界面，GPT-4o近乎实时的语音和视频交互体验，标志着人机交互迎来了新的变革，更自然、更直观的交互体验，已经非常接近我们在科幻片里看到的人工智能，斯派克·琼斯导演的科幻电影《Her》也因此被频频提及。

猎豹移动董事长兼CEO傅盛甚至连夜录制视频夸OpenAI在“大家都在拼大模型的参数和性能时，OpenAI杀了个回马枪，认真地做起了整合和应用”。

看完今天OpenAI的发布，很难想象谷歌明天得拿出多大的杀手锏，才能摆脱“AI届汪峰”的命运

OpenAI一夜之间革了Siri和同传的命，GPT-4o五大核心能力炸场！

GPT-4o惊艳面世，

核心能力全盘点

变革人机交互，

但还不是GPT-5

推荐体验

相关资讯

一夜之间，谷歌版GPT-4o和AI手机全上市了

一夜之间，OpenAI改变历史，GPT-4o将要干翻所有语音助手

“OpenAI叛军”突起，GPT-4一夜之间被拉下神坛！

GPT-4o空降，OpenAI又来“炸场”了

AI大模型接管谷歌搜索：一夜之间，整个领域变天了

近期资讯

容声517升无霜冰箱：补贴1260元，高端家电的性价比之选

曝小米MIX Flip 2将支持无线充和IPX8防水更轻薄全能

LG 推出新型落地灯：融合智能园艺，可用于种植、培育植物

工信部：2025 年力争累计建成 5G 基站 450 万座以上

马鞍山雨山区：以科技向“智”推动产业向“新”

小米澎湃OS 2首次大版本更新来了！张国全：坚决不做一锤子买卖

南京亚翔电子衡器取得具有组合拼接结构的路基箱专利，解决现有路基箱拼接繁琐的问题

卢伟冰：小米手机下一步重点突破6000元以上价位

RX 9070XT性能曝光：追平RTX 4080！

契卡 12mm F2.0 II 广角相机镜头发布：9 组 12 片，799 元

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响