能读懂你的喜怒哀乐 OpenAI发布免费大模型“GPT-4o”

封面新闻记者边雪马晓玉

科技观察

既不是新的搜索引擎，也不是GPT-4.5或GPT-5。

万众期待中，北京时间5月14日凌晨，OpenAI在首次“春季新品发布会”上拿出了“杀手锏”——新一代旗舰生成模型GPT-4o和桌面程序。根据OpenAI官方网站介绍，GPT-4o中的“o”代表Omni，指的是该模型处理文本、语音和视频的能力，也就是“全能”的意思。

据悉，GPT-4o将在接下来的几周内“迭代”地推出到公司的开发者和消费者产品中。OpenAI首席技术官Mira Murati表示，GPT-4o提供了“GPT-4级”的智能，但在多种模态和媒体上改进了GPT-4的能力。

“GPT-4o可以跨语音、文本和视觉进行推理，”OpenAI的CTO米拉·穆拉蒂（Mira Murati）在旧金山办公室的直播演示中说道。“这非常重要，因为我们正在关注我们与机器之间的交互未来。”

OpenAI之前的“领先”、“最先进”的模型是GPT-4 Turbo，它是通过对图像和文本的结合进行训练的，能够分析图像和文本来完成任务，例如从图像中提取文本，甚至描述图像内容。

作为新一代旗舰模型，GPT-4o把AI工具的使用门槛降到了更低的程度，不仅比上一代速度快两倍，能实现无延迟实时对话，而且用户不用注册，功能全部免费。

GPT-4o。（图源：OpenAI官网）

GPT-4o：更快更准确懂用户

极大地改进了OpenAI的AI聊天机器人ChatGPT的体验。该平台长期以来一直提供了语音模式，使用文本转语音模型转录聊天机器人的回复，但是GPT-4o使其功能更加强大，让用户能够更像与助手交互。

例如，用户可以向由GPT-4o驱动的ChatGPT提问，并在ChatGPT回答时打断。OpenAI表示，该模型具有“实时”响应性，甚至可以捕捉用户声音中的细微差别，以生成“一系列不同情感风格”的声音（包括唱歌）。

GPT-4o还提升了ChatGPT的视觉能力。给定一张照片或者桌面屏幕，ChatGPT现在可以快速回答相关问题，涉及的主题从“这段软件代码发生了什么？”到“这个人穿的是什么牌子的衬衫？”

Murati表示，这些功能将在未来进一步发展。“尽管目前GPT-4o可以查看不同语言的菜单照片并进行翻译，但未来，该模型可能使ChatGPT能够‘观看’直播的体育比赛并向您解释规则。”

“我们知道这些模型变得越来越复杂，但我们希望交互体验实际上变得更加自然、简单，您不需要关注UI，而只需专注于与ChatGPT的合作，” Murati说道。“在过去的几年中，我们一直致力于改善这些模型的智能…但这是我们在易用性方面真正迈出的巨大一步。”

封面新闻记者在OpenAI官网注意到，GPT-4o在多语言方面更加强大，性能提升了约50种语言。此外，在OpenAI的API和Microsoft的Azure OpenAI服务中，GPT-4o的速度是GPT-4 Turbo的两倍，价格是其一半，且速率限制更高。

自发布之日，GPT-4o可在ChatGPT的免费版本中使用，并提供给OpenAI的高级ChatGPT Plus和Team计划订户，具有“5倍更高”的消息限制。（OpenAI指出，当用户达到速率限制时，ChatGPT将自动切换到GPT-3.5，这是一个较旧且功能较弱的模型。）以GPT-4o为基础的改进的ChatGPT语音体验将在未来一个月左右的时间内为Plus用户提供alpha版，并配备企业专注的选项。

GPT-4想要实现和人的对话需要通过三步来实现：先把语音转换为文字，再生成回复文本，最后再转成语音。根据用户选择模型的不同，这个过程的平均延迟高达2.8秒（GPT-3.5）和5.4 秒（GPT-4），对着手机屏幕等回复，跟GPT聊过天的朋友应该都有类似的体验。

而且在语音转文字再转语音的过程中，很多信息损失了，GPT无法获得说话人的音调，也无法收取背景音，如果有多个人一起说话更是灾难性的场景。

OpenAI的CTO米拉·穆拉蒂与同事介绍GPT-4o（图源：直播截图）

“我们跨文本、视觉和音频端到端地训练了一个新模型，”OpenAI写道，“这意味着所有输入和输出都由同一神经网络处理。”现在的GPT-4o可以在最短232毫秒内响应对话，平均响应时间320毫秒，和人类的反应速度几乎一样，爱跟ChatGPT聊天的朋友终于可以从微信语音模式切换到日常交流模式了。

5月14日，封面新闻记者使用了GPT-4o进行提问，相较于GPT-3.5，其回答速度更加迅速，几乎是“脱口而出”，答案梳理也更加全面。

值得注意的是，GPT-4o API声音功能仅适用于部分用户，OpenAI称出于滥用风险考虑，计划首先在未来几周向“一小部分可信赖的合作伙伴”提供对GPT-4o新音频功能的支持。

在更懂用户上，GPT-4o甚至能通过呼吸来辨别你的情绪。

发布会的最后一个环节是实机演示。OpenAI研究员Marc Chen和Barret Zoph一起展示了GPT-4o的“魔力”。

在第一段对话里，Chen对GPT说，自己有点紧张，然后开始急促地呼吸。GPT识别到了他呼吸的声音，说，别紧张，你喘得像个吸尘器，深呼吸，再吐气。接着GPT开始指导Chen怎么深吸慢呼平复心情。

无论是在听环境音还是即时反馈上，GPT-4o的表现都十分让人惊喜：它可以同时完成输入和输出，在分析用户喘气声后进行呼吸指导。

第二个demo里，Chen让GPT给Zoph讲个睡前故事哄他入睡，Chen反复打断GPT的讲述，问它能不能讲得更刺激点，最后，GPT跟用非常迪士尼的方式唱出了一个故事。

OpenAI研究员Marc Chen和Barret Zoph一起展示了GPT-4o。（图源：直播截图）

OpenAI 抢跑谷歌？

巧合的是，当地时间5月14日，OpenAI 发布更新的第二天，正是谷歌一年一度的“Google I/O”大会。业内人士指出，这是OpenAI不希望谷歌的技术大会抢了该产品的风头。

事实上，早在今年2月，就有媒体报道称，OpenAI正在开发一款由Chat gpt驱动的搜索引擎，它很有可能会彻底改变网络搜索，并撼动谷歌对于全球搜索市场主导地位。

许多用户表示，现在更多的是使用OpenAI 进行知识的深入探索而非Google。

谷歌也一直担心竞争对手的AI服务可能对其搜索业务构成威胁，因为该公司的大部分收入来自数字广告销售，每年通过搜索业务创造超过2200亿美元的广告收入。

因此，外界一直猜测OpenAI 本次春季更新将剑指搜索引擎，不过没多久便被总裁阿尔特曼辟谣，表示并非gpt-5，也不是搜索引擎。

GPT-4o 在 LMSys 领域测试的表现。（图源：截图）

新的Siri 将来自 OpenAI?

据外媒报道，苹果公司已与 OpenAI 达成协议，在 iPhone 上使用其技术，这是将人工智能功能引入其设备的更广泛努力的一部分。

据悉，在苹果公司软件工程高级副总裁 Craig Federighi 和苹果公司机器学习与人工智能战略高级副总裁 John Giannandrea 花了数周时间测试 ChatGPT 后，发现 Siri 已经过时，苹果公司正计划将生成式人工智能作为一个支柱项目，将把生成式人工智能引入 iPhone。

苹果CEO蒂姆·库克也承认，苹果正在对生成式人工智能领域进行大量投资。他表示，苹果今年将在生成式人工智能领域“开辟新天地”。

有知情人士表示，苹果公司与OpenAI一直在敲定在苹果下一代 iPhone 操作系统 iOS 18 中使用 ChatGPT 功能的协议条款。苹果同时还与谷歌就授权Gemini聊天机器人进行了谈判。这些讨论尚未达成协议，但仍在进行中。

能读懂你的喜怒哀乐 OpenAI发布免费大模型“GPT-4o” | 科技观察

能读懂你的喜怒哀乐 OpenAI发布免费大模型“GPT-4o” | 科技观察

推荐体验

相关资讯

OpenAI推出最新大模型“GPT-4o”，你的快乐悲伤它都能读懂

GPT-4o来了！可实时“秒回”，还能读懂人类情绪

AI能成佛吗？佛祖在线“解惑”，佛像拥有喜怒哀乐，AI觉悟了?

新GPT-4o模型解密：“懂你”的AI来了？

OpenAI发布新模型GPT-4o

近期资讯

女子半夜和男友吵架刷机票抢到3元票平台：出票成功就能用

高德地图三大新功能来了！直连北斗卫星无网求救

蔚来同步维权最新进展：多个账号被固定证据已在法院起诉

鲁格“超级红鹰”双动转轮提供优秀精度和火力控制令人爱不释手

华为用户必看！换电池优惠50元等错过等明年

用一个简单系统记住你读过的一切

SUV高速撞上隧道发动机都被撞飞！司机：空调太暖睡着了

六代机为什么采用3台发动机？集中爆发4款隐身机，四川喜提小航母

玉林迈入高铁时代至南宁行程缩短至48分钟

华为鸿蒙千元神机来了！麒麟5G芯片卫星通信下放

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响