OpenAI发布GPT4o：能“视频通话”、识别情绪

作者：南方都市报发布时间：2024-05-14

当地时间5月13日，OpenAI发布了GPT4o。这一发布仅提前48小时声明，发布时长也只持续26分钟，但效果拔群。

根据OpenAI官网介绍，此次发布的GPT4o，其中“o”指代“Omni”，是一个拉丁词根，意为“所有的”“全部的”或“全能”。而GPT4o也确实不负其名：在发布过程中展现了接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出的能力。

根据OpenAI官网的介绍，GPT4o可以在232毫秒内响应音频输入，平均为320毫秒，与人类在对话中的响应时间相似。在此之前，如果用户使用语音模式与ChatGPT通话，有平均为2.8秒(GPT-3.5)和5.4秒(GPT-4）的延迟。这是由于GPT-3.5和GPT-4使用的是三模型组合管道——先使用简单模型将音频转录为文本，GPT-3.5或GPT-4接收后输出文本，再将其转换回音频。这意味着在过程中GPT-4会丢失大量信息——它不能直接观察音调、多个说话者或背景噪音，也不能输出笑声、歌声或表达情感。

至于GPT4o，OpenAI专门为其训练了一个跨文本、视觉和音频的端到端的新模型，这意味着所有输入和输出都由同一个神经网络处理。因为GPT4o是OpenAI第一个结合这些模式的模型，OpenAI表示，他们仍在探索模型的功能及其局限性。

然而，即便如此，GPT4o展现出的功能已经十分强大。在OpenAI的发布直播中，OpenAI总裁Brockman现场演示，GPT4o可以识别出Brockman所穿的衣服、身处的环境，甚至通过他周围的灯光布置推断出他可能正在进行视频直播。

更令人惊讶的是，GPT4o在与Brockman对话时，可以识别出Brockman的情绪和语气，而其回复相比GPT3.5和GPT4，也更加活泼和生动。

在演示中，Brockman让两个GPT互相对话，新版GPT4o向旧版GPT描述了Brockman的衣着打扮和房间环境。在谈话过程期间有一名女性加入，在Brockman身后比出搞怪的手势，这也被GPT4o发觉并表述出来。在对话最后，Brockman还指挥GPT4o和GPT根据此前聊天的内容对唱。

此外，GPT4o在英文文本和代码上的性能与此前发布的GPT-4 Turbo相当，在非英文文本上有则有显著改善。此外，GPT4o在API上也快得多，要价还比GPT-4 Turbo便宜50%。

这意味着GPT4o可以更便宜的价格，更高效地接入其他的应用中。在OpenAI的演示中，他们就邀请了可汗学院创始人和他的儿子试用了其延展的教育功能：视频中，GPT4o直接读出了孩子手中ipad上的题目，并根据家长的指示帮助辅导儿童，和双方进行语音实时互动。

除了辅导作业外，GPT4o更像一个全方面的AI助理，它还能在视频会议中帮用户录音、做会议纪要、会议总结；渲染合成3D物品；实时进行多语言翻译等等。OpenAI还释出重磅消息：除了GPT4o外，ChatGPT Plus也将免费向大众开放，包括视觉、联网、记忆、执行代码、GPT Store等多种功能。

采写：南都记者胡耕硕

近期资讯

奔驰柏林之声的音质痛点，声乐宝盒教你如何一招破解？

尽管奔驰柏林之声音响系统以其卓越性能著称，但它在音质表现上仍存在一些技术挑战。您是否注意到原厂音响系统在音质上显得过于薄弱、存在声音泄漏以及音效缺乏润泽感？今日，声乐宝盒将深入解析这些音质问题的根本原因。 [图片] 奔驰原厂扬声器支架的局限许多奔驰车主都熟悉原厂音响系统扬声器支架，它们通常采用镂空设计。虽然这种设计在视觉上具有一定的吸引力，但在音质上却存在一些不容忽视的问题：音质单薄：镂空设计无法提供足够的共鸣腔体，导致音质显得单薄、干涩。漏音现象：在大动态音乐播放时，声音可能会发散，缺乏聚焦，导致

艺疆科技 2024-12-27

中标联合 2024-12-27

旋转式升降立体车库翻新厂家全指南

在快节奏的城市生活中，停车难已成为不少车主的头疼问题。立体车库，尤其是旋转式升降立体车库，以其高效的空间利用率和便捷的停车体验，逐渐成为城市停车解决方案的宠儿。然而，随着使用时间的增长，这些车库难免会出现老化、磨损等问题。这时，选择一家专业的旋转式升降立体车库翻新厂家就显得尤为重要。本文将带你深入了解这一领域，为你提供全面的翻新厂家选择指南。一、旋转式升降立体车库翻新的重要性旋转式升降立体车库作为高科技的停车设备，其结构复杂，部件众多。长时间的使用和频繁的运作，难免会导致设备出现磨损、老化、故障等问题

倍莱立体车库租赁厂家 2024-12-27

OpenAI发布GPT4o：能“视频通话”、识别情绪

推荐体验

相关资讯

OpenAI发布可识别情绪的旗舰模型GPT-4o

#OpenAI发布GPT4o GPT-4o可帮助视障人士"看"世界 #OpenAI #GPT4o #AI

全面解析OpenAI的新作——GPT4o

关于OpenAI春季发布会和GPT4o - 炸裂也遗憾

OpenAI发布GPT4o,30秒看完发布会丨前沿抢先看

近期资讯

奔驰柏林之声的音质痛点，声乐宝盒教你如何一招破解？

蓝空针自动组装机，医疗自动化的新篇章

汽车摄影 Audi A4L 3.2 FSI Quattro

金标大众破局起势，走出智能电动时代新“大众路”丨汽势封面

信号灯团体标准对交通运输的实际意义

室外停车设备租赁全解析——立体车库租赁新选择

比亚迪海豹荣获2024-2025日本年度风云车“十大最佳车型”奖

坦克300挑战者2024款说明书用户手册｜TANK 300 Challenger

如何申请物流运输工具团体标准，提升车辆运输的合法性与安全性？

旋转式升降立体车库翻新厂家全指南

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响