OpenAI 在一个模型中集成了所有模态，大幅提升了大模型的实用性

作者：无贼天下发布时间：2024-05-14

5 月 14 日凌晨，OpenAI 在首次「春季新品发布会」上搬出了新一代旗舰生成模型 GPT-4o、桌面 App，并展示了一系列新能力。这一次，技术颠覆了产品形态，OpenAI 用行动给全世界的科技公司上了一课。就让我们详细了解下 OpenAI 今天放出的核弹。

全能模型 GPT-4o

首先介绍的是 GPT-4o，o 代表 Omnimodel（全能模型）。

第一次，OpenAI 在一个模型中集成了所有模态，大幅提升了大模型的实用性。

OpenAI CTO Muri Murati 表示，GPT-4o 提供了「GPT-4 水准」的智能，但在 GPT-4 的基础上改进了文本、视觉和音频方面的能力，将在未来几周内「迭代式」地在公司产品中推出。

「GPT-4o 的理由横跨语音、文本和视觉，」Muri Murati 说道：「我们知道这些模型越来越复杂，但我们希望交互体验变得更自然、更简单，让你完全不用关注用户界面，而只关注与 GPT 的协作。」

GPT-4o 在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配，但在非英语文本上的性能显著提高，同时 API 的速度也更快，成本降低了 50%。与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

它最快可以在 232 毫秒的时间内响应音频输入，平均响应时长 320 毫秒，与人类相似。在 GPT-4o 发布之前，体验过 ChatGPT 语音对话能力的用户能够感知到 ChatGPT 的平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。

这种语音响应模式是由三个独立模型组成的 pipeline：一个简单模型将音频转录为文本，GPT-3.5 或 GPT-4 接收文本并输出文本，第三个简单模型将该文本转换回音频。但 OpenAI 发现这种方法意味着 GPT-4 会丢失大量信息，例如模型无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。

而在 GPT-4o 上，OpenAI 跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。

「从技术角度来看，OpenAI 已经找到了一种方法，可以将音频直接映射到音频作为一级模态，并将视频实时传输到 transformer。这些需要对 token 化和架构进行一些新的研究，但总体来说是一个数据和系统优化问题（大多数事情都是如此）。」英伟达科学家 Jim Fan 如此评论道。

GPT-4o 可以跨文本、音频和视频进行实时推理，这是向更自然的人机交互（甚至是人 - 机器 - 机器交互）迈出的重要一步。

OpenAI 总裁 Greg Brockman 也在线「整活」，不仅让两个 GPT-4o 实时对话，还让它们即兴创作了一首歌曲，虽然旋律有点「感人」，但歌词涵盖房间的装饰风格、人物穿着特点以及期间发生的小插曲等。

此外，GPT-4o 在理解和生成图像方面的能力比任何现有模型都要好得多，此前很多不可能的任务都变得「易如反掌」。

比如，你可以让它帮忙把 OpenAI 的 logo 印到杯垫上：

经过这段时间的技术攻关，OpenAI 应该已经完美解决了 ChatGPT 生成字体的问题。

同时，GPT-4o 还拥有 3D 视觉内容生成的能力，能够从 6 个生成的图像进行 3D 重建：

这是一首诗，GPT-4o 可以将其排版为手写样式：

更复杂的排版样式也能搞定：

与 GPT-4o 合作，你只需要输入几段文字，就能得到一组连续的漫画分镜：

而下面这些玩法，应该会让很多设计师有点惊讶：

这是一张由两张生活照演变而来的风格化海报：

还有一些小众的功能，比如「文本转艺术字」：

今天的主持人是 OpenAI 的首席技术官 Mira Murati，她表示，今天主要讲三件事：

第一，以后 OpenAI 做产品就是要免费优先，为的就是让更多的人能使用。
第二，因此 OpenAI 此次发布了桌面版本的程序和更新后的 UI，其使用起来更简单，也更自然。
第三，GPT-4 之后，新版本的大模型来了，名字叫 GPT-4o。GPT-4o 的特别之处在于它以极为自然的交互方式为每个人带来了 GPT-4 级别的智能，包括免费用户。

ChatGPT 的这次更新以后，大模型可以接收文本、音频和图像的任意组合作为输入，并实时生成文本、音频和图像的任意组合输出 —— 这才是属于未来的交互方式。

OpenAI 在一个模型中集成了所有模态，大幅提升了大模型的实用性

推荐体验

相关资讯

OPPO Find X7系列在AI大模型的加持下，实用性上了一个大台阶

中国大模型的实用性正在吊打OpenAI

Stable diffusion实用性探索（一）

GPT-4o大幅提升AI终端实用性，消费电子50ETF(562950)早盘收涨1.30%

未来智能马啸：在AIGC领域，垂直场景的服务性工具实用性更强

近期资讯

我国首艘：“探索三号”综合科考船正式入列，2025 年下半年进入深海大洋开展载人深潜作业

英伟达RTX 4080性能提升高达50% 虚幻引擎5.5带来颠覆性新技术

带毒！智能手表表带对人体有害！

“虹膜写真”日益走红，安全隐患也浮出水面……

沪滇科技成果对接交流活动在芒市举行

探索汉字“星”的拼音及其在生活和文化中的深刻意义

华为服务回馈礼遇活动 12 月 31 日结束：换电池立减 50 元等

索尼 PlayStation 联合CEO：主机市场并未走向衰落，仍是业务核心

抖音创作指南：如何添加视频、音乐与文字等内容的详细步骤

山东邹平推出“AI+普法”宣传产品

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响