当前位置：首页|资讯|OpenAI|GPT-4|编程

OpenAI推出GPT-4o,免费向所有人提供GPT-4级别的AI,可以对音频、视觉和文本进行推理

作者：纽小扣扣发布时间：2024-05-14

OpenAI GPT-4 编程

OpenAI 2024 Spring推出 GPT-4o，这是OpenAI的新旗舰模型，可以实时对音频、视觉和文本进行推理。

GPT-4o（“o”代表“omni”）是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出。它可以在短至 232 毫秒的时间内响应音频输入，平均为 320 毫秒，与人类的响应时间相似在一次谈话中。

它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配，在非英语文本上的性能显著提高，同时 API 的速度也更快，成本降低了 50%。与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

模型能力

在 GPT-4o 之前，您可以使用语音模式与 ChatGPT 对话，平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。为了实现这一目标，语音模式是由三个独立模型组成的管道：一个简单模型将音频转录为文本，GPT-3.5 或 GPT-4 接收文本并输出文本，第三个简单模型将该文本转换回音频。这个过程意味着主要智能来源GPT-4丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音，也无法输出笑声、歌唱或表达情感。

借助 GPT-4o，OpenAI跨文本、视觉和音频端到端地训练了一个新模型，这意味着所有输入和输出都由同一神经网络处理。由于 GPT-4o 是第一个结合所有这些模式的模型，因此OpenAI仍然只是浅尝辄止地探索该模型的功能及其局限性。

能力探索

视觉探索：机器人作家社区

角色设定：机器人

模型评估

根据传统基准测试，GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能，同时在多语言、音频和视觉功能上设置了新的高水位线。

文本评价： GPT-4o 在 0-shot COT MMLU（常识问题）上创下了 88.7% 的新高分。此外，在传统的5-shot no-CoT MMLU上，GPT-4o创下了87.2%的新高分

音频 ASR 性能： GPT-4o 比 Whisper-v3 显着提高了所有语言的语音识别性能，特别是对于资源匮乏的语言。

音频翻译性能： GPT-4o 在语音翻译方面树立了新的最先进水平，并且在 MLS 基准测试中优于 Whisper-v3。

M3Exam： M3Exam 基准测试既是多语言评估也是视觉评估，由来自其他国家标准化测试的多项选择题组成，有时还包括图形和图表。在所有语言的基准测试中，GPT-4o 都比 GPT-4 更强。

视觉理解评估： GPT-4o 在视觉感知基准上实现了最先进的性能。所有视觉评估都是 0-shot，其中 MMMU、MathVista 和 ChartQA 作为 0-shot CoT。

可用性

GPT-4o 是OpenAI突破深度学习界限的最新举措，这次是朝着实用性的方向发展。在过去的两年里，OpenAI花费了大量的精力来提高堆栈每一层的效率。作为这项研究的第一个成果，OpenAI能够更广泛地提供 GPT-4 级别模型。 GPT-4o 的功能将迭代推出。

GPT-4o 的文本和图像功能今天开始在 ChatGPT 中推出。OpenAI正在免费套餐中提供 GPT-4o，并向 Plus 用户提供高达 5 倍的消息限制。OpenAI将在未来几周内在 ChatGPT Plus 中推出新版本的语音模式 GPT-4o alpha。

开发人员现在还可以在 API 中访问 GPT-4o 作为文本和视觉模型。与 GPT-4 Turbo 相比，GPT-4o 速度提高 2 倍，价格降低一半，速率限制提高 5 倍。OpenAI计划在未来几周内在 API 中向一小部分值得信赖的合作伙伴推出对 GPT-4o 新音频和视频功能的支持。

ChatGPT免费用户，可以访问的功能

OpenAI官博还介绍了，ChatGPT免费用户可以访问新模型加持下的功能，包括：

体验GPT-4级别的智能
从联网后的模型得到响应
分析数据并创建图表
畅聊你拍的照片
上传文件以帮助总结、撰写或分析
发现和使用GPTs和GPT Store
用记忆构建更有用的体验

免费向所有人提供GPT-4级别的AI

这款全新的AI模型，免费向所有人提供GPT-4级别的AI。

现在，进入ChatGPT页面，Plus用户可以抢先体验「最新、最先进的模型」GPT-4o。

这个带着光环登场的模型，其最大意义就在于，把GPT-4级别的智能，带给了OpenAI的每一位用户！

从此以后，无论你是付费用户，还是免费用户，都能通过它体验GPT-4了。

唯一不同的是，ChatGPT Plus的消息限制是免费用户的5倍。

并且，GPT-4o不仅提供与GPT-4同等程度的模型能力，推理速度还更快，还能提供同时理解文本、图像、音频等内容的多模态能力。

WildCard不开卡GPT4随心用

如果想成为GPT-4o付费用户，断开🪜 用国内网络访问 WildCard不开卡GPT4随心用地址：

https://wildcard.com.cn/i/GPT310 邀请码 GPT310，直接免 2 美元的开卡费，虚拟卡开好之后，用支付宝充值进行ChatGpt升级，或者不开卡直接用chatgpt随心用，使用GPT-4o高级功能..

在GPT-4o发布之前，通过语音模式（Voice Mode）与ChatGPT对话，平均延迟为2.8秒（GPT-3.5）和5.4秒（GPT-4）。

它可以跨越语音、文本、视觉多种形式，直接进行推理！

GPT-4o是OpenAI首个端到端训练的跨越文本、视觉和音频的新模型，意味着所有输入和输出都由相同的神经网络处理。

这就会彻底颠覆ChatGPT 1亿用户的工作和生活。

不仅如此，由于GPT-4o是「原生的多模态」，自然地集成了语言、视觉和音频等多种能力。

用户可以上传各种图片、视频，以及包含图片和文字的文档，讨论其中的内容。

以上就是这次OpenAI春季发布会的全部内容了。

在这场发布会之前，无数人曾在猜测，OpenAI到底会发一些什么王炸，什么才能配得上奥特曼口中的"magic"。

那现在，OpenAI做到了，他们用GPT-4o依然证明了，他们是AI届的王者。

如果想升级为chatgpt付费用户，体验ChatGPT Plus的消息限制是免费用户的5倍效果，请点击文章参考。

参考：https://aliyuntm.com/collect/gpt-4o/

推荐体验

相关资讯

OpenAI 2024 Spring推出 GPT-4o，新旗舰模型，可以实时对音频、视觉和文本进行推理

OpenAI 2024 Spring推出 GPT-4o，这是OpenAI的新旗舰模型，可以实时对音频、视觉和文本进行推理。 GPT-4o（“o”代表“omni”）是迈向更自然的人机交互的一步——它接受

小小纽扣 2024-05-14

OpenAI发布免费新品GPT-4o：可对音频、视觉和文本实时推理，与人自然对话，功能秒杀Siri

OpenAI发布免费新品GPT-4o：可对音频、视觉和文本实时推理，与人自然对话，功能秒杀Siri澎湃新闻2024-05-14 08:46发布于上海澎湃新闻官方账号·GPT-4o可以对音频、视觉和

澎湃新闻 2024-05-14

免费GPT-4o来袭，音频视觉文本实现「大一统」

导语：OpenAI「魔法」降临。

赖文昕 2024-05-14

免费！OpenAI推出新旗舰模型GPT-4o，可综合利用语音、文本和视觉信息进行推理

免费！OpenAI推出新旗舰模型GPT-4o，可综合利用语音、文本和视觉信息进行推理金融界2024-05-14 07:46发布于北京当地时间周一，OpenAI推出了一个更快、更便宜的人工智能模型G

OpenAI 金融人工智能

金融界 2024-05-14

OpenAI发布新模型GPT-4o：对所有人免费、更易用、更强

今天凌晨，OpenAI发布会召开，其中最重磅、最核心的是GPT-4o 这个新模型。具体能力如何？一起来看看吧。

知危 2024-05-14

近期资讯

如何关闭智能设备的省电模式以提升性能体验

好的，让我们来聊聊“省电模式怎么关闭”这个话题。现代的智能设备，特别是手机和平板电脑，几乎都有一个省电模式。虽然这个功能在电量紧张的时候非常有用，但有时我们也会希望关闭它，以便享受更高的性能和更流畅的使用体验。那么，省电模式到底怎么关闭呢？

新报观察 2024-12-28

太阳的神奇世界：生命之源与可再生能源的未来探索

太阳，这个我们每天都能看到的天体，真的是一个无比神奇的存在。它不仅仅是天空中的一颗星星，更是维持地球生命的重要源泉。想想看，太阳的光和热是怎样影响着我们的生活、气候，甚至是我们的一切。说到太阳，首先不得不提的就是它的构成。太阳主要由氢和氦这两种元素组成，差不多占了99.86%的质量。

新报观察 2024-12-28

如何在微信中有效刷步数并保持健康生活方式

在这个数字化的时代，微信已经成为了我们生活中不可或缺的一部分。除了聊天、支付、分享生活点滴，微信的运动步数功能也吸引了不少人的关注。很多人都想知道，微信怎么刷步数？今天就来聊聊这个话题。首先，咱们得明白，微信的步数是通过手机的传感器来记录的。也就是说，只要你带着手机走路，微信就会自动记录你的步数。

新报观察 2024-12-28

如何取消QQ账号：步骤与背后的选择思考

不过，随着时代的进步，很多人逐渐发现自己对QQ的需求降低，或是因为想要尝试新的社交方式，或是因为想要减少对手机的依赖，最终决定要取消QQ账号。那么，怎么取消QQ呢？不过，值得注意的是，注销QQ账号并不是立刻完成的，系统可能会需要一些时间来处理你的请求。说到这里，可能有些人会问，为什么要取消QQ呢？

新报观察 2024-12-28

在抖音上换内容与风格的探索与实践指南

如果你想在抖音上换个风格，或者想尝试一些不同的内容，换换内容、换换风格都是很不错的选择。今天，我就来聊聊在抖音上怎么换，换什么，以及换了之后会有什么样的效果。

新报观察 2024-12-28

江苏国科智能取得一种侧进风储能电池架专利，控制进风流量保证储能电池稳定运行

金融界2024年12月28日消息，国家知识产权局信息显示，江苏国科智能工程技术有限公司取得一项名为“一种侧进风储能电池架”的专利，授权公告号CN222214353U，申请日期为2024年1月。

金融界 2024-12-28

江西安驰取得一种分体式构造箱体专利，提升使用安全性

金融界2024年12月28日消息，国家知识产权局信息显示，江西安驰新能源科技有限公司取得一项名为“一种分体式构造箱体”的专利，授权公告号CN222214343U，申请日期为2023年12月。

金融界 2024-12-28

深圳安易控取得电芯堆叠组件专利，能在电池包超出预应力范围时进行二次固定

金融界2024年12月28日消息，国家知识产权局信息显示，深圳安易控动力科技有限公司取得一项名为“一种电池包用的电芯堆叠组件”的专利，授权公告号CN222214346U，申请日期为2023年12月。

金融界 2024-12-28

蜂巢能源取得电池模组专利，提高电池包中不同电池模组的一致性

金融界2024年12月28日消息，国家知识产权局信息显示，蜂巢能源科技股份有限公司取得一项名为“电池模组和具有其的电池包”的专利，授权公告号CN222214350U，申请日期为2023年12月。

金融界 2024-12-28

上海西艾爱电子取得具有一体化微动开关的直流接触器专利，提高产品制造工艺装配的稳定性

金融界2024年12月28日消息，国家知识产权局信息显示，上海西艾爱电子有限公司取得一项名为“具有一体化微动开关的直流接触器”的专利，授权公告号CN222214065U，申请日期为2024年4月。

金融界 2024-12-28

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2025 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1