/ OpenAI 发布会:GPT-4o 有史以来最好的模型 /
中国时间凌晨 1 点,OpenAI 开了个会,带来了一堆新的东西:
ChatGPT 新 UI 新的 UI 设计
GPT-4o 文字,语音和视频,三个史诗级更新,足以颠覆很多行业
GPT-4o API 2 倍快,半价,5 倍访问限制(对比与 4-turbo)
桌面应用 在 Mac 上提供了 ChatGPT 桌面应用。通过简单的键盘快捷键,可以立即向 ChatGPT 提问。还可以直接在应用程序中拍摄和讨论截图。
在发布会上,OpenAI 就发布了一款名为 GPT-4o 的新旗舰生成式人工智能模型,该模型将在未来几周内在公司的产品中“迭代”推出。它可以实时对音频、视觉和文本进行推理。
GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。它可以在短至 232 毫秒的时间内响应音频输入,平均为 320 毫秒,与人类的响应时间相似。在一次谈话中。它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,在非英语文本上的性能显着提高,同时 API 的速度也更快,成本降低了 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。
更重要的是从此以后,无论你是付费用户,还是免费用户,都能通过它体验 GPT-4 了。
接下来我们来看看发布会上对其能力的演示:
语音能力:语音能力中我认为最厉害的有几点:实时语音对话,在对话中你可以随时打断他,可以“听懂”用户的不同语气、语调,还能根据自己的回答生成不同语气的回复。
说真的,整个过程很自然很流畅,让我感觉就像是两个人面对面坐着交流。相比反应迟钝、没法打断还缺少情商的 Siri 等语音助手,ChatGPT 完胜!这才是 AI 语音助手!!
视频能力:GPT-4o 的到来,可以让我们和 AI 打视频电话,让它来解答各种问题,比如在线解数学题,相应极其自然。甚至还可以和你一起逗狗。
发布会上研发负责人 Barret 手写了一个方程,并打开摄像头拍给 ChatGPT,让它扮演「导师」的角色帮助自己解题,而且只能给提示,不能直接说答案。
接到任务的 ChatGPT,甚至开心大叫:「Oops,我好兴奋啊!」
桌面应用:
在发布会上演示了看代码,并进行简短描述。比如准确对应了函数名及其功能,并识别出了其中取平均值、最高值等操作的意图。
/ GPT-4o 强在哪呢? /
改进推理 - GPT-4o 在 0-shot COT MMLU(常识问题)上创下了 88.7% 的新高分。此外,在传统的 5-shot no-CoT MMLU 上,GPT-4o 创下了 87.2%的新高分。
音频 ASR 性能 - GPT-4o 比 Whisper-v3 显着提高了所有语言的语音识别性能,特别是对于资源匮乏的语言。
音频翻译性能 - GPT-4o 在语音翻译方面树立了新的最先进水平,并且在 MLS 基准测试中优于 Whisper-v3。
视觉理解评估 - GPT-4o 在视觉感知基准上实现了最先进的性能。所有视觉评估都是 0-shot,其中 MMMU、MathVista 和 ChartQA 作为 0-shot CoT。
最最最重要的是,GPT-4o 不仅是目前全世界最好的模型,甚至可以在 ChatGPT 中免费用!!!
关注我,后续会给大家更多带来GPT的使用和最新资讯。
PS:因公众号平台更改了推送规则,如果不想错过内容,记得读完点一下“在看”,加个“星标”,这样每次新文章推送才会第一时间出现在你的订阅列表里。
点“在看”支持支持,谢谢啦