GPT-4o中的“o”代表“omni”,即全能……
5月13日,OpenAI春季发布会上,CTO Mira Murati代表公司向世界发布了ChatGPT旗舰版本GPT-4o。整场发布会上OpenAI运用了大量的篇幅,去介绍GPT-4o在移动端段与人类交互的先进程度,通过现场与GPT-4o交流、歌唱、实时解题等形式,强调了新模型多模态场景下的应用。
官方表示,在GPT-4o推出之前,用户使用语音模式与ChatGPT进行对话时,延迟时间分别为GPT-3.5的2.8秒和GPT-4的5.4秒,GPT-4o将这一延迟被大幅缩短为320毫秒。
这是因为传统语音模式通过三模型实现:音频转文本,GPT-3.5/GPT-4处理文本,再文本转音频。但GPT-4会丢失信息,因其无法直接处理语调、多说话者、背景噪音,且不能输出笑声、歌唱或情感。而GPT-4o通过端到端训练了一个全新的模型,能够同时处理文本、视觉和音频输入输出。这意味着所有的输入和输出都由同一个神经网络处理。
GPT-4o在性能和效率方面进行了显著优化。得益于改进的模型架构和训练方法,GPT-4o在处理复杂任务时展现出更高的准确性和更快的响应速度。OpenAI表示,GPT-4o的推出将为用户带来前所未有的体验,显著提升自然语言处理、对话系统、数据分析和编程辅助等领域的应用效果。
根据官网信息,GPT-4o在文本、推理和编码智能方面达到了GPT-4 Turbo级别的性能,同时在多语言、音频和视觉功能上也达到了新高水位线。
文本评价:
在文本处理方面,GPT-4o在0-shot CoT(Chain of Thought) MMLU(常识问题)等测试中,取得了88.7%的高分,刷新了纪录。这种表现表明GPT-4o在无提示情况下依然能够进行复杂的推理和回答问题。此外,在传统的5-shot no-CoT MMLU测试中,GPT-4o也创下了87.2%的新高分。这些评估结果均通过新的评估库进行,确保了测试的可靠性和权威性。这些改进不仅提升了模型的推理能力,还增加了其在广泛任务中的适用性。
音频ASR性能:
在音频处理方面,相比Whisper-v3,GPT-4o在自动语音识别(ASR)性能上实现了大幅提升,特别是在资源匮乏的语言中,其表现尤为突出。这意味着GPT-4o不仅能够处理主流语言,还能在更多语言环境下提供高质量的语音识别服务。
音频翻译性能:
同时,在语音翻译方面,GPT-4o也树立了新的行业标准,在MLS基准测试中表现优于Whisper-v3,展示了其在跨语言沟通和翻译方面的卓越能力。
M3Exam零样本结果:
在多语言和视觉评估方面,GPT-4o在M3Exam基准测试中,在所有语言的测试中均表现优异。这表明GPT-4o不仅在单一语言环境下表现出色,还能够处理多语言环境下的复杂任务,充分展示了其强大的跨语言理解和处理能力。
视频理解评估:
在视觉理解方面,GPT-4o在多个视觉感知基准上实现了最先进的性能。这些基准测试包括0-shot的MMMU、MathVista和ChartQA等,这意味着GPT-4o在无样本学习的情况下依然能够保持高水平的视觉理解和推理能力。这种能力使GPT-4o在处理图像、图表和复杂视觉信息时表现出色,进一步拓展了其在实际应用中的潜力。
GPT-4o在多个技术领域实现了显著的性能提升。多模态能力让GPT-4o在更多的应用场景中具有更高的实用性。此外,OpenAI提供了便捷的API接口,使得开发者可以轻松将GPT-4o集成到自己的应用中。此外,GPT-4o支持多种平台和编程语言,进一步提升了其使用的灵活性和便利性。
纵观整场发布会,OpenAI的表现并想要非突出技术带来行业变革,而是让人工智能技术除了在商业领域为企业带来的提质增效,也更能够服务好人们日常的生活。
或许这也是Sam Altman选择更有亲和力的女性CTO Mira Murati来主持本次发布会的原因之一。
除了实时语音对话功能,研发负责人Barret还带来了GPT-4o在实时处理数学问题的高光表现。Barret手写了一个方程,并通过摄像头将其拍给GPT-4o,并让其进行在线指导。在语音助手的一步步指引下,Barret也是非常轻松的解决了该问题。
此外,OpenAI还展示了GPT-4o在代码、实时翻译等多种问题,尽管还是在有些测试是出现了错误,但整个发布会都在一个非常轻松的环境下进行。不仅让企业或研究团队有了新的研究方向和参考,也让更多C端用户感受到AI赋予的全新产品体验。
在PC端,OpenAI 推出了一款新的 macOS 应用,旨在简化工作流程。该应用适用于免费和付费用户,可无缝集成到用户在计算机上的操作中。通过简单的键盘快捷键,用户可以立即向 ChatGPT 提问,并在应用程序中截取屏幕截图进行讨论。
对于 Plus 用户来说,这款 macOS 应用将提供更多的功能和服务。而未来几周内,OpenAI 还计划将该应用推广到更广泛的用户群体,并计划在今年晚些时候推出适用于 Windows 平台的版本,以满足不同用户的需求。
大模型之家认为,在人工智能领域的商业化进程中,C端市场占据了至关重要的地位。OpenAI作为一家领先的AI公司,对C端市场的用户体验给予了高度的重视,这种重视不仅是为了满足用户需求,更是为其在C端市场的进一步商业化探索铺平了道路。
在C端市场,用户需求多样化且变化迅速,因此也更佳需要智能、人性化的用户体验,不仅要优化模型算法,也要提升交互界面的友好性和易用性,确保用户在使用其产品时能够享受到流畅、自然的交互体验。
值得注意的是,OpenAI在2024年谷歌I/O大会前一天选择“截胡”,不仅体现了OpenAI对于C端多模态大模型市场的重视,也透露出OpenAI在大模型商业竞争格局中的积极态度和战略眼光。
这一行动无疑为OpenAI赢得了更多的行业声量。在科技行业中,声量往往与影响力、市场份额和商业化潜力紧密相连。OpenAI通过这一策略,成功吸引了大量用户和媒体的关注,进一步巩固了其在AI技术领域的领先地位。
更重要的是,OpenAI的这一行动也直接指向了C端多模态大模型的入口。随着技术的不断进步和应用场景的不断扩展,多模态大模型已经成为AI领域的重要发展方向。它不仅能够处理文本、图像、音频等多种信息形式,还能够实现更加智能、自然的人机交互,为用户带来更加便捷、丰富的体验。因此,谁能够抢占多模态大模型的入口,谁就有可能在未来的市场竞争中占据先机。
从大模型商业竞争格局来看,GPT-4o的免费开放无疑加剧了行业内的竞争,也展示出了其对于商业扩张的“野心”。显然,谷歌、Meta等科技巨头不会坐以待毙,在这场“全面升级”的大模型商战中,谷歌如何还击?相信很快就会揭晓。
本文来自微信公众号“大模型之家”(ID:damoaihome),作者:王昊达,36氪经授权发布。