封面新闻记者 边雪 马晓玉
科技观察
既不是新的搜索引擎,也不是GPT-4.5或GPT-5。
万众期待中,北京时间5月14日凌晨,OpenAI在首次“春季新品发布会”上拿出了“杀手锏”——新一代旗舰生成模型GPT-4o和桌面程序。根据OpenAI官方网站介绍,GPT-4o中的“o”代表Omni,指的是该模型处理文本、语音和视频的能力,也就是“全能”的意思。
据悉,GPT-4o将在接下来的几周内“迭代”地推出到公司的开发者和消费者产品中。OpenAI首席技术官Mira Murati表示,GPT-4o提供了“GPT-4级”的智能,但在多种模态和媒体上改进了GPT-4的能力。
“GPT-4o可以跨语音、文本和视觉进行推理,”OpenAI的CTO米拉·穆拉蒂(Mira Murati)在旧金山办公室的直播演示中说道。“这非常重要,因为我们正在关注我们与机器之间的交互未来。”
OpenAI之前的“领先”、“最先进”的模型是GPT-4 Turbo,它是通过对图像和文本的结合进行训练的,能够分析图像和文本来完成任务,例如从图像中提取文本,甚至描述图像内容。
作为新一代旗舰模型,GPT-4o把AI工具的使用门槛降到了更低的程度,不仅比上一代速度快两倍,能实现无延迟实时对话,而且用户不用注册,功能全部免费。
GPT-4o。(图源:OpenAI官网)
01
GPT-4o:更快更准确懂用户
极大地改进了OpenAI的AI聊天机器人ChatGPT的体验。该平台长期以来一直提供了语音模式,使用文本转语音模型转录聊天机器人的回复,但是GPT-4o使其功能更加强大,让用户能够更像与助手交互。
例如,用户可以向由GPT-4o驱动的ChatGPT提问,并在ChatGPT回答时打断。OpenAI表示,该模型具有“实时”响应性,甚至可以捕捉用户声音中的细微差别,以生成“一系列不同情感风格”的声音(包括唱歌)。
GPT-4o还提升了ChatGPT的视觉能力。给定一张照片或者桌面屏幕,ChatGPT现在可以快速回答相关问题,涉及的主题从“这段软件代码发生了什么?”到“这个人穿的是什么牌子的衬衫?”
Murati表示,这些功能将在未来进一步发展。“尽管目前GPT-4o可以查看不同语言的菜单照片并进行翻译,但未来,该模型可能使ChatGPT能够‘观看’直播的体育比赛并向您解释规则。”
“我们知道这些模型变得越来越复杂,但我们希望交互体验实际上变得更加自然、简单,您不需要关注UI,而只需专注于与ChatGPT的合作,” Murati说道。“在过去的几年中,我们一直致力于改善这些模型的智能…但这是我们在易用性方面真正迈出的巨大一步。”
封面新闻记者在OpenAI官网注意到,GPT-4o在多语言方面更加强大,性能提升了约50种语言。此外,在OpenAI的API和Microsoft的Azure OpenAI服务中,GPT-4o的速度是GPT-4 Turbo的两倍,价格是其一半,且速率限制更高。
自发布之日,GPT-4o可在ChatGPT的免费版本中使用,并提供给OpenAI的高级ChatGPT Plus和Team计划订户,具有“5倍更高”的消息限制。(OpenAI指出,当用户达到速率限制时,ChatGPT将自动切换到GPT-3.5,这是一个较旧且功能较弱的模型。)以GPT-4o为基础的改进的ChatGPT语音体验将在未来一个月左右的时间内为Plus用户提供alpha版,并配备企业专注的选项。
GPT-4想要实现和人的对话需要通过三步来实现:先把语音转换为文字,再生成回复文本,最后再转成语音。根据用户选择模型的不同,这个过程的平均延迟高达2.8秒 (GPT-3.5)和5.4 秒(GPT-4),对着手机屏幕等回复,跟GPT聊过天的朋友应该都有类似的体验。
而且在语音转文字再转语音的过程中,很多信息损失了,GPT无法获得说话人的音调,也无法收取背景音,如果有多个人一起说话更是灾难性的场景。
OpenAI的CTO米拉·穆拉蒂与同事介绍GPT-4o(图源:直播截图)
“我们跨文本、视觉和音频端到端地训练了一个新模型,”OpenAI写道,“这意味着所有输入和输出都由同一神经网络处理。”现在的GPT-4o可以在最短232毫秒内响应对话,平均响应时间320毫秒,和人类的反应速度几乎一样,爱跟ChatGPT聊天的朋友终于可以从微信语音模式切换到日常交流模式了。
5月14日,封面新闻记者使用了GPT-4o进行提问,相较于GPT-3.5,其回答速度更加迅速,几乎是“脱口而出”,答案梳理也更加全面。
值得注意的是,GPT-4o API声音功能仅适用于部分用户,OpenAI称出于滥用风险考虑,计划首先在未来几周向“一小部分可信赖的合作伙伴”提供对GPT-4o新音频功能的支持。
在更懂用户上,GPT-4o甚至能通过呼吸来辨别你的情绪。
发布会的最后一个环节是实机演示。OpenAI研究员Marc Chen和Barret Zoph一起展示了GPT-4o的“魔力”。
在第一段对话里,Chen对GPT说,自己有点紧张,然后开始急促地呼吸。GPT识别到了他呼吸的声音,说,别紧张,你喘得像个吸尘器,深呼吸,再吐气。接着GPT开始指导Chen怎么深吸慢呼平复心情。
无论是在听环境音还是即时反馈上,GPT-4o的表现都十分让人惊喜:它可以同时完成输入和输出,在分析用户喘气声后进行呼吸指导。
第二个demo里,Chen让GPT给Zoph讲个睡前故事哄他入睡,Chen反复打断GPT的讲述,问它能不能讲得更刺激点,最后,GPT跟用非常迪士尼的方式唱出了一个故事。
OpenAI研究员Marc Chen和Barret Zoph一起展示了GPT-4o。(图源:直播截图)
02
OpenAI 抢跑谷歌?
巧合的是,当地时间5月14日,OpenAI 发布更新的第二天,正是谷歌一年一度的“Google I/O”大会。业内人士指出,这是OpenAI不希望谷歌的技术大会抢了该产品的风头。
事实上,早在今年2月,就有媒体报道称,OpenAI正在开发一款由Chat gpt驱动的搜索引擎,它很有可能会彻底改变网络搜索,并撼动谷歌对于全球搜索市场主导地位。
许多用户表示,现在更多的是使用OpenAI 进行知识的深入探索而非Google。
谷歌也一直担心竞争对手的AI服务可能对其搜索业务构成威胁,因为该公司的大部分收入来自数字广告销售,每年通过搜索业务创造超过2200亿美元的广告收入。
因此,外界一直猜测OpenAI 本次春季更新将剑指搜索引擎,不过没多久便被总裁阿尔特曼辟谣,表示并非gpt-5,也不是搜索引擎。
GPT-4o 在 LMSys 领域测试的表现。(图源:截图)
03
新的Siri 将来自 OpenAI?
据外媒报道,苹果公司已与 OpenAI 达成协议,在 iPhone 上使用其技术,这是将人工智能功能引入其设备的更广泛努力的一部分。
据悉,在苹果公司软件工程高级副总裁 Craig Federighi 和苹果公司机器学习与人工智能战略高级副总裁 John Giannandrea 花了数周时间测试 ChatGPT 后,发现 Siri 已经过时,苹果公司正计划将生成式人工智能作为一个支柱项目,将把生成式人工智能引入 iPhone。
苹果CEO蒂姆·库克也承认,苹果正在对生成式人工智能领域进行大量投资。他表示,苹果今年将在生成式人工智能领域“开辟新天地”。
有知情人士表示,苹果公司与OpenAI一直在敲定在苹果下一代 iPhone 操作系统 iOS 18 中使用 ChatGPT 功能的协议条款。苹果同时还与谷歌就授权Gemini聊天机器人进行了谈判。这些讨论尚未达成协议,但仍在进行中。