图片来源:视觉中国
OpenAI的首席执行官Sam Altman曾经分享过他最喜欢的科幻电影《her》—男主人公爱上了一个通过对话操作的AI虚拟助理。而现在,电影情节似乎有望成为现实。
北京时间周二凌晨一点,OpenAI在发布会上推出最新的多模态大模型GPT-4o(o代表Omni,意为全能的)。这款“全能的”大模型具备能够处理文本、音频和图像的能力。与前几代模型相比,它增加了语音功能,且运行速度更快。
“感觉就像电影里的人工智能。”发布会结束后,Sam Altman在社交媒体X上发文称,“对我来说,与电脑对话从来都不是一件很自然的事,而现在却很自然。”
“全能”大模型
据OpenAI官网,GPT-4o是其第一个结合文本、视觉和音频模式的模型,所有输入和输出都由同一神经网络处理。GPT-3.5和GPT-4的语音模式则是由三个独立模型组成的流水线,包括转录、大语言模型和文生语音。
OpenAI的首席技术官Mira Murati解释道:“当三种不同的模型协同工作时,就会在体验中引入大量延迟,从而破坏体验的沉浸感。但是如果有一个模型,能在音频、文本和视觉之间进行原生推理,就能减少所有的延迟,能与 ChatGPT 进行像我们现在的交互。”
OpenAI介绍称,GPT-4o响应音频输入的平均时间在320毫米,最短可达232毫秒,这与人类在谈话中的响应时间相似。现在用户可以与ChatGPT进行更像真人的实时对话,不需要机械性的一问一答,可以随时打断它的回复,提出新的要求,如转变话题、要求ChatGPT改变语音语调等。但是在演示过程中,ChatGPT回复的音频仍然不时发生卡顿。
GPT-4o的视觉功能也得到了升级。新模型能够实时读懂手机镜头画面或屏幕信息。在演示时,不仅能够帮助解答手写的代数方程,还能迅速地对一段Python代码及图表进行分析。
让许多用户感到惊奇的是,GPT-4o甚至展现出了能够识别人类情绪的能力。在演示中,一名研究员要求AI模型读取其面部表情并判断他的情绪。ChatGPT的语音助手回复称他看起来“快乐、开朗,笑容灿烂,甚至还有点兴奋”。当被称赞“有用且令人惊叹”时,ChatGPT还能用像人类的方式回答道:“哦,别说了,你让我脸红了”。
OpenAI的竞争对手
GPT-4o一经推出,OpenAI的竞争对手似乎坐不住了。谷歌很快在社交媒体X平台上发布了一段预览Gemini大模型功能的视频。在视频中,这一AI模型能够通过摄像头来描述画面中发生的情况,并实时提供语音反馈,就像OpenAI最新展示的那样。谷歌将在北京时间周三凌晨一点举办年度I/O开发者大会,预计会展示一系列AI相关的产品。
去年12月,谷歌发布了Gemini 1.0版本,称其具有多模态交互能力。在视频演示中,Gemini能够实时感知人类动作,并直接做出语音回应。但随后视频被曝出经过剪辑,谷歌也承认为了演示效果,减少了延迟并缩短了Gemini的输出时间。
不少人还将OpenAI的GPT-4o与苹果的AI助理Siri进行对比。据彭博社此前报道,苹果即将与OpenAI达成协议,正在敲定在下一代iPhone操作系统iOS18中应用ChatGPT功能的具体条款。苹果将在6月举办WWDC全球开发者大会,预计会在活动上宣布一系列人工智能功能。
何人、何时能用上GPT-4o
OpenAI将于今日起推出GPT-4o 的文本和图像功能,并强调ChatGPT的免费用户也能够使用。在此之前,免费用户仅拥有GPT-3.5的使用权限,GPT-4模型面向的是付费用户。
据OpenAI介绍,付费用户会获得高达5倍的消息容量限制。当免费用户用完限定的信息数量后,ChatGPT会自动切换到GPT-3.5。
目前GPT-4o的API中还未包括语音功能。OpenAI对滥用风险表示了担忧,计划将在未来几周内向付费用户提供新的音频功能。
GPT-4o的多语言能力也得到了升级。它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,但在非英语文本上的性能显著提高。同时API的速度也更快,成本降低了50%。
ChatGPT的更新还包括新的用户界面(UI)和适用于macOS的桌面版ChatGPT。用户可以使用快捷键向ChatGPT提问,并直接在应用程序中通过屏幕截图进行讨论。
Mira Murati表示,“我们知道这些模型越来越复杂,但我们希望交互体验变得更自然、更简单,让你完全不用关注用户界面,而只关注与GPT的协作。”