紫金财经5月14日消息 Open AI又放大招了!
继文生视频模型Sora之后,OpenAI再一次给外界带来惊喜。这一次,OpenAI向世人展现了强大且丝滑的语音对话等多模态能力。
北京时间5月14日凌晨,OpenAI在一则简短的视频介绍中发布了新一代AI模型GPT-4o,并将推出PC桌面版ChatGPT。
这款“全能的”大模型GPT-4o具备处理文本、音频和图像的能力。与前几代模型相比,它增加了语音功能,且运行速度更快。
“感觉就像电影里的人工智能。”发布会结束后,Open AI创始人在社交媒体X上发文称,“对我来说,与电脑对话从来都不是一件很自然的事,而现在却很自然。”
最新多模态模型来了
OpenAI官网介绍,GPT-4o中的o代表意为全能的前缀omni,称它向更自然的人机交互迈进了一步,因为它接受文本、音频和图像的任意组合作为输入内容,并生成文本、音频和图像的任意组合输出内容。
现场演示中,GPT-4o的表现仿佛一个人正坐在旁边,和人类的对话节奏自然、融洽,完全听不出是个AI,在短短的时间内,GPT-4o就能对音频输入做出反应。并且,它可以将文本、音频、图像任何组合作为输入和输出。
Open AI创始人Altman表示:“GPT-4o是OpenAI有史以来最好的模型,它很聪明,速度很快,是天然的多模态。”
在GPT-4o之前,用户使用语音模式与ChatGPT对话时,GPT-3.5的平均延迟为2.8秒,GPT-4为5.4秒,与之相比,GPT-4o可以在232毫秒内对音频输入作出反应,与人类在对话中的反应时间相近。
在录播视频中,两位高管作出了演示:机器人能够从急促的喘气声中理解“紧张”的含义,并且指导他进行深呼吸,还可以根据用户要求变换语调。
性能方面,根据传统基准测试,GPT-4o在文本、推理和编码等方面实现了与GPT-4 Turbo级别相当的性能,同时在多语言、音频和视觉功能方面的表现分数也创下了新高。
桌面版ChatGPT来了
除了推出新模型,在产品上,OpenAI也作出了诸多更新。
不同于此前OpenAI在推出模型新版本都会对特定付费用户开放的做法,本次GPT-4o的新功能将向所有用户敞开大门,可以免费运用模型进行更为复杂的数据分析,对图像进行深入的解析,访问GPT Store应用商店。
发布会上,OpenAI首席技术官MiraMurati表示,ChatGPT-4o 将免费向所有用户开放,而付费和企业用户,可以抢先获得体验。
另外,此前仅对ChatGPT Plus会员开放的视觉、联网、记忆、执行代码等高级功能也将对外开放免费使用。一系列普惠举措,无疑将吸引大批用户涌入OpenAI平台,尝试丰富的AI体验。
除了新模型的普惠举措,OpenAI发布了ChatGPT的桌面版本。
用户可以直接在电脑桌面上使用ChatGPT,并且Mac Plus用户将优先体验到这一功能。据悉,用户可以通过快捷键即刻向ChatGPT提问,或者直接在ChatGPT内截屏提问。这种直接在桌面上使用的便捷性,无疑将使用户体验得到大幅提升。
ChatGPT自2022年11月推出以来,便打破了当时最快增长消费类应用的历史记录,如今每周活跃用户已接近1亿。OpenAI表示,超过92%的《财富》500强企业都在使用该平台。
有趣的是,GPT-4o一经推出,OpenAI的竞争对手似乎坐不住了。
谷歌很快在社交媒体X平台上发布了一段预览Gemini大模型功能的视频。在视频中,这一AI模型能够通过摄像头来描述画面中发生的情况,并实时提供语音反馈,就像OpenAI最新展示的那样。
据悉,谷歌将在北京时间周三凌晨一点举办年度I/O开发者大会,届时,谷歌将发表主题演讲,介绍公司在各个软件领域的重大进展,预计人工智能(AI)将成为整个主题演讲的重点。