北京时间5月14日凌晨,OpenAI公司继今年2月份推出首个AI视频模型Sora后,又用短短26分钟的发布会,扔出了新王炸——他们推出了全新旗舰AI模型GPT-4o(GPT-4 omni),omni指的是“全能模型”。
OpenAI公司称,GPT-4o迈出了未来AI与人类进行“自然人机交互”最为重要的一步,它可以接受用户输入的任意文本、音频、图像的随意组合信息,并能以文图音的任意组合模式进行反馈回应。
GPT-4o在正式发布前,是一个在LMSys竞赛中的测试版本,当时名为“im-also-a-good-gpt2-chatbot”,在测试中就表现优异,远超GPT-4 Turbo、GPT-4、Gemini等模型的强大性能,从模型能力、安全和局限性等方面刷新了业界水平。
正式版本的GPT-4o对音频输入(即语音交互)的平均响应时间为 320 毫秒,最短只需要232 毫秒,这与人类之间使用语言沟通的响应时间相近,据介绍,与现有模型相比,它在视觉和音频理解方面胜出许多。
OpenAI首席技术官穆拉蒂(Mira Murati)在活动中,演示了装载在一部iPhone上的GPT-4o语音助手,要求它讲个睡前故事,要求它以歌声结束这个故事,并附加了机器和人类语音切换,英语和意大利语互译等——这看起来平平无奇,小爱,小度之类的国内“智能音箱”的智力水平也能达到,不过就是广告多一些而以。
在GPT-4o在被要求通过手机摄像头解读演示者面部表情,并判断当前的情绪时,它的表现让人惊艳。
“你此刻看起来是快乐而开朗的,笑容灿烂,甚至可能有点兴奋……”AI很快用活泼的女声给出了回应,“不管发生了什么,看起来你的心情很好,愿意分享一下这些美好的感觉的来源吗?”
业界人士称,GPT-4o的发布,或将颠覆实时翻译、音视频剪辑、看护照顾等众多行业,并向人类提供以假乱真的AI交互场景——如果类似的AI模型植入到类人仿生机器人中——那以前的科幻电影,便会成为现实场景。
此前,英伟达CEO黄仁勋就曾表示,ChatGPT的出现是 AI 的“iPhone时刻”,表示很看好并期待这家公司在未来给人类社会带来的改变。
但另一位大佬马斯克在看过发布会后表示,GPT-4o的演示让他感到“不适、尴尬”,这遭到了GPT粉丝的不满,有用户留言回怼——“放出Grok的可用版本的类似产品再说话吧……”
Grok是马斯克的AI初创公司X.ai推出的AI模型,它是用了包括马斯克收购的社交媒体平台X(原名Twitter)上的语料训练出来的——但它在基准测试中,比不过GPT4,也比不过Palm-2及Claude3,随后,马斯克将它开源,用户可以免费商用,但至今仍没有基于Grok的知名大型应用产品出现。
GPT-4o可以用人类的声音与用户交谈,通过摄像头的面部捕捉,实时理解用户的面部表情,并即时的进行交互——包括但不限于翻译、答疑,聊天,甚至是与用户进行“调情”……这让很多人想到了一部2013年的科幻电影《她》。
片中讲述了一个心碎而孤独的作家西奥多,爱上了存在于电脑中的女声AI操作系统萨曼莎——GPT-4o现在展示出来的能力,正是当初片中的萨曼莎的能力!
有人在社交媒体上留言,“世界永远的改变了……”,得到了OpenAI的CEO奥尔特曼(Sam Altman)的回应,他明确指出了这部电影的名字。
随后不久,他还单独发文暗示GPT-4o确实有点像电影中的“她”——“感觉就像电影里的AI,这对我来说仍然有点惊讶,但它是真实的……”
在很早以前的一次公众活动中,奥尔特曼就明确表示过,他最喜欢的电影就是《她》,因为“萨曼莎”能做对的事情……
有兴趣的朋友可以去找这部电影来看看,不放链接了,如果赶时间,也可以在B站上看到很多up主对这部电影的解说。
最后,OpenAI称,人们可以免费使用GPT-4o。
好吧,国产AI,请给点力!