OpenAI于2024年5月14日正式推出GPT-4o,全语音交互,可以辨别人的语气和情感,可以通过摄像头理解图片,可以顺畅地进行语音翻译,惊艳全场。
紧接着第二天,谷歌发布的最新Gemini模型,同样可以顺畅地语音交互,并通过手机摄像头和智能眼镜来理解物理世界。
无论是ChatGPT4o还是Gemini都几乎完美复刻了11年前科幻片《Her》中的情节,尤其是男主人公为了让AI看世界,拿着手机满世界跑。
人机交互的争霸战已经开打,人工智能进入“助理”时代。现在比拼的是,谁家更“通情达理”,更“善解人意”。
01
为什么是O而不是5?
本次OpenAI发布的GPT-4o,其中"o"代表"omni",即全能之意。其不仅在文本处理上达到了前所未有的水平,更在图像和语音处理方面取得了重大突破。
很多人搞不明白,为什么是“o”而不是“5”?
ChatGPT的版本号通常是根据发布的时间和更新的内容来制定的。一般来说,版本号由三部分组成,即主版本号、次版本号和修订号。例如,版本号为 1.0.0,其中第一个数字是主版本号,第二个数字是次版本号,第三个数字是修订号。
当进行重大更新或功能改进时,可能会增加主版本号;当进行一般性的更新或功能扩展时,可能会增加次版本号;当进行小幅修复或优化时,可能会增加修订号。
另外,还可以在版本号后面加入 Alpha、Beta、Gamma、Current、RC (Release Candidate)、Release、Stable 等后缀,对版本进行进一步说明。
OpenAI没有发布5,那就说明本次改进还不够重大,也给以后的升级留下了伏笔。
02
ChatGPT4o的三个特点
时延非常短,达到了240毫秒,就像跟正常人聊天一样。据官方消息,模型的反应时间已经缩短至平均320毫秒,并且它还能理解人类在对话中适时“打断”的习惯,会及时停下来听你说话并给出相应回复,也不会“断片”。这反应速度已达到人类级别。
原来的人机交互是需要先进行语音识别,转录成文本,然后文本进行回答再合成语音,这样往往有几秒钟的延迟。而现在通过跨文本、视觉、音频端到端的融合大模型,就会感觉到在语音模式下输入输出变得更加灵敏,更符合人感官的要求。
可以提供情绪价值。在聊天的过程中可以带入情感因素,比如焦虑、着急、紧张等,情绪价值直接拉满。比如,研发负责人Mark Chen表示自己因为上台紧张,ChatGPT便温柔地鼓励道:“你在台上做演示吗?那你真的太棒了!深呼吸一下吧,记得你是个专家!”而Mark表示要再来个深呼吸,ChatGPT顺势接话“慢慢呼气”,紧接着Mark一边疯狂地大喘气,ChatGPT惊讶地说:“放松啊Mark,慢点呼吸,你可不是个吸尘器!”
支持多模态交互。GPT-4o是迈向更自然人机交互的一步,它可以接受文本、音频和图像三者组合作为输入,并生成文本、音频和图像的任意组合输出。与现有模型相比,GPT-4o在图像和音频理解方面尤其出色。比如通过摄影头读取人物背景,准确说出其所处的位置。
03
“助理”时代的使用场景
ChatGPT4o与Gemini塑造了全新人机交互的范式,将人工智能推进到“助理”时代,比拼的是谁家助理更“通情达理”,更“善解人意”。
具体到应用场景中,家居生活是重要选项。原先家里的硬件没有触摸屏,更没有鼠标键盘,所以缺乏人机交互的能力。但“助理”的出现,即可实现人机对话,令硬件设备短时间之内产生响应。比如家里的监控发现有小孩儿爬上了窗台,它会第一时间发出警告,而不是单纯拍摄记录。
推而广之,家里的冰箱、彩电、洗衣机,甚至人型机器人,都可以与人产生交互,比如陪伴老人,做出各种提醒。
同样利用GPT-4o模型,OpenAI和Be My Eyes合作推出了一款APP,可以帮助视力受限人群实时了解身边场景,并提供帮助。他们只要举着手机,就可以“看见”路上和周边的一切。比如路上行驶的出租车是否处于空车状态,提示视力受限人士招手打车,以及车辆是否已经停下。
实时语音转文本和翻译功能可用于在公共演讲、会议或表演中提供实时字幕和翻译,确保听障人士或使用不同语言的人士能够参与活动。
谷歌的Project Astra是一个实时、多模式的人工智能助手,通过接收信息、记住它所看到的内容、处理该信息和理解上下文细节来与周围的世界进行交互,可以回答问题或帮助人们做事情。
甚至在不经意间,Project Astra还展现了它的记忆力。用户问:“你记得我把眼镜放哪了吗?”助手答道,“你的眼镜在桌子上的红苹果旁边。”可以看出,Project Astra通过镜头记住了一闪而过的眼镜。
以上只是“助理”功能的部分应用,从实时语音助手到多语言翻译,从图像识别到复杂的文本生成任务,人工智能的应用场景还有更多等待我们挖掘。
部分资料来自《能说会看!GPT-4o发布,谷歌端上“AI全家桶”反击》