ChatGPT4o升级人机交互模式，人工智能进入“助理”时代，看谁更善解人意

作者：胡二刀刀发布时间：2024-05-20

OpenAI于2024年5月14日正式推出GPT-4o，全语音交互，可以辨别人的语气和情感，可以通过摄像头理解图片，可以顺畅地进行语音翻译，惊艳全场。

紧接着第二天，谷歌发布的最新Gemini模型，同样可以顺畅地语音交互，并通过手机摄像头和智能眼镜来理解物理世界。

无论是ChatGPT4o还是Gemini都几乎完美复刻了11年前科幻片《Her》中的情节，尤其是男主人公为了让AI看世界，拿着手机满世界跑。

人机交互的争霸战已经开打，人工智能进入“助理”时代。现在比拼的是，谁家更“通情达理”，更“善解人意”。

为什么是O而不是5？

本次OpenAI发布的GPT-4o，其中"o"代表"omni"，即全能之意。其不仅在文本处理上达到了前所未有的水平，更在图像和语音处理方面取得了重大突破。

很多人搞不明白，为什么是“o”而不是“5”？

ChatGPT的版本号通常是根据发布的时间和更新的内容来制定的。一般来说，版本号由三部分组成，即主版本号、次版本号和修订号。例如，版本号为 1.0.0，其中第一个数字是主版本号，第二个数字是次版本号，第三个数字是修订号。

当进行重大更新或功能改进时，可能会增加主版本号；当进行一般性的更新或功能扩展时，可能会增加次版本号；当进行小幅修复或优化时，可能会增加修订号。

另外，还可以在版本号后面加入 Alpha、Beta、Gamma、Current、RC (Release Candidate)、Release、Stable 等后缀，对版本进行进一步说明。

OpenAI没有发布5，那就说明本次改进还不够重大，也给以后的升级留下了伏笔。

ChatGPT4o的三个特点

时延非常短，达到了240毫秒，就像跟正常人聊天一样。据官方消息，模型的反应时间已经缩短至平均320毫秒，并且它还能理解人类在对话中适时“打断”的习惯，会及时停下来听你说话并给出相应回复，也不会“断片”。这反应速度已达到人类级别。

原来的人机交互是需要先进行语音识别，转录成文本，然后文本进行回答再合成语音，这样往往有几秒钟的延迟。而现在通过跨文本、视觉、音频端到端的融合大模型，就会感觉到在语音模式下输入输出变得更加灵敏，更符合人感官的要求。

可以提供情绪价值。在聊天的过程中可以带入情感因素，比如焦虑、着急、紧张等，情绪价值直接拉满。比如，研发负责人Mark Chen表示自己因为上台紧张，ChatGPT便温柔地鼓励道：“你在台上做演示吗？那你真的太棒了！深呼吸一下吧，记得你是个专家！”而Mark表示要再来个深呼吸，ChatGPT顺势接话“慢慢呼气”，紧接着Mark一边疯狂地大喘气，ChatGPT惊讶地说：“放松啊Mark，慢点呼吸，你可不是个吸尘器！”

支持多模态交互。GPT-4o是迈向更自然人机交互的一步，它可以接受文本、音频和图像三者组合作为输入，并生成文本、音频和图像的任意组合输出。与现有模型相比，GPT-4o在图像和音频理解方面尤其出色。比如通过摄影头读取人物背景，准确说出其所处的位置。

“助理”时代的使用场景

ChatGPT4o与Gemini塑造了全新人机交互的范式，将人工智能推进到“助理”时代，比拼的是谁家助理更“通情达理”，更“善解人意”。

具体到应用场景中，家居生活是重要选项。原先家里的硬件没有触摸屏，更没有鼠标键盘，所以缺乏人机交互的能力。但“助理”的出现，即可实现人机对话，令硬件设备短时间之内产生响应。比如家里的监控发现有小孩儿爬上了窗台，它会第一时间发出警告，而不是单纯拍摄记录。

推而广之，家里的冰箱、彩电、洗衣机，甚至人型机器人，都可以与人产生交互，比如陪伴老人，做出各种提醒。