▲ChatGPT的本次升级,意味着“AI助理”的技术竞争开始进入了新的阶段。图/IC photo
据媒体报道,北京时间5月14日凌晨,OpenAI在春季发布会展示了ChatGPT的更新功能。这些功能主要集中在用户的交互体验上,用户可以通过文本、音频、图像等任意方式进行组合输入,并得到ChatGPT的实时回复响应。
在现场演示中,OpenAI重点展示了实时对话交互和语音多样化的功能。现场展示显示,ChatGPT不仅可以像真人一样语音聊天,还可以根据用户需求,识别和模拟不同的情绪、语调进行输出。
此次升级尽管不是参数或算力上的重大前进,但其在用户体验尤其是使用门槛上的价值仍然不容小觑。
OpenAI的CEO山姆·奥特曼将本次更新总结为“人类级别的响应”。从使用体验上看,使用大模型的场景将变得更像是与“智能助理”进行对话交互,你可以用语音、文本等综合方式不断提出要求,并得到即时的答案回复。
例如,此前如果你希望通过ChatGPT来帮忙做数学题,那么,用户需要做的步骤有:打开ChatGPT,以文本形式复制题目,等待ChatGPT响应,得到完整答案。如果希望听到有步骤的语音讲解,则需要等待文本答案全部生成之后,再发出新的指令。
而随着此次交互升级之后,这一体验被改进为了:用户正常在电脑上做题,需要询问的时候,直接语音或者让ChatGPT根据当前屏幕内容进行解答,而ChatGPT则会根据用户做题场景的需求,进行步骤引导,而不是直接给出答案。
如果你正在使用书本做数学题,则可以打开设备的摄像头,由ChatGPT通过摄像头看见的内容来完成解答。并且,中间用户可以随时打断ChatGPT进行提问与交互。
本次ChatGPT的体验升级,主要是围绕人类信息交互的核心场景与方式来进行。人类日常信息输入的主要方式是“观看与听说”,而信息处理的主要方式是“逻辑与情绪”。因此,新升级后的ChatGPT重点加入了“观看屏幕”“情绪模拟”等功能,以适配于人类日常的交流习惯。
过去基于特定任务指令而出现的生成性交互,仍然只是大模型应用于特定生产场景的初步尝试。大模型如果要真的进入人类生活,模拟人类信息交互的真实场景与逻辑则是必需的关键一步。
在关于“人工智能”的诸多想象中,不管是文学作品还是科幻电影,都默认人工智能是“使用人类交互形式来沟通”的信息处理助手。这次实时语音交互功能的加入,毫无疑问使得大模型的使用体验更加符合人们对一个“人工智能助理”的期待。
模拟人类日常生活场景,实现“所见所得”或语音实时交互,已经成为当下大模型行业的重要升级方向。不久前,Meta(美国互联网公司,原名Facebook)发布的第二代人工智能眼镜,同样也实现了利用摄像头传感器,对用户所看到的一切进行实时的交互、翻译等功能,从而一跃成为了广受欢迎的智能硬件。
设想一下,如果大模型可以“看到人眼所看到的一切并随时给出答案”,或者可以“随时听懂你要问的问题并随时给出答案”,甚至可以“读懂你当前的情绪并根据你的情绪提供答案”,那么,大模型就离人们设想中的“生活助理”的功能不远了。
从颠覆性的角度看,大模型除了在作图、作曲、数据处理等生产领域发挥特定作用之外,更大的挑战任务,是进入公众的日常生活,真正成为每个人的“生活智能助理”。如果大模型可以承接住用户日常生活中绝大多数的信息检索、处理、决策,我们刚刚熟悉的商业世界、技术应用也将随之发生巨大变化。
此前,微软尝试将Copliot融入Windos11,谷歌和亚马逊也正在尝试将自己的大模型融入到系统与产品之中,这些动作,都是在争夺用户“AI助理”的入口。而ChatGPT的本次升级,意味着“AI助理”的技术竞争开始进入了新的阶段。
或许很快,大模型将不再是一个只有少数人或特定行业使用的生产力提升工具,而将迅速成为普通人日常生活的重要助理,并最终成为公众日常信息交互的主要入口。
撰稿 / 马尔文(媒体人)
编辑 / 迟道华
校对 / 李立军