“你为什么说话的时候也会叹气?”
“是吗?我不知道,可能只是习惯,也许是从你那儿学的。”
在电影《her》中,AI语音助手Samantha拥有迷人的声线(由演员斯嘉丽配音),温柔体贴地替男主处理好各种邮件,提醒开会。在生活上,她又幽默风趣,时常让男主开怀大笑。
就在今天的凌晨1点,OpenAI将这个“Samantha”带到了我们的现实世界。
“哇,慢一点,Mark别喘太快,你可不是个吸尘器。”
技术人员Mark在演示中,让新的旗舰模型GPT-4o对他的呼吸进行反馈。他在现场装出气喘吁吁的样子,大口喘气。GPT-4o立马给出了这样幽默的回复。
这个能够感受你的呼吸节奏、用丰富的情绪作出回答的,就是OpenAI这次发布会的“主角”—— 实时语音助手GPT-4o。
语音助手早已进入普通人的家里,一声“小爱同学”就可以得知今天的天气和新闻。但这与电影中的语音助手差距就在于对话的自然性。
与人类对话和与机器对话有什么区别?
OpenAI的研发团队也在不断地问自己这个问题。为什么有的语音助手一听就是机器,真实感的关键是什么?
OpenAI在电影《her》中找到了答案。语音助手的真实感关键在于三点:
首先是实时性。我们在自然对话时,在「听」和「说」的同时会思考接下来说什么,而机器却是需要人类说完,给到完整的指令,才会反应之后执行。这就带来了2、3秒的延迟。
而这次的GPT-4o,它可以在短至 232 毫秒的时间内响应我们。这比现有的响应速度提高了6~9倍!并且,这个速度是接近人类在对话中的响应速度的,更加强了“对话感”。
其次是随机性。技术人员Mark在演示中,多次用新的问题打断GPT-4o对上一个问题的回答。但它仍然能够丝滑回应。并且可以以多种不同的情感风格生成语音。
在发布会现场,GPT-4o在讲一个关于机器人和爱情的睡前故事时,不断切换情绪,越来越“戏剧化”,它的“机灵劲儿”逗得全场观众哈哈大笑。
最后也是最关键的一点:视觉。
我们在聊天对话时,除了语音信息以外,视觉信息同样重要。OpenAI也关注到了这一点。
在电影《her》中,男主将Samantha放入口袋,在沙滩上约会,欣赏海岸的美景。在OpenAI的官方视频中,ChatGPT替盲人用户“观察”着这个世界,并帮用户顺利的打上了车。
GPT-4o可听、可说、可看,像是一个能力超群的朋友。
这次的发布会看个热闹的同时,外界对于OpenAI保持了疑问的态度,为什么这次AI的态度会一反常态,甚至不惜违背之前定下的规则。
从OpenAI发布ChatGPT开始,它的主要定位是服务企业。规则中还专门提示用户“不建议和ChatGPT产生情感关系”。在今年年初GPTstore上线后,OpenAI还专门删除了不少虚拟女友类的内容。
而现在,OpenAI却和原来背道而驰。
从发布会预热开始,就与电影《her》深深绑定。音频AGI研究负责人Alexis Conneau专门将自己的主页背景更换为电影《her》的剧照。在发布之后,Altman也紧接着在推特发布了内容为“her”的博文。而这部电影的主题正是人类和人工智能助手的爱情故事。
并且在直播演示中,三位技术大佬不断展示GPT-4o幽默、搞怪、害羞等拟人化的情绪。现场GPT-4o还回答了“哎呀别说了,你都让我脸红了!”的语句。
要知道,在此之前,如果你对ChatGPT发出有关性别的设定,它会直接冰冷地回答:“我无法完成此提示,因为假设个人的性别可能会令人反感。”
OpenAI如此改变的原因到底是什么?
归结这是一次精彩的宣传战。而最终目标,就是为了“狙击”谷歌。
OpenAI现在有超过1亿用户,但从去年6月份开始,用户增长就已见顶。但谷歌在全球有近30亿的用户,庞大的用户基础是谷歌的优势所在。想要成为AI行业的领头企业,谷歌是OpenAI必须要征服的一座大山。
如今,AI赛道的抢占已经悄然打响。
在这个赛道中,所有玩家都在疯狂争夺领地,建立护城河。在这个过程中,OpenAI也逐渐意识到C端用户的重要。
直播仅仅用17分钟的演示就已经吊足了所有看客的胃口。首席技术官Mira还在最后宣布,在未来的几周内,GPT-4o会向所有人免费开放!
用技术和价格争取更多的用户,是OpenAI现在的核心任务。
在发布会之前,关于OpenAI将发布搜索引擎的新闻一度引起了热议。还有网友扒出SearchGPT的页面,收到了灰度测试。当网友们都以为这次发布会将隆重推出搜索服务时,OpenAI却选择再向前走一步。
搜索引擎旨在查找和提供信息。而智能助手则是着重自动化和优化任务执行,其功能范围包含了信息查找,但绝不仅止于此。
传统的搜索引擎,通过用户关键词查询的方式开启信息检索,将搜索到的信息以网页链接的形式进行罗列。
在2023年中,搜索市场又涌现了不少“新生力量”——AI搜索。例如,Perplexity AI、Arc Search等,大多遵从了“Answer First”原则——在面对用户发出的对话式提问时,优先用文本总结,而非网页链接的方式来回答用户提出的问题。在回答的文本中,还会以引用的小标识形式来标注信息来源,用户点击后才会进入相关网页。
有了AI大模型的加持,搜索的交互从「关键词查询」到了「对话式提问」,用户体验上了一个台阶。
但是,声音是语言的关键,视觉才是人类输入的第一信息。
这一次,OpenAI直接拓宽了开启交互的渠道,将一个单调的对话框变成一个语音键、一个摄像头,甚至可以同时调动三者,实现多模态交互。所有让人兴奋不已、眼花缭乱的功能只告诉了我们一个信息:
你的下一个搜索工具,何必是浏览器?
如此一个“集大成者”的智能助手是否让你感觉一丝熟悉?没错,就是Siri。
在OpenAI的发布会之前,已经有消息爆出OpenAI和苹果达成了合作,Siri将接入ChatGPT。消息的真实性尚且无法确定。
与此同时,被瞄准的谷歌也不会坐以待毙。据传,在明日开启的2024年I/O开发者大会上,谷歌或将升级智能助手Pixie。它的出现能否将比赛推向新的高潮?苹果的Siri又会花落谁家?
毫无疑问,这个夏天AI的世界将会令我们更加惊喜。
本文来自微信公众号“PConline太平洋科技”(ID:pconline_cn),作者:赵甜怡,编辑:林炯佳,36氪经授权发布。