深圳商报·读创客户端首席记者 陈小慧
科幻电影《her》中,男主人公爱上了一个通过对话操作的AI虚拟助理。如今,电影情节有望成为现实。
北京时间5月14日凌晨一点,OpenAI举行了一场春季发布会,重点介绍了新的 ChatGPT 产品ChatGPT-4o。
(图片来源于openai官网截图。下同)
记者注意到,自2月Sora横空出世以来,AI似乎很久没有炸裂产品发布,此次ChatGPT-4o的推出再次吸引了全球关注。
据悉,ChatGPT-4o可以实现跨文本、视觉和音频端到端的训练,还可以输出笑声、歌声或提供“情绪价值”。
此前,OpenAI首席执行官萨姆·阿尔特曼(Sam Altman)已在社交媒体上表示,此次春季发布会没有GPT-5,也不会是搜索引擎。“我们一直努力开发一些我们认为人们会喜欢的新东西,对我来说,感觉就像魔法一样。”Sam Altman在社交平台上发文表示。
根据OpenAI官网,GPT-4o(“o”代表“omni”)是向更自然的人机交互迈进的一步,它接受文本、音频和图像的任何组合作为输入,并生成文本、音频和图片的任何组合输出。GPT-4o可以在最短232毫秒的时间内对音频输入做出响应,平均为320毫秒;在英文文本和代码方面,GPT-4o性能与GPT-4 Turbo相当,在非英文文本方面有显著改进,同时在API方面也要快得多且便宜50%。与现有型号相比,GPT-4o在视觉和音频理解方面尤其出色。
在此次春季发布会上,OpenAI的首席技术官Mira Murati、OpenAI的研究主管MarkChen和后训练团队负责人Barret Zoph现场与GPT-4o进行实时对话,演示GPT-4o的强大功能。
与以往不同的是,用户在与GPT-4o进行对话的时候,无需等待它回答完了后才能说话,而是可以随时打断它的回复,提出新的要求和转变新的话题,还可以要求GPT-4o改变情绪、语音语调和唱歌。
比如,演示中,Mark和GPT-4o说自己第一次演讲有点紧张,GPT-4o就“指导”Mark说可以尝试深呼吸;同时,演示者还要求GPT-4o分别用更富有情绪、最大化情绪以及机器人的声音来讲故事,还可以让它用唱歌的语音语调讲述。
在视觉识别方面,演示者写了一个数学方程解题:3x+1=4,GPT-4o也能快速识别出来并且一步步指导演示者进行解题。当演示者写了一个“i love ChatGPT”时,GPT-4o识别出来后,还会用不好意思的语气回复:“你真甜!”
OpenAI首席技术官米拉·穆拉蒂表示,相比去年11月发布的GPT-4-turbo,GPT-4o价格降低一半,速度提升两倍。GPT-4o的语音和视频输入功能将在未来几周内推出。
受GPT-4o消息影响,A股多模态AI概念表现强劲,汤姆猫涨停,泓博医药、声迅股份涨幅超过10%。
国盛证券研报认为,GPT-4o是迈向更自然的人机交互的重大进步,新功能带来了崭新的多模态交互能力,通过新的端到端模型实现了体验上的新突破,有望在各类终端实现用户体验的最大化,利好智能终端Agent、机器人等方向。