本报记者 李豪悦
5月14日,OpenAI召开春季发布会,直播发布全新旗舰AI模型GPT-4o。“o”代表“全知全能”,GPT-4o能够实现实时语音、文本、图像交互能力,并有几大亮点引发外界热议:无延迟感、识别和模仿人类情绪、免费使用且通过API(应用编程程序接口)调用的成本也将降低50%。
即:GPT-4o相比之前的模型更快、更强、更便宜。
“GPT-4o能接受任意组合的文本、音频和图像作为输入媒介,并在输出端任意生成。弥补了之前推出的ChatGPT、Sora、Suno等专业化语言大模型、视频大模型和音频大模型的短板。”独立国际策略研究员陈佳向《证券日报》记者表示,在模型平均反应速度领域,GPT-4o比GPT-4Turbo快了2倍,开发者限制速率则提高了5倍。
国盛证券研报提到,GPT-4o是迈向更自然的人机交互的重大进步,新功能带来了崭新的多模态交互能力,通过新的端到端模型实现了体验上的新突破,有望在各类终端实现用户体验的最大化,利好智能终端Agent、机器人等方向。
截至5月14日收盘,人形机器人概念板块涨幅1.96%,其中,盛通股份涨停。机器人概念涨幅1.18%,其中,汤姆猫20cm涨停。
相比GPT-4o带来的新功能,益海轩公司创始人、《海峰看科技》主理人黄海峰向《证券日报》记者提到国内目前的主流研究方向。“大家都在发力NLP(自然语言处理)、机器学习、语音识别、深度学习算法等。国内在ToB大模型方面,比如制造大模型、医疗大模型投入更大,成绩更多。”
不过,不少人认为GPT-4o更接近AGI(通用人工智能)。OpenAI首席执行官山姆·奥特曼表示,新的语音和视频模式是他用过的最好的电脑界面,感觉就像电影里的AI。达到人类水平的反应时间和表达能力是一个很大的变化。“我真的可以看到一个令人兴奋的未来,我们能够使用计算机做比以往任何时候都多的事情。”
陈佳认为,GPT-4o对于全球AGI大模型,甚至小模型和专业模型在生产生活应用场景下的AI开发推进过程非常重要。但是,它没有改变全球AGI大格局。“比如,在自然语言和代码文本领域,GPT-4o并没有超越GPT-4Turbo的性能表现,GPT-4o更多是GPT-4Turbo的迭代强化版本。”
今年以来,全球AI大模型端都持续迭代升级。华泰证券指出,伴随模型能力的升级,ToC应用有望迎来加速发展。ToC应用核心要解决的是产品性能以及用户的付费意愿,伴随底层基础模型的能力优化,ToC应用的使用效果显著提升,同时应用模态正在加速拓展。
(编辑 孙倩)