【原创】OpenAI新“魔法”：发布GPT-4o多模态大模型，可输出“情绪价值”

作者：读创发布时间：2024-05-15

深圳商报·读创客户端首席记者陈小慧

科幻电影《her》中，男主人公爱上了一个通过对话操作的AI虚拟助理。如今，电影情节有望成为现实。

北京时间5月14日凌晨一点，OpenAI举行了一场春季发布会，重点介绍了新的 ChatGPT 产品ChatGPT-4o。

（图片来源于openai官网截图。下同）

记者注意到，自2月Sora横空出世以来，AI似乎很久没有炸裂产品发布，此次ChatGPT-4o的推出再次吸引了全球关注。

据悉，ChatGPT-4o可以实现跨文本、视觉和音频端到端的训练，还可以输出笑声、歌声或提供“情绪价值”。

此前，OpenAI首席执行官萨姆·阿尔特曼（Sam Altman）已在社交媒体上表示，此次春季发布会没有GPT-5，也不会是搜索引擎。“我们一直努力开发一些我们认为人们会喜欢的新东西，对我来说，感觉就像魔法一样。”Sam Altman在社交平台上发文表示。

根据OpenAI官网，GPT-4o（“o”代表“omni”）是向更自然的人机交互迈进的一步，它接受文本、音频和图像的任何组合作为输入，并生成文本、音频和图片的任何组合输出。GPT-4o可以在最短232毫秒的时间内对音频输入做出响应，平均为320毫秒；在英文文本和代码方面，GPT-4o性能与GPT-4 Turbo相当，在非英文文本方面有显著改进，同时在API方面也要快得多且便宜50%。与现有型号相比，GPT-4o在视觉和音频理解方面尤其出色。

在此次春季发布会上，OpenAI的首席技术官Mira Murati、OpenAI的研究主管MarkChen和后训练团队负责人Barret Zoph现场与GPT-4o进行实时对话，演示GPT-4o的强大功能。

与以往不同的是，用户在与GPT-4o进行对话的时候，无需等待它回答完了后才能说话，而是可以随时打断它的回复，提出新的要求和转变新的话题，还可以要求GPT-4o改变情绪、语音语调和唱歌。

比如，演示中，Mark和GPT-4o说自己第一次演讲有点紧张，GPT-4o就“指导”Mark说可以尝试深呼吸；同时，演示者还要求GPT-4o分别用更富有情绪、最大化情绪以及机器人的声音来讲故事，还可以让它用唱歌的语音语调讲述。

在视觉识别方面，演示者写了一个数学方程解题：3x+1=4，GPT-4o也能快速识别出来并且一步步指导演示者进行解题。当演示者写了一个“i love ChatGPT”时，GPT-4o识别出来后，还会用不好意思的语气回复：“你真甜！”

OpenAI首席技术官米拉·穆拉蒂表示，相比去年11月发布的GPT-4-turbo，GPT-4o价格降低一半，速度提升两倍。GPT-4o的语音和视频输入功能将在未来几周内推出。

受GPT-4o消息影响，A股多模态AI概念表现强劲，汤姆猫涨停，泓博医药、声迅股份涨幅超过10%。

国盛证券研报认为，GPT-4o是迈向更自然的人机交互的重大进步，新功能带来了崭新的多模态交互能力，通过新的端到端模型实现了体验上的新突破，有望在各类终端实现用户体验的最大化，利好智能终端Agent、机器人等方向。