GPT-4o已经发布了半个月之久,如果说GPT4可以像人一样思考,那么GPT-4o可以像人一样表达,在当下世界最强的多模态大波形!它的原生多模态能力无需进行文本到语音的转换,可以直接理解和输出文本、图像、音频、视频的任意组合。也就是说GPT-4o有了和真实世界交互的能力。
更厉害的是,与它进行实时语音对话时,它能在人类的话语中感知对话主体的语气,让后续沟通的语速、语气、情感更贴近当下的沟通情境。与之前的 GBT4 相比,响应时间没有延迟,你甚至能随时打断它。它支持的语言范围也得到了拓展,能进行实时的翻译和语言调取。在与外国人交流、跨部门会议等情境下,你无需费心总结会议内容。
全新的电脑客户端也来了!只需给予共享桌面的权限,它就能帮你分析日常的工作报表,总结视频内容,甚至辅助图形设计和程序编程。其视觉功能支持记忆联网招数和数据分析,与之前的 Jimmy 拍摄纸上的鸭子相比,在户外拍摄实景鸭子时已经达到了 AI 公司的火药味。
就在我们以为这么多功能下,费用一定会很高的时候,它却宣布了免费向所有用户提供文本的图像能力!而 Plus 用户不仅拥有5倍的对话次数,API 价格还比 GBT 降低了一半,同时进行了语言的压缩,使 token 消耗减少了1.4倍。
AI 的这一年发展让我们见证了科技技术进步的迅速,而 OpenAI 这次的更新更将我们带入了 AI 时代的新阶段。