在人工智能领域,OpenAI一直以其创新和突破性技术引领着行业的发展。今日凌晨,该公司再次证明了其在AI技术前沿的地位,发布了全新的GPT-4o模型以及一个功能强大的新ChatGPT模型。
这些新模型不仅能够处理文本、音频和图像,而且在对话响应速度上接近人类水平,标志着人机交互迈入了一个新的时代。GPT-4o的发布,特别强调了其多模态能力,预示着更自然、更智能的交互方式即将成为现实。
有什么不一样
GPT-4o是一个多模态大模型,支持文本、音频和图像的任意组合输入,并能生成文本、音频和图像的任意组合输出。据介绍,GPT-4o文本、推理、编码能力达到GPT-4 Turbo水平,速度是上一代AI大模型GPT-4 Turbo的两倍,但成本仅为GPT-4 Turbo的一半,视频、音频功能均得到改善。
据悉,GPT-4o的响应速度在最快232毫秒内,平均响应时间为320毫秒,与人类的对话响应时间相似,此外,GPT-4o在非英语文本方面的性能也有显著提高。
OpenAI表示,GPT-4o的功能“将迭代推出”,但其文本和图像功能将于今天开始在ChatGPT中推出。与一年前发布的 GPT-4 模型有所不同,GPT-4 模型是为那些支付 OpenAI 每月 20 美元订阅费的ChatGPT Plus 用户发布的。在当前版本中,许多之前仅限付费用户使用的功能,比如记忆和网页浏览,现在也向免费用户开放了。
更值得一提的是,作为新模式的一部分,ChatGPT的语音模式即将推出新功能。该应用程序将能够充当像人类一样的语音助理,实时响应并观察你周围的世界。当前的语音模式更加有限,一次响应一个提示,并且只使用它能听到的内容。OpenAI的CEO奥特曼认为,这种快速、智能、有趣且自然的交互方式,将使得与电脑的对话变得更加自然,预示着一个令人兴奋的未来。
猎豹移动董事长兼CEO、猎户星空董事长傅盛总结了新模型的优势:“(OpenAI)通过一个桌面的App让你能够方便地把图片文档上传然后让大模型去帮你分析;发布了一个语音助手,由于使用了端到端大模型技术,所以这次语音助手的体验超越了Siri,也远超于我们以前用过的所有的各种AI助手,不仅能够去感知情绪实时知道对话人的每一句话,并且在该插话的时候插话。”
ChatGPT Plus 用户成了大冤种?
一方面,GPT-4o的免费开放使用为广泛的用户群体提供了接触高端AI技术的机会,另一方面,对于ChatGPT Plus的订阅用户而言,他们可能会感到自己支付的订阅费用没有得到预期的独家优势,因此在互联网产生了争议。
尽管 GPT-4o 无需订阅即可使用,但依赖更多的提示访问权限和新功能的访问权限的使用者,还是无法那么快与ChatGPT Plus分道扬镳。与非订阅者相比,ChatGPT Plus 订阅者在必须等待或切换到功能较弱的模型之前,被允许发送 GPT-4o 的提示数量是前者的五倍。因此,如果用户想要大量使用提示功能,订阅是必要的。
除了有限的 GPT-4o 访问权限外,非付费用户还获得了整体用户体验的重大升级,其中包括以前仅为付费客户开放的多个功能。非付费用户还可以使用 ChatGPT 的网页浏览工具和记忆功能,并且可以上传照片和让聊天机器人分析文档。
从本周开始,ChatGPT 的 Mac 桌面应用程序也将率先向 Plus 订阅者提供。该应用程序使用户在桌面上与 ChatGPT 交互的体验更加无缝。例如,用户可以截取当前正在查看的任何网页的屏幕截图,并让聊天机器人生成可见信息的快速摘要。虽然预计 Mac 应用程序将更广泛地向免费用户提供,但该版本发布的具体时间表仍不明确。OpenAI 还计划在今年年底前推出其桌面应用程序的 Windows 版本。
所以,如果用户只是想尝试使用 GPT-4o 一段时间,并且不介意等待最新功能,那么将不需要订阅 ChatGPT Plus。
GPT-5 缺席,大模型向何处去
当地时间5月10日,OpenAI就事先表示,发布会上不会推出GPT-5,也不会发布搜索引擎产品,令一些网友颇为失望,OpenAI的发展失速让多数人始料未及。
奥特曼在直播活动后的一篇博客文章中反思了OpenAI的轨迹。他说,该公司的最初愿景是“为世界创造各种益处”,但他承认,愿景已经发生了变化。OpenAI因没有开源其高级人工智能模型而受到批评,奥特曼似乎想要表示,该公司的重点已经转移到通过付费API向开发人员提供这些模型,并让这些第三方进行创建。“相反,现在看起来我们将创建人工智能,然后其他人将使用它来创建各种我们都从中受益的令人惊叹的东西。”
对于OpenAI发布可实时进行音频、视觉和文本推理的新一代AI模型GPT-4o一事,傅盛今日早间发短视频对此进行评价:“所有国内人工智能从业者都在熬夜等着大洋彼岸放核弹,但是没想到核弹没有放,却掏出了一堆摔炮。”傅盛表示,这样的评论虽然是一句玩笑话,“但比较让人失望的是这次OpenAI没有发布GPT-5,连GPT-4.5也没有看到,反而是发布了GPT-4o,就是把一系列的引擎给结合在一起,比如图片、文字、声音,这样你就不需要来回去切换了。”
国盛证券则认为,GPT-4o是迈向更自然的人机交互的重大进步,新功能带来了崭新的多模态交互能力,通过新的端到端模型实现了体验上的新突破,有望在各类终端实现用户体验的最大化,利好智能终端Agent、机器人等方向。
傅盛指出,一方面,我们觉得OpenAI发布应用恰恰说明了应用在人工智能领域大有可为,每一个创业者都应该去好好地做人工智能应用,大模型的能力当然会不断地迭代,但最终能够把大模型用好的还是应用。另一方面,如果不计成本的累参数,提高所谓的大模型能力,这条路肯定是容易遇到困难的,目前看起来GPT-5可能还要难产一段时间。
金沙江创投主管合伙人朱啸虎此前就在采访中坦言:“今年就可以看出大模型本身是不是好的商业模式,多少OpenAI的用户会因为价格差异迁移到Google的Gemini——OpenAI 20美金一个月,Gemini 10美金一个月。我们美国团队已经有一半人切换到Gemini,一部分是因为价格,另外一部分是因为Google的生态。”
结语
随着技术的不断发展,我们期待OpenAI能够继续推动人机交互的边界,并为用户带来更加丰富和便捷的智能体验。同时也不得不进一步思考,在大模型发展即将见顶后,下一步该怎么走,诸如如何平衡技术创新与商业可行性,如何确保广泛的用户接受度,以及如何在激烈的市场竞争中保持领先,这也是OpenAI及整个AI行业都需要深思的问题。
普泰法尔车辆自动灭火 2024-10-31
Web极客码 2024-10-31