OpenAI发布全新AI模型GPT-4o，微软却称自己才是AI“灭霸”

作者：睿财经发布时间：2024-11-21

近日，人工智能领域的领军企业OpenAI发布了全新的AI模型GPT-4o，这一重大突破被誉为“一夜改变人机交互历史”。GPT-4o不仅支持语音聊天，还能进行实时视频交互，其丝滑程度堪比真人交互。这一技术的问世，无疑将为人工智能领域带来新的发展机遇。

OpenAI的野心

OpenAI的旗舰产品ChatGPT虽然能理解自然语言并回答用户的问题，但由于其“预训练”的原理，无法即时搜索内容。此外，大语言模型的生成机制也使得ChatGPT无法完全规避“一本正经地胡说八道”的现象。因此，人们想要了解最新的实时内容，仍然需要求助于搜索引擎。

传统搜索引擎基于关键词匹配，即根据用户输入的关键词识别检索范围，并匹配可能符合用户意图的海量信息。然而，传统搜索的痛点在于不同来源的海量信息带来的大量冗余和信息不一致，这也导致搜出来的信息一大堆，但找不到有用的东西。

OpenAI显然希望成为人类和数据的重要连接点，仅靠ChatGPT（哪怕是再聪明的GPT）也只能满足一部分需求，推出搜索引擎势在必行。目前，业内最为关注的是OpenAI的搜索引擎将会是一个什么样的形态，以及它是否真能撼动Google一家独大固化已久的搜索市场生态。

在OpenAI之前，美国已经有一款生成式搜索引擎Perplexity。成立于2022年的Perplexity是一家位于美国硅谷的创业公司，该公司专注于利用人工智能技术开发生成式搜索引擎，为搜索查询提供直接答案，而不是提供网站链接列表。PerplexityAI会在提供的答案中整合视频、图像等，有时还会直接提供链接资源。Perplexity受到包括英伟达CEO黄仁勋等人的喜欢，成立一年半MAU达到1000万。

那么，OpenAI的搜索引擎会与PerplexityAI类似，还是会带来更多惊喜？我们还需要等待OpenAI的最终揭晓。

GPT-4o不仅是完全免费的，而且覆盖了桌面与移动App，性能大幅提升，可以综合处理文本、图片和音频，人机交互更加自然简单。例如，可以让GPT-4o加入网络会议，为用户记录发言总结概要。

GPT-4o具体有什么用？用户可以让GPT-4o处理眼前的问题，极大提升生产力，可以与AI实时语音对话，就像是与真人聊天一样自然流畅。AI处理反应已经达到人类的速度，甚至还可以理解用户的情绪，以相应的情感作出回应。

抢微软的风头

面对OpenAI的故意撞车和抢占风头，谷歌在今天的I/O大会上又拿出了怎样的AI产品，是否带来了足够的震撼与新意？

谷歌I/O开发者大会今年已经进入了第16个年头，AI早已成为I/O大会的绝对乃至唯一的主角。谷歌CEO皮查伊更是在结束时宣布，整场发布会一共说了121次AI，引发了全场大笑。虽然整场发布会都没有提及竞争对手，但谷歌CEO皮查伊从主题演讲一开始就开始秀谷歌的AI实力，宣布谷歌已经全面进入Gemini时代。他强调谷歌已经在AI领域投入了十多年时间，贯穿了AI的每一层：研究、产品、基础设施。

虽然AI新贵OpenAI在产品发布方面抢占了先发优势，但谷歌在研究论文、用户规模、产品数量以及算力方面都占据着压倒性优势，这也是OpenAI必须与微软结盟的直接原因，因为两家公司都不可能单独与谷歌抗衡。

皮查伊还宣布，Gemini大模型已经覆盖了谷歌全平台的20亿用户产品，仅仅三个月时间就有100多万用户注册使用。而两个月前发布的原生多模型Gemini 1.5 Pro已经得到超过150万开发者的使用。

在性能方面，谷歌就是AI业界的灭霸。Gemini 1.5 Pro此前直接将Token（上下文处理）性能提升到了百万级别，全面压倒了受困于性能变慢的GPT-4.0 Turbo。三个月后，谷歌在今天宣布改进版的Gemini 1.5 Pro全面开放给Gemini Advanced的用户，并且支持35种语言。

更为残暴的是，谷歌还将Gemini 1.5 Pro的上下文窗口处理性能直接翻倍到了200万（暂时只面向开发者提供），在这方面OpenAI只能望尘莫及。皮查伊宣布，这是朝着无限上下文的最终目标迈出的重要一步。

Gemini 1.5 Pro可以给用户带来怎样的实际体验？谷歌用Workspace办公组件展示了AI给生产力带来的巨大变化。举例来说，如果是通过Google Meets进行远程会议，哪怕用户无法参会，也可以让Gemini为自己录音并列出会议纪要。

有了Gemini，Gmail邮箱就有了灵魂。代写邮件已经是基本操作了。用户可以让Gemini帮助自己整理和总结Gmail的海量邮件，根据最近的收据和信用卡账单邮件整理归纳出用户的消费支出，给出一份专业又具体的财务支出清单。

给AI装上眼睛嘴巴

周鸿祎指出，据OpenAI发布会上简短的技术原理介绍，区别于传统将把语音先翻译成文字处理后再翻译成语音的做法，这次的技术是直接把语音进行了处理，形成了一个整合的大模型引擎，实现对语音输入的直接理解——包括把语音中饱含的情绪、感情、语调、口音这些细节都进行了理解，同时是直接输出语音。

“这就带来了一个全新的体验，就是时延大概只有300毫秒左右，达到了人类和人类谈话的响应速度，这样不仅能听得懂你话里的情绪，在输出回答的时候也可以伴随着高兴、悲伤、失望、兴奋或者是更复杂的感情。”周鸿祎表示。

周鸿祎还指出，除了语音处理层面带来的惊艳之外，有一个容易被忽视的地方是，实际上GPT-4o的还可以直接打开手机摄像头，直接通过手机摄像头赋予它更强大的眼着的能力。这个可能还比不上Sora，但是它比GPT-4.5的版本可以输入图片输入表格的能力又提升了一步。“所以总结来讲就是，GPT-4.0相当于给人工智能赋予了对知识理解的能力，相当于有了一个大脑，然后GPT-4.5相当于给了一些初级的看见的能力，而GPT-4o实际上是给它增加了真正能看懂这个世界的眼睛，和能听明白人说话的耳朵，而且嘴巴还能够自由自在地表达自己情绪和情感的能力。”。

在周鸿祎看来，有些人会对此次发布OpeanAI没有推出GPT-5.0觉得比较失望，但是通向通用人工智能不仅是要在超级的推理能力、知识能力、逻辑能力上要赶超人类，更重要的能力还包括跟人交互的能力。所以，当AI能通过无论是手机摄像头还是无处不在的物联网摄像头更看明白这个世界，而且能以跟人一样的响应速度进行交互的时候，这件事就变得非常可怕了，“也就是它就让人工智能真正的更像人了”。

总结来说，人工智能技术的发展日新月异，每一次技术的突破都为我们带来了新的惊喜。OpenAI发布的全新AI模型GPT-4o以及谷歌在I/O大会上展示的Gemini 1.5 Pro都是人工智能领域的重要突破。这些技术的问世，无疑将为人工智能领域带来新的发展机遇，也将为我们的生活带来更多便利。然而，我们也应看到，人工智能技术的发展还面临着许多挑战，如如何保证人工智能的安全性、如何避免人工智能的滥用等。这些问题需要我们在发展人工智能的同时，不断进行思考和探索。