AI赛道上,谷歌和OpenAI的厮杀甚是激烈。
这不,谷歌前脚刚传出要推出Gemini多模态大型语言模型,后脚OpenAI就迎头赶上,拟推出多模态模型GPT-vision,以及代号为Gobi的新模型。
你追我赶之际,两者都想要抢先推出下一代“多模态”大型语言模型。
OpenAI 急了?
据 The Information 爆料,OpenAI 即将推出多模态模型GPT-vision,这或可能成为继GPT-4之后的最大更新。另外,OpenAI 还在开发一款名为 Gobi 的多模态大模型。
据悉,OpenAI 的这款GPT-vision是计划将大型语言模型GPT-4与多模态功能相结合。
功能优势上,它可以处理图像和文本,比如用户只需要给该模型发送一张网页草图,该模型就可以为网站生成代码,或者向用户提供可视图表的文本分析;此外还可以图像生成,通过简单的文本生成绘画、logo或表情包。
不过目前关于这款大模型产品的具体信息尚不确认,OpenAI也尚未对此做出回应。
值得关注的是,OpenAI 的多模态模型并非首次被大家关注。此前3月份,在其发布GPT-4时就曾预展示了多模态功能。
不过当时除了一家为盲人或视力低下的人提供技术的公司“Be My Eyes”外,OpenAI并没有向其他公司开放。
并且在此后较长的一段时间里,关于OpenAI多模态模型的进展消息便沉寂了。
直至当下,OpenAI又传出了准备在更大范围内推出被称为GPT-Vision的功能。此外,OpenAI还可能会在GPT-Vision之后再推出Gobi,不过其训练尚未开始。
谷歌“大杀器”Gemini
OpenAI急吼吼的要推出多模态模型的主要压力来自谷歌。
此前,Gemini 是谷歌开发者大会上公布的多模态大模型产品,预计在不久后进行测试发布。据The Information 报道,谷歌已开始向外部开发者授予其 Gemini AI 系统的访问权限。
去年来,微软支持的 OpenAI 推出的 ChatGPT 席卷了全球科技界,看着这势头,今年谷歌加大了对AI的投资以迎头赶上。
要知道,此次谷歌这款Gemini 就是旨在与 OpenAI 的 GPT-4 模型抗衡的。不过当下市场认为,对于谷歌来说Gemini 的推出风险很大。
Gemini 是一个大型语言模型的集合,它可以从聊天机器人到总结文本或根据用户想要阅读的内容(如电子邮件草稿、音乐歌词或新闻报道)生成原始文本的功能提供支持。它还有望帮助软件工程师根据用户要求查看的内容编写代码并生成原始图像。
据报道称,谷歌目前正在向开发人员提供相对较大的 Gemini 版本,但不是其正在开发的最大版本,该版本将更接近 GPT-4。
此外,谷歌计划的Gemini提供方式是通过其Google Cloud Vertex AI云服务平台进行,预期价格为每个用户每月30美元。这也预计将成为谷歌新的收入来源,尤其是针对企业客户。
这样来看,在同一赛道上,谷歌和OpenAI这番“秀肌肉”的较量是迟早的事,此前OpenAI的ChatGPT遥遥领先同行们,这一回谷歌祭出了“大杀器”可能让OpenAI真的急了。
硕硕闪闪 2024-11-17
中国车视 2024-11-17
ivandy 2024-11-17
石鑫华视觉 2024-11-17