本以为谷歌会在“多模态”大模型方面首次占据领先地位,该公司的集大成之作——Gemini即将发布,预计将于今年秋天首次亮相,据报道正在与选定的企业客户进行测试。
然而,OpenAI又要来截胡了。
据媒体最新报道,OpenAI正在积极努力将多模式功能(类似于Gemini预计提供的功能)纳入GPT-4,目标赶在Gemini发布前推出多模态大型语言模型(MLLM),即代号为Gobi的下一代大型语言模型,以击败谷歌并保持领先地位。
随着ChatGPT在各领域展现出非凡能力,多模态大型语言模型近来也成为了研究的热点,它利用强大的大型语言模型(LLM)作为“大脑”,可以执行各种多模态任务。
MLLM展现出了传统方法所不具备的能力,比如能够根据图像创作故事、视觉知识问答、无需OCR(光学字符识别)的数学推理等,从自然语言理解到图像解释等,提供更广泛的信息处理能力。
报道称,OpenAI早在3月份发布GPT-4时就预先展示了这些功能,但除了一家名为“Be My Eyes”的公司外,没有向其他公司开放。后者主要为有视力障碍或失明的人开发移动应用程序。六个月后,OpenAI正准备在更大范围内推出被称为GPT-Vision的功能。
为什么OpenAI花了这么长时间才推出这项功能?报道称主要是担心新的视觉功能会被不良行为者利用,比如通过自动解决验证码来冒充人类,或者通过面部识别来跟踪人们。但OpenAI的工程师们似乎接近于解决围绕这项新技术的法律担忧。
谷歌也面临这个问题,当该公司被问及正在采取哪些措施来防止Gemini滥用时,谷歌发言人指出,该公司在7月份做出了一系列承诺,以确保其所有产品能够负责任地开发。
然而,考虑到谷歌拥有与文本、图像、视频和音频相关的专有数据(包括来自搜索和YouTube等平台的数据),该行业向多模态模型的发展可能会有利于发挥谷歌的优势。一位使用过早期版本的人说,与现有的模型相比,Gemini似乎已经产生了更少的错误答案。
OpenAI首席执行官Sam Altman在最近的各种采访中暗示,GPT-5还没有出现,但他们计划对GPT-4进行各种增强,新的增强模型可能是其中之一。
报道称,OpenAI似乎还没有开始训练Gobi,所以现在就说它最终会成为GPT-5还为时过早。
在上周接受《连线》杂志采访时,谷歌CEO皮查伊表达了他对谷歌目前在AI领域地位的信心,并认可技术进步的持久性,以及他们在平衡创新与责任方面深思熟虑的战略。
无论如何,这场竞赛就相当于人工智能版的iPhone与Android。人们正屏息以待Gemini的到来,它将揭示谷歌和OpenAI之间的差距到底有多大。