DoNews8月18日消息,为了赶超 OpenAI 及其他竞争对手,Google 的 CEO 桑达尔·皮查伊(Sundar Pichai)于 4 月合并了两个具有不同文化和代码的大型人工智能团队——「Google Brain」和「DeepMind」。
据 The Information,新合并的「AI SWAT」团队计划于秋天发布一组大型机器学习模型「Gemini」,据开发人员透露,Gemini 预计将使Google 能够制造出竞争对手无法制造的产品。
彭博社风投分支 Bloomberg Beta 的 AI 初创公司投资人詹姆斯·钱匹(James Chami)表示:「似乎终于有模型能与 GPT-4 旗鼓相当了」。
Gemini 开发人员表示,Gemini 不仅能像 GPT-4 一样可以进行文本对话,还融合了 Midjourney 和 Stable Diffusion 的能力,能够生成图像。Gemini 的图像能力此前还从未有过报道。
另外,它还能提供分析图表、创建带有文本描述的图形、使用文本或语音命令控制软件。
Google 把重注押在了 Gemini 身上,Gemini 会为 Bard 聊天机器人提供动力、推动 Google Docs、Slides 等企业级应用。
谷歌还希望通过云服务器租赁服务,向开发者收取访问 Gemini 的费用。
据报道,Google 对 Gemini 进行了大量 YouTube 视频的训练。Gemini 还可以把音频和视频集成到模型本身,形成多模态能力,许多研究人员认为这是 AI 的下一个前沿领域。
使用 YouTube 内容,还可以帮助 Google 开发更先进的文本转视频软件,根据用户想看的内容描述,自动生成详细的视频。
这类似于 Google 支持的初创公司 RunwayML 正在开发的技术,好莱坞和内容创作者正在密切关注此类软件的发展。
Google Brain 和 DeepMind 的合并,令一些参与 Gemini 的工程师感到惊讶。合并后的团队由 DeepMind 首席执行官戴密斯·哈萨比斯(Demis Hassabis)领导。
知情人士称,DeepMind 的两位高管奥里奥尔·温亚尔斯( Oriol Vinyals)和 Koray Kavukcuoglu 与前谷歌大脑负责人杰夫・迪恩(Jeff Dean)一起负责 Gemini 的开发。他们将监督数百名参与 Gemini 开发的员工。
组织合并后,除了人员安排问题, Gemini 团队在开发过程中还面临着巨大的挑战,如确定可以使用哪些数据来训练模型。
尽管如此,谷歌前高管、风险投资公司法利思投资创始人艾丁·森库特( Aydin Senkut)表示,Gemini的发布表明,Google 决心再次走在最前沿,而不是极度保守。他说,「这是正确的方向,终于,他们有了火」。