划重点:
腾讯科技讯 8月16日消息,在今年5月的全球开发者大会上,谷歌首次透露正在开发大型语言模型Gemini。知情人士透露,Gemini将会在今年秋季正式发布,它不仅能像OpenAI的GPT-4一样理解并生成对话文本,还能够像Midjourney一样生成图像。
今年4月,谷歌母公司Alphabet的首席执行官桑达尔·皮查伊(Sundar Pichai)采取了一个不同寻常的步骤:合并旗下两个拥有截然不同文化的人工智能团队,以赶超OpenAI和其他竞争对手。
如今,对谷歌这一努力的大考即将到来。数百人参与开发的谷歌大型机器学习模型将会在今年秋季发布,该产品将会是谷歌成立至今最重要的产品之一。据参开发的知情人士透露,谷歌开发的这组模型称为Gemini,让谷歌有能力开发出竞争对手无法开发的产品。
OpenAI的GPT-4大型语言模型可以理解并生成对话文本。知情人士透露,Gemini将超越这一点,把GPT-4等大型语言模型的文本功能与基于文本描述创建人工智能图像的能力结合在一起,类似于人工智能图像生成器Midjourney和Stable Diffusion。Gemini的生成图像的能力之前没有被报道过。
谷歌员工还讨论过使用Gemini来提供一些功能,如分析图表或创建带有文本描述的图形,以及使用文本或语音命令来控制软件。谷歌正押注Gemini为各种服务提供动能,从与OpenAI的ChatGPT竞争的聊天机器人Bard ,到谷歌文档和Slides等企业应用。谷歌还希望通过谷歌云服务器租赁部门向访问Gemini的应用程序开发者收费。谷歌云目前通过一款名为Vertex AI的产品出售更原始的谷歌开发的人工智能模型的访问权限。这些新功能可能有助于谷歌赶上微软,后者已在其Office 365应用程序中率先推出了全新的人工智能功能,并向其应用程序客户出售OpenAI模型的访问权限。
“我认为在过去的9个月里,每个人都在问一个问题:‘什么时候有产品看起来能赶上OpenAI?’”风投机构Bloomberg Beta的人工智能初创公司投资者詹姆斯·查姆(James Cham)说。“这将是第一个迹象,表明有人能够以合法的方式与GPT-4竞争。”
因为像Bard和ChatGPT这样的人工智能服务希望帮助人们在不使用传统搜索引擎的情况下找到复杂问题的答案,谷歌必须冒险,尝试在不削弱其核心搜索业务的情况下推出新技术。该公司还必须控制运行Gemini模型的巨大服务器成本。参与该项目的人士透露,谷歌计划在今年晚些时候向应用程序开发人员正式推出Gemini,并可能在此之前开始在一些产品中使用它。
像Gemini这样的机器学习模型通过分析大量的图像和文本来识别模式并生成查询的答案。过去,谷歌曾使用更简单的模型来改进搜索。但是像Bard这样的新产品依靠先进的模型来处理更多的数据,产生对话式的、类似人类的反应。
YouTube的优势
据悉,谷歌在YouTube视频转录的大型语料库中训练了Gemini,但它也可以将视频和音频集成到Gemini模型本身,赋予它们多模态能力,许多研究人员认为这是人工智能的下一个前沿。例如,在YouTube视频上训练的模型可以帮助机械师根据视频诊断汽车维修的问题。他们还可能根据用户对他们想要创建的网站或应用程序的草图生成软件代码--OpenAI已经测试了这种功能,但尚未正式推出。
使用YouTube内容还可以帮助谷歌开发更先进的文本到视频软件,根据用户想看的内容描述自动生成详细的视频,类似于谷歌支持的初创公司RunwayML正在开发的技术。好莱坞和内容创作者正密切关注这类软件的发展。
至少有24名谷歌的经理在负责Gemini的开发。他们包括曾在Google Brain和DeepMind工作的研究人员。Google Brain开发了谷歌当前的人工智能模型Pathways Language Model;在2014年被谷歌收购之后,DeepMind之前一直在独立运营。这个新部门正在研究如何平衡从合并代码到确定远程工作政策的一切。相比较而言,Google Brain对远程工作的态度远比DeepMind宽容。
DeepMind联合创始人戴密斯·哈萨比斯(Demis Hassabis)负责合并后的部门谷歌DeepMind。知情人士说,DeepMind的两位长期高管奥里奥尔·维纽斯(Oriol Vinyals)和考瑞·卡夫卡库格鲁(Koray Kavukcuoglu)与杰夫·迪恩(Jeff Dean)一起负责Gemini。迪恩是谷歌的资深领导人,曾负责Google Brain。他们监督参与Gemini开发的数百名员工。
在项目早期出现的一个问题是,工程师们是使用谷歌的软件还是DeepMind的软件,因为这两个单位维护着完全独立的代码库。他们确定了一种方法,其中涉及使用Pax,Google Brain用于训练机器学习模型的软件,用于模型开发的早期阶段,称为预训练。在后期阶段,该团队使用了DeepMind开发模型的软件Core Model Strike。参与该项目的人士说,这一决定安抚了每一组的研究人员,但激怒了一些不想用不熟悉的软件工作的其他人。
知情人士说,参与Gemini项目的联合创始人塞吉·布林(Sergey Brin)一直在对这些模型进行自己的评估,并帮助训练它们。该消息称,在团队发现Gemini接受了潜在攻击性内容的培训后,布林也参与了重新培训模型的技术决策。截至目前,谷歌发言人对此报道未予置评。
被迫合并
谷歌在2011年创建了Google Brain,以构建人工智能来改善一切,从谷歌的搜索结果到该公司的广告定位和Gmail中的自动完成等功能。总部位于伦敦的DeepMind致力于更多的学术研究。它教会计算机下国际象棋或围棋,其领导人认为这项工作是发展人工智能道路上的一个里程碑。但是,尽管谷歌使用DeepMind的软件来提高其数据中心的运行效率,但该部门的工作并没有对谷歌的核心产品产生太大影响。DeepMind的工程师也开发了他们自己的大型语言模型,但它们不是该公司的优先事项。
去年年底,这一切都改变了。2022年11月,OpenAI发布了ChatGPT,几周内用户激增至数千万,几个月内收入数亿美元。与此同时,谷歌面临着一系列的离职,包括一些知名研究人员流失到OpenAI,他们在ChatGPT的开发中发挥了重要作用。谷歌后来重新聘请了雅各布·德夫林(Jacob Devlin),他在批评Bard的开发后于1月前往OpenAI;以及杰克·雷(Jack Rae),他是前DeepMind研究员,已于2022年前往OpenAI。
在合并之前,Google Brain和DeepMind分别开发了针对ChatGPT的产品。DeepMind的工作人员开展了一个代号为Goodall的项目,利用一种名为Chipmunk的未公布模型的变体来开发ChatGPT的竞争对手。最终,DeepMind停止了这项工作,转而与Google Brain合作开发Gemini,尽管这两个人工智能团队之间存在长期的竞争。
与此同时,谷歌在3月份使用Google Brain的现有模型推出了Bard。当时,一些用户批评Bard是ChatGPT的一个更有限的模仿者。但谷歌继续改进它,并在更多国家推出。5月,谷歌推出了大型语言模型PaLM 2,它改进了Bard的答案和编写代码的能力。今年4月,皮查伊合并了Brain和DeepMind,这样它们可以更快的行动。这一变化令一些在Gemini工作的工程师感到意外,他们是在公司公开宣布时被告知这一消息的。
除了合并组织之外,该团队还面临着发展道路上的巨大挑战,包括导航可以用来训练模型的数据。谷歌的律师一直在密切评估这项培训。在一个例子中,他们让研究人员删除了来自教科书的训练数据--这可能有助于模型回答天文学或生物学等学科的问题--因为担心版权所有者的抵制。
不过,谷歌前高管、风险投资公司Felicis Ventures创始人艾登·森库特(Aydin Senkut)说,Gemini“基本上向我表明,谷歌决心再次走在前沿,而不是极端保守。这是正确的方向。”(无忌)