文丨Congerry
上周,ChatGPT刚刚过完一周年生日。
事实证明,对谷歌来说,想要追上 OpenAI 比想象中难。
此前,谷歌代表向部分云客户和业务合作伙伴透露,他们将在11月之前获得谷歌的最新对话式人工智能技术——一种被称为"双子座"(Gemini)的大型语言模型。
但是原定于本周的 Gemini 发布活动被取消,发布时间推迟至明年1月。原因是,谷歌发现 Gemini 在处理一些非英语查询时无法表现出可靠的性能。
上个月,谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)在一次公开活动上说,公司 "专注于尽快推出 Gemini 1.0,确保它具有竞争力,达到最先进的水平,然后我们将继续努力"。
Gemini 虽然鸽了,但其竞争对手丝毫没有放慢自己的节奏。
微软宣布为了庆祝 Copilot 一周岁生日,将迎来一大波重磅更新,包括支持GPT-4 Turbo,更新的DALL-E 3模型,新的代码解释器功能,以及Bing内部的深度搜索功能。
一周岁生日,Copilot 迎来重磅更新
上个月,OpenAI发生史诗级动乱,微软作为最大投资者,不仅没有蒙受损失,还从中狠狠地捞了一笔,挤进了心心念念的OpenAI董事会,获得董事会观察员席位。(拥有参加定期董事会会议的权利,但没有投票权或参与讨论的权利。)
这次趁着Copilot一周年之际,微软又直接将 GPT-4 直接搬进了Copilot,关键是免费。
具体更新
GPT-4 Turbo ,Copilot将能够使用OpenAI的最新模型 GPT-4 Turbo 生成响应,这将使用户能够处理更复杂和更长的任务。目前,该模型正在与部分用户进行测试,并将在接下来的几周内广泛集成到Copilot中。
GPT-4 Turbo 是OpenAI的最新一代模型。它比原始的 GPT-4 模型更强大,知识更新截止到 2023 年 4 月,并引入了 128k 的上下文窗口(相当于在单个提示中包含 300 页文本)。
新的DALL-E 3模型,用户现在可以使用更新的DALL-E 3模型通过Copilot创建更高质量、更符合提示的图像。
内联撰写与重写菜单(Inline Compose with rewrite menu ):借助Copilot,Microsoft Edge用户可以轻松地在大多数网站上撰写内容。用户只需选择要更改的文本,然后让Copilot为其重写。
例如,用户在阅读一篇博客文章时,可以选中其中的一段文字,然后通过Copilot的重写功能来优化或改写这段文字,以更好地表达自己的观点。这样,用户可以更方便地在网页上进行内容创作和编辑。
多模态搜索(Multi-Modal with Search Grounding):通过结合GPT-4的视觉能力、Bing图像搜索和网络搜索数据,提供更好的图像理解查询。
代码解释器(Code Interpreter):正在开发一项新功能,使用户能够执行复杂任务,如更准确的计算、编程、数据分析、可视化、数学等。
深度搜索(Deep Search):利用GPT-4为复杂主题提供优化的搜索结果。激活深度搜索可以将搜索查询扩展为更全面的描述,以提供更相关的结果。
,时长
00:26
举个例子,假设用户在搜索框中输入“如何制作美味的意大利面?”这个简单的问题。
在常规搜索中,用户可能会得到一些基本的意大利面食谱。然而,通过使用深度搜索功能,GPT-4可以对查询进行扩展,例如:“制作美味的意大利面的方法和技巧,包括面条种类、酱料选择、烹饪时间和独家秘诀等。”
这样的描述将帮助用户找到更详细、更具深度的答案,满足他们在制作意大利面过程中的各种需求。
除了这些,除了这些功能之外,Edge浏览器中的Copilot侧边栏已经可以对YouTube上的视频内容进行理解。
这意味着用户在观看YouTube视频时,可以利用Copilot来获取视频内容的概述和关键信息。
谷歌推迟发布 Gemini,预览版即将发布?
说完微软(背后的OpenAI),回到谷歌。
自2010年代初以来,Google Brain和Google DeepMind一直在研究人工智能领域,即使是GPT系列大模型所使用的Transformer架构也是由谷歌提出的。
然而,不幸的是,谷歌到目前为止在ChatGPT掀起的新一轮AI浪潮中依旧处于落后地位,微软+OpenAI的组合压得谷歌抬不起头。
今年早些时候,谷歌推出了Bard,尽管它与ChatGPT非常相似,但仍存在很大的局限性。甚至因为在一次回答问题的演示中给出错误答案,导致谷歌市值蒸发千亿美元。
为了全力冲刺AI挽回局面,今年4月,谷歌将Google Brain和Google DeepMind合并。
新部门名为Google DeepMind,由DeepMind的联合创始人兼首席执行官Demis Hassabis领导。与此同时,Google Brain团队的联合创始人Jeff Dean将担任谷歌研究院(Google Research)和Google DeepMind首席科学家的职务。
二人共同确定谷歌的AI研究方向,并领导与AI相关的重大项目。他们的第一个项目将涉及一系列多模态大型模型。
这个项目就是Gemini。
Gemini 是 "多模式 "的,这意味着它既能处理图像,也能处理文本,例如,只需看到用户希望网站看起来像什么的草图,它就能为网站生成代码,或者对可视化图表进行文本分析。
Google DeepMind首席执行官德米斯·哈萨比斯(Demis Hassabis)此前曾表示,Gemini将成为ChatGPT的真正竞争对手。
哈萨比斯透露,Gemini将采用一种独特的方法,结合强化学习(reinforcement learning)和树状搜索(tree search),使其能力超越ChatGPT。
谷歌对Gemini寄予厚望,不仅希望它能推动企业软件的销售,还期待它能为YouTube创作者带来新工具,例如为视频生成自定义背景的功能。
此外,Gemini还将提升Bard和Google Assistant(谷歌为手机等设备提供的类似Siri的语音助手)的性能。
谷歌已经开发了多个版本的 "Gemini",以根据任务的复杂程度处理不同的任务。外部开发人员已经测试了该模型的较小版本,以参数或计算的数量来衡量。
但一位参与这项工作的人士说,谷歌仍在最后确定 Gemini 的主要、最大版本。(大型 LLM 通常是由多个小模型共同组成的)。
上周,桑达尔·皮查伊(Sundar Pichai)决定取消原定于下周在加利福尼亚州、纽约和华盛顿举行的一系列Gemini活动,因为该公司发现人工智能无法可靠地处理一些非英语查询。
不过,谷歌虽然推迟了 Gemini 现场发布活动,但似乎为了给投资者信心,证明自己可以赶上OpenAI,准备公开预览版 Gemini AI。
Vertex AI 的用户可能已经在 X 上证实了这一信息,他们分享了四种谷歌 Gemini 模型的名称,这些模型似乎将出现在 Model Garden 上:gemini-pro、gemini-pro-vision、gemini-ultra 和 gemini-ultra-vision。
几周来,谷歌代表一直在向商业合作伙伴私下演示这项技术,但他们表示,云计算客户要到明年才能接触到 Gemini 的初级版本。
谷歌现在面临的一个关键挑战是,Gemini能否与 GPT-4 一样好或更好。
除此之外,OpenAI Q*模型的出现又为这场追逐赛制造了新的悬念。
如果您有什么想说的,欢迎屏幕前你们在评论区留言讨论!我们将为点赞、评论、关注的同学们送上红包🧧不限量哟~