当前位置:首页|资讯|微软|谷歌|OpenAI|Copilot|ChatGPT

前脚才走微软Copilot,后脚谷歌Gemini又登台

作者:问GPT发布时间:2023-12-08

1. 微软Copilot重磅升级,图文代码能力暴涨,关键是还免费


在2023年12月6日的凌晨时分,正值其人工智能助手Copilot面世一周年之际,微软公司对外公布了Copilot的三项关键更新。这些更新涵盖了新的模型引入、搜索功能的增强以及代码解释功能的提升。这一系列的提升显著增强了其图文处理和编码能力。简而言之,通过这次升级,Copilot的功能已接近于ChatGPT Plus,并且用户无需支付费用即可享受这些服务。


在这次的升级中,Copilot将引入OpenAI最新开发的GPT-4 Turbo模型,并对图像生成模型DALL-E 3进行了全方位的提升,旨在实现更高品质和更精准的图像生成效果。就搜索功能而言,Copilot新增了两个功能,分别针对多模态搜索和意图理解进行了优化。其代码解释器目前处于初级阶段,可以通过自然语言生成代码,并允许在一个沙盒环境中执行代码,未来还计划支持文件的上传和下载。


Answera公司的创始人保罗·库弗特(Paul Couvert)在社交媒体平台X上发表了对Copilot与ChatGPT Plus功能对比的观点。

观察图表可见,Copilot几乎涵盖了ChatGPT Plus的所有特性,并且在诸如图像生成数量和网络搜索速度等领域表现更加出色。更为重要的是,Copilot依然是免费的,这相较于ChatGPT Plus每月20美元(合约143元人民币)的费用,显得更具价值。


亮点1:接入OpenAI最新模型GPT-4 Turbo,DALL-E 3能力大升级

在模型技术的发展方面,Copilot即将整合OpenAI最新推出的GPT-4 Turbo模型,这将使Copilot的上下文处理能力提升至128k。微软表示,目前该模型正在进行小规模的测试,并计划在接下来的几周内在Copilot中进行广泛应用。此外,Copilot也将加入改进版的DALL-E 3模型,以生成更高质量、更精确的图像。


以下为DALL-E 3升级前后生成的图像对比示例,其提示词是:“一只逼真的剑龙正由美甲沙龙修饰其骨质板块。”

从对比中可以明显看出,改进后的DALL-E 3在描绘剑龙的皮肤纹理和皱纹方面更为精细和真实,背景中的建筑物显示出更强的立体感,整体图像在光影层次上也得到了增强。


亮点2:AI搜索推出两大更新深度搜索提效10倍

在搜索技术领域,Copilot最新推出了两大升级。首项升级是多模态搜索功能(Multi-Modal with Search Grounding)。微软利用其自研AI模型Prometheus,将GPT-4V的视觉处理能力、Bing图像搜索和互联网搜索数据结合起来,旨在优化图像理解体验。

例如,在微软展示的一个案例中,用户上传了一张火箭发射的照片,并询问其发射时间。Copilot首先分析这张照片,并提示“为保护隐私,图中人物面部将被隐藏”。识别出照片中的关键信息后,Copilot接着搜索“月船3号(Chandrayaan-3)发射时间”。最终,Copilot提供了答案:“根据您提供的照片,该火箭属于月船3号任务。该任务由印度空间研究组织(ISRO)于2023年7月14日从萨蒂什·达万航天中心发射。”


此外,另一个新增的搜索功能是深度搜索(Deep Search)。微软推出此功能的主要原因是,现有搜索引擎有时无法充分理解用户在处理复杂、细节丰富或具体问题时的需求。深度搜索在Bing的现有网络索引和排序系统基础上,结合GPT-4技术,将搜索查询转化为更详尽的描述,并明确理想结果集应包含的信息。针对模糊或具有多重含义的查询,例如“日本的积分系统是如何运作的”,由于“积分”一词可能有多种解释,深度搜索利用GPT-4识别所有潜在的含义,并提供一个消歧选择面板,让用户从中挑选他们所需要的具体描述。


亮点3:推出代码解释器Edge可一键总结视频内容

Copilot最新推出了一项代码解释功能(Code Interpreter),旨在提高编程、数据处理、可视化、数学等领域的准确性和效率。该代码解释器功能能根据用户的自然语言指令编写代码,并在一个安全的沙盒环境中执行这些代码。它已经集成了众多知名的数据科学工具和库,例如Pandas、NumPy、Matplotlib等。此外,用户还可以上传和下载文件,将个人数据和代码与网络搜索结果相结合。目前,代码解释器仅提供了基础版本,暂不支持文件上传和复杂编程功能,但预计将在未来几周内逐步推出更新版本。


从Copilot此次的更新内容中可以看出,其功能正在迅速增强,几乎可以与每月收费20美元的ChatGPT Plus相媲美。在之前OpenAI的“政变”事件中,微软在支持OpenAI的同时,也在争取董事会席位,虽然最终只获得了一个无投票权的观察员位置,但这也代表了其在OpenAI中的一定影响力。


在OpenAI和微软的激烈竞争中,谷歌是否会坐视不管?谷歌迅速传出了即将公开展示其大型模型Gemini的消息。作为谷歌十年来最重要的AI项目,Gemini是否能赶上GPT-4的能力,它没有跳票,而是按计划推出。



2. 谷歌深夜掀桌子,发最强大模型Gemini,跑分碾压GPT-4


Gemini的发布经历了多次变动。最初的传闻指出,Gemini计划于今年秋天推出。然而,到了11月,有消息称Gemini的发布被推迟到明年第一季度。但在12月7日的深夜,谷歌突然宣布Gemini上线!作为对抗GPT-4的重要战略,Gemini的首次亮相即展现了众多引人注目的特点。下面来探讨这次发布的Gemini的几个亮点。


亮点1:在MMLU(大规模多任务语言理解)测试中首次超越人类专家。

Gemini在MMLU测试中首次超过了人类专家,其在32个多模态基准测试中获得了30个SOTA(最佳当前效果),几乎在所有方面都超越了GPT-4。谷歌宣布,Gemini Ultra是首个在MMLU任务上胜过人类专家的大型模型,获得了90.0%的成绩,而人类专家和GPT-4分别得分为89.8%和86.4%。

亮点2:在多模态领域的卓越创新性能超越了GPT-4V

Gemini可以处理并理解文本、图像、音频、视频和代码等五种不同类型的数据。作为谷歌有史以来规模最大、能力最强的模型,Gemini在文本、视频、语音等多个领域都超越了GPT-4,从而一举扭转了局势。这意味着用户可以自由地混合输入方式,比如说话、添加图片、文本或短视频。同理,模型也能混合输出文本和图像。


亮点3:三个不同版本的同时发布

谷歌将这次发布的版本称为Gemini 1.0,包括三个不同的版本:用于处理高度复杂任务的Gemini Ultra、适用于多种任务的Gemini Pro以及适用于移动设备的Gemini Nano。其中,Gemini Pro和Gemini Nano已分别在聊天机器人Bard和智能手机Pixel 8 Pro上进行了集成。最为强大的Gemini Ultra预计将在明年推出。

Gemini Nano有两个不同的规模版本,包括拥有18亿参数的Nano-1和32.5亿参数的Nano-2,分别适用于低内存和高内存设备。Gemini Nano是通过从更大的Gemini模型中提取知识训练而来,采用4位量化处理以优化部署,并提供最佳性能。


在OpenAI和ChatGPT开始主导市场后,Gemini是谷歌一年探索的结果。面对“红色警报”,谷歌一直在努力追赶,但表示不会为了赶上步伐而急于求成,尤其是在接近AGI(人工通用智能)的过程中。


Gemini是否会改变世界?最理想的情况是,它能帮助谷歌在生成式AI竞争中赶上OpenAI。这标志着谷歌的一个重要开始。前艾伦人工智能研究所CEO Oren Etzioni表示,“虽然没有理由怀疑Gemini在这些基准上超越GPT-4,但GPT-5可能会做得更好。”


开发像Gemini这样的大型模型可能需要数亿美元的投资,但对于通过云服务主导AI领域的公司来说,最终的回报可能是数十亿甚至数万亿美元。


“这是一场不能失败的战争,必须取得胜利。”


Tony哥

2023年12月7日


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1