Gemini 是整个 Google 团队(包括 Google Research 的同事)大规模协作努力的多模态人工智能。它可以理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。
概要如下:
1、Gemini 规格(Ultra、Pro、Nano)和可用性
2、Gemini Ultra 比 GPT-4 更好
3、Gemin多模态应用
4、第一印象
Gemini 也是我们迄今为止最灵活的模型 - 能够在从数据中心到所有设备上高效运行。
Gemini 是一个型号系列,具有三种尺寸:Ultra、Pro 和 Nano。以下是技术报告中有关 Gemini 尺寸及其规格部分的摘要。
Gemini Ultra——我们最大、最有能力的模型,适用于高度复杂的任务。
Gemini Pro——我们可扩展各种任务的最佳模型。
Gemini Nano——移动端使用
Gemini Ultra 在各个基准测试中超越 GPT-4 的版本。它被设计为在数据中心上运行,因此您无需将其安装在家庭计算机上。它仍在接受安全审查,但将于 2024 年初在新版本的 Google 聊天机器人 Bard Advanced 上使用。
详情参考技术文档:
https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
Gemini Pro 与 GPT-3.5 相当,如果不需要最好的型号并且考虑花费成本,Pro 可能是比 Ultra 更好的选择(就像 ChatGPT 一样,GPT-3.5 是免费的,对于大多数任务来说,比每月支付 20 美元购买 GPT 更好) 4). Gemini Pro 已在 170 个国家(不包括欧盟/英国)的 Bard 上以英语提供(“迄今为止最大的升级”)。Google 稍后将扩大在其他国家/地区和语言的可用性。
Gemini Nano 是针对移动设备的模型。谷歌尚未透露Ultra和Pro的参数量,但我们知道Nano分为两层,Nano 1(1.8B)和Nano 2(3.25B),分别针对低内存和高内存设备。Gemini Nano 内置于谷歌 Pixel 8 Pro 中,它将成为一款全面的 AI 增强型智能手机。这就是超级Siri移动助手的开始。Gemini 还将“出现在我们的更多产品和服务中,例如搜索、广告、Chrome 和 Duet AI”,但没有具体说明其大小或时间。
它们都具有 32K 上下文窗口,明显小于最大的 Claude 2 (200K) 和 GPT-4 Turbo (128K)。很难说上下文窗口的大小是最佳的(显然取决于任务),因为据报道,如果大小太大,模型往往会忘记很大一部分上下文知识。据报道,Gemini 模型“有效地利用了它们的上下文长度”,这可能是对此类检索失败的参考。
Gemini 模型并评估其在各种任务中的性能。从自然图像、音频和视频理解到数学推理,Gemini Ultra 的性能在大型语言模型 (LLM) 研发中使用的 32 个广泛使用的学术基准中的 30 个上超过了当前最先进的结果。Gemini Ultra 的得分高达 90.0%,是第一个在MMLU(大规模多任务语言理解)上超越人类专家的模型,该模型结合了数学、物理、历史、法律、医学和伦理学等 57 个科目来测试知识和解决问题的能力。
Gemini Ultra 在 18 个基准测试中的 17 个中超过了 GPT-4,其中包括 MMLU(90% vs 86.4%,使用新型思想链方法)和新的多模态基准 MMMU(59.4% vs 56.8%)。
但是,Gemini 并不比 GPT-4 好多少....
详情参考技术文档:
https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
Gemin多模态应用
了解更多有关 Gemini 多模态的功能:
到目前为止,Gemini 是多模态领域最强大的模型,包括文本、代码、图像、音频和视频。从技术报告来看:Gemini 模型经过训练,可以适应与各种音频和视觉输入交错的文本输入,例如自然图像、图表、屏幕截图、PDF 和视频,并且它们可以生成文本和图像输出。
Gemini 1.0 复杂的多模式推理功能可以帮助理解复杂的书面和视觉信息。这使得它在发现大量数据中难以辨别的知识方面具有独特的能力。
其通过阅读、过滤和理解信息从数十万份文档中提取见解的卓越能力将有助于在从科学到金融的许多领域以数字速度实现新的突破。
Gemini 1.0 复杂的多模式推理功能可以帮助理解复杂的书面和视觉信息。这使得它在发现大量数据中难以辨别的知识方面具有独特的能力。
其通过阅读、过滤和理解信息从数十万份文档中提取见解的卓越能力将有助于在从科学到金融的许多领域以数字速度实现新的突破。
Gemini 1.0 经过训练,可以同时识别和理解文本、图像、音频等,因此它可以更好地理解微妙的信息,并可以回答与复杂主题相关的问题。这使得它特别擅长解释数学和物理等复杂学科的推理。
我们的第一个版本的 Gemini 可以理解、解释和生成世界上最流行的编程语言(如 Python、Java、C++ 和 Go)的高质量代码。它跨语言工作和推理复杂信息的能力使其成为世界领先的编码基础模型之一。
Gemini Ultra 在多个编码基准测试中表现出色,包括HumanEval(用于评估编码任务性能的重要行业标准)和 Natural2Code(我们内部保留的数据集),该数据集使用作者生成的源而不是基于网络的信息。
Gemini 还可以用作更高级编码系统的引擎。两年前,我们推出了AlphaCode,这是第一个在编程竞赛中达到竞争性能水平的人工智能代码生成系统。
使用 Gemini 的专门版本,我们创建了更先进的代码生成系统AlphaCode 2,它擅长解决超出编码范围、涉及复杂数学和理论计算机科学的竞争性编程问题。
值得注意的是,如果你仔细观察基准评估中报告的数字,Gemini 最多只击败 GPT-4 几个百分点(请记住,GPT-4 在 2022 年完成了训练),但是不得不说这两家公司拥有世界上最好的人工智能人才,所以才不相上下。
Gemini 在几乎所有基准测试中都优于 GPT-4。这是四年来第一次有人超越 OpenAI。无论如何,在我们过度炒作 Gemini 之前,我们应该等待 Google 在 2024 年初宣布 Bard Advanced,将其与 GPT-4 Turbo 进行测试,然后决定哪一个更好。
也许更值得注意的是—他们没有分享有关训练或微调数据集的任何有价值的内容,也没有分享有关架构的任何有价值的内容。这表明,严格意义上来说,Gemini 与其说是一个科学项目,不如说是一个商业产品。
最后,我们等待他的上线,一起期待对Gemini的测试吧!
参考链接:
https://albertoromgar.medium.com/the-best-ai-model-in-the-world-google-deepminds-gemini-has-surpassed-gpt-4-1ee07f84d2ff
https://deepmind.google/technologies/gemini/#capabilities
https://blog.google/technology/ai/google-gemini-ai/#availability
AIGC设计学院,知识星球内有丰富课程与精品文章
⭕️学习AI技术➡️成为超级个体
⭕️打造设计师个人ip➡️超级变现
⭕️AI趋势洞察
⭕️个人成长、职业规划
💎AIGC学习网站:https://www.craft.do/s/41OUjrfNreA3pj