谷歌推出全新构建的 Gemini 系列多模态 AI 模型,性能全面超越 GPT-4,尤其是在图像、视

作者：无限理论派发布时间：2023-12-09

在我们正式探讨谷歌的Gemini项目之前，我想先分享两个相关的网址。第一个是Gemini项目的官方网站，网址是：https://deepmind.google/。另外一个是12月13日即将发布的Gemini Pro版本的Bard智能聊天机器人的网站，网址是：https://bard.google.com/。这里需要提醒一下的是这个网站需要魔法才能访问，要想获取魔法请访问这个网站：https://www.lh911.asia/%e5%a6%82%e4%bd%95%e7%a7%91%e5%ad%a6%e4%b8%8a%e7%bd%91%ef%bc%9f/，这个网址有教你获得魔法的详细教程。话不多说，我们直接开始我们今天的主题吧！

探索谷歌的最新AI技术：Gemini与GPT-4的比较分析｜全面指南：Gemini Pro的实用操作技巧｜谷歌的Bard和Pixel 8 Pro：Gemini技术的新应用｜深入对比：Gemini与GPT系列的终极对决

有人向 Gemini 询问关于创作的灵感。首先在Gemini有两陀线，接着作者问 Gemini 有什么制作的想法吗? Gemini 提出一个创意：制作蓝色和粉色触手的章鱼怎么样?

现在给 Gemini一段音谱视频，它能够通过观看音乐谱视频，精准地解析音乐，并表现出音乐的轻柔风格。

同样，给予它一段视频，它能够生成一段展示群居行为的模拟视频。

这一技术是谷歌新发布的强大的 Gemini 大语言模型的一部分，一个从头开始由 Google 构建的多模态模型。

它能够在文本、图像、视频、音频和代码之间无缝进行推理。谷歌内部认为，Gemini 在人工智能领域具有重大的突破性意义。

那么，这个 Gemini 大语言模型到底是什么呢？我们来探讨一下 Google 的 Gemini 大语言模型的强大之处以及它对我们生活和工作的潜在影响。首先，简介一下 Gemini。这是一个全新构建的多模态模型，能够在文本、图像、视频、音频和代码之间无缝推理。

其中，Gemini 在 MNL 多模式逻辑测试中的表现尤为引人注目，它在这个包含 57 个不同主题的多项选择测试中超越了人类专家的水平。

然而，这里有一些值得关注的细节。例如，GPT-4 在这个测试中的得分是基于仅查看 5 个相关样本的情况下获得的，

而 Gemini Ultra 则是在参考了 32 个样本后得出的结果。这显示了 Gemini 采用了一种更为复杂的学习策略。正因如此，专家们对这个测试的可信度持有一定的怀疑。此外，值得一提的是，Gemini 在其他领域的表现也相当出色。无论是在图像理解、视频理解、语音识别还是翻译的基准测试中，Gemini 都展现出了优于 GPT-4 和其他模型的能力。

实际上，Gemini 系列呈现了三个不同规模的模型，分别为Nano、Pro和Ultra，这几种模型各自针对特定的应用需求而设计。

这一系列模型将谷歌的技术优势推向了新的高度。Nano 模型旨在兼容手机使用，轻量而高效。Pro 模型的性能大致匹敌于 GPT-3.5，非常适合广泛的应用场景。而 Ultra 模型，预计将在明年初推出，作为 GPT-4 的主要竞争者，专门处理高难度的任务。在性能上，Ultra 模型与 GPT-4 相当，而 Pro 模型则与 GPT-3.5 类似，Nano 模型则专为手机中的应用打造。

在接下来的部分，我们将深入探讨 Gemini 系列中的 Ultra 和 Pro 模型与业界领先的 GPT-4 和 GPT-3.5 模型的性能对比。

一位大神精心编制了一份详细的性能对比表，帮助我们深入理解不同模型的能力。为了更好地解读这张对比图，我们需要先了解几个关键概念。

MMLU（Massive Multitask Language Understanding）是一个评估标准，用于衡量模型在多个学科领域，如数学、物理、历史、法律、医学和伦理学等共57个学科中的语言理解能力。

HUMAN EVAL 则是衡量模型在编程技能上的表现，涉及语法、逻辑、算法和调试等方面。

GSM-8K 是专注于数学能力的评估，包括代数、几何、微积分和概率等领域。

DROP 是阅读理解能力的评估指标，考查模型处理事实、推理、计算和时间理解等方面的能力。

从图表中，我们可以观察到，在多任务语言理解（MMLU）和编程（HUMAN EVAL）测试中，Ultra 模型比 GPT-4 略有优势，分别领先3%和7%。这表明 Ultra 模型在综合能力和逻辑思维方面表现出色。

同时，Gemini Pro 在数学（GSM-8K）、编程（HUMAN EVAL）和阅读理解（DROP）测试中都大幅度领先于 GPT-3.5，分别提高了29%、20%和10%。这表明在这些领域，Pro 模型实现了质的飞跃。

相较于上一代技术，Gemini 系列标志着一个显著的进步。我们来看第三部分，即 Gemini 的最新进展。

众所周知的是，AAM（自适应模型）技术的体验进展备受期待。Gemini Nano 将在 Pixel 8 Pro 手机上进行首次展示，为用户带来智能的内容总结和响应能力，这无疑是技术发展的一个巨大飞跃。

坦白说，很多专家之前对于一个有35亿参数的模型是否真能在手机上顺畅运行提出了疑问，但看起来 Google 似乎找到了解决方案。

Gemini Pro 版本预计将在12月13日对开发者和商业用户开放，届时这个通过 Google 的 Gemini API，他们将能够利用 Gemini 的高级功能来开发新的应用程序和服务。此外，Gemini 的技术也将逐步融入到谷歌的其他服务中，例如搜索、广告和 Chrome 浏览器，旨在为用户提供更加优质的体验和提高效率。

从两天前开始，Google 的 Bard 服务已经在全球170个国家和地区推出，尽管英国和欧盟尚未加入。

目前，Google Bard 正在使用经过微调的 Gemini Pro 版本。如果你对 Google Bard 感兴趣，现在正是一个好时机去体验 Gemini 系列的魅力。而对于那些期待 Gemini Ultra 的用户，还需要耐心等待到明年。

总结一下，Gemini 系列无疑是一组令人印象深刻的多模态模型。它在许多任务上超越了 GPT-4 和其他模型，主要得益于其从零开始的训练方式，这种方式无需将多模态数据统一转换为文本格式。Gemini 还拥有一个极具吸引力的UI界面，它可以根据用户需求创建多种界面和功能。另外，Gemini 系列还包括一个称为 AlphaCode2 的编程工具，它能够帮助解决各种编程难题。

尽管在某些文本处理任务上，它可能不及 GPT-4，特别是在一些如 MML 这样有争议的测试中。它的发布也面临着一些法律约束，限制了它的使用范围。此外，由于 Gemini 的高计算需求，其可用性和可扩展性可能会受到一定的限制。

然而，值得期待的是，Google Bard 已经集成了 Gemini Pro，这意味着 Bard 在功能上已经超过了 ChatGPT 的免费版本，提供了更优质的性能，能够生成更流畅、更准确、更有创意的内容。

它能实时上网，利用最新的信息和数据来丰富和更新其输出。此外，无论是在 PC 还是移动设备上，它的语音输入和朗读功能都使得与其交流变得更加便捷，用户可以轻松听取它的输出。

谷歌推出全新构建的 Gemini 系列多模态 AI 模型,性能全面超越 GPT-4,尤其是在图像、视

推荐体验

相关资讯

谷歌发布多模态大模型Gemini，性能超GPT-4！

测评数据超越GPT-4，谷歌推出全新AI模型Gemini

谷歌王者归来！全新AI多模态大模型Gemini性能测试完胜GPT-4

Google宣布推出原生多模态AI模型Gemini，挑战GPT-4

谷歌重拳出击 Gemini 全面超越 GPT-4

近期资讯

丽水一元科技取得逆变器辅助冷却装置专利，有利于防尘板的拆卸和安装

苏州同泰新能源科技取得电压转换电路等专利，实现电压转换并滤波得到交流电压信号

西安图为电气取得一种三相四线制逆变器电路及储能系统专利，保持在三相不平衡负载下三相相电压也是平衡的

浙江索罗威取得修正正弦波逆变器专利，实现修正正弦波逆变输出

上海宏力达取得可控逆变输出的桥式整流功率模块专利，同时具备三相全桥整流、全桥逆变转换、单相桥式整流功能

吉林省中赢高科技申请双层端子专利，增加接触面积减小接触电阻

纳百川电子科技申请钳口式插座专利，能高效可靠完成连接和固定

威胜能源取得一种逆变串并联电路专利，能保证低至 14V 光伏输入时有逆变输出，提高电压输入范围

联想申请连接器及电子设备专利，能夹装固定连接器安装板

上海航天科工申请小型化BGA焊接型接插件专利，具有很好的电磁屏蔽性能

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响