谷歌发布“史上最强”大模型，全面对标GPT-4，又遭质疑

作者：南方都市报发布时间：2023-12-08

当地时间12月6日，谷歌突然宣布推出大语言模型Gemini。这一大模型最早在谷歌6月份的I/O 开发者大会上出现预告，而在这次发布时，谷歌更是将“最大”“最强”的字眼明晃晃放在标题，称这一模型将是AI模型的巨大飞跃，最终将影响谷歌几乎所有产品。

虽然谷歌并未明说，但作为一家近十年来一直称自己为“人工智能优先”，而事实上也是在AI领域内持续推出多个里程碑式技术和产品的公司，其Gemini大模型一经发布，便被不少外媒形容为对OpenAI的反击，甚至打上了“击败GPT-4”的名头。

那么，这一名叫Gemini的大模型能做些什么？到底有多强？又是否真的能复现当初ChatGPT引发的AI热潮，乃至超越？

···

三大版本，32个基准测试中遥遥领先

这次谷歌发布的Gemini模型共有三个版本：

Gemini Nano。轻量级版本，旨在移动端设备上进行本地和离线运行。

Gemini Pro。可扩展至各种任务的Gemini模型，会为许多谷歌的AI服务提供动力，并且自发布起便嵌入谷歌的AI聊天机器人产品Bard。

Gemini Ultra。谷歌迄今为止创建的最强大的大语言模型，适用于高度复杂的任务，未来还将用于数据中心和企业应用程序。

目前用户能直接接触到的是Gemini Pro版本，对标GPT-3.5，而对标GPT-4的Gemini Ultra则要在明年才能推出。而对于宣称的“最强”口号，谷歌也为Gemini Ultra拿出了直接证据——

在当前大语言模型研发所使用的32个数学基准中，Gemini Ultra在其中30个测试里都拿下了最佳结果，而在这30个测试中，Gemini Ultra在MMLU（大规模多任务语言理解）方面的得分为90%，甚至略优于人类专家（得分89.8%）。

值得注意的是，在谷歌官方给出的基准测试图表中，“对照组”有且只有一个GPT-4。而从图表数据来看，数学、物理、历史、法律、医学和伦理学等 57 个科目的组合测试得分来看，Gemini Ultra在绝大多数领域强于GPT-4。

除了大语言模型的基础能力之外，谷歌这次重点宣传的还有Gemini的多模态能力，也就是模型可以概括、理解、操作和组合不同类型信息的能力，包括文本、代码、音频、图像和视频等信息。

比如，在科研领域常常会有需要科学家从海量文献中提取数据的情况，但很多垂直领域论文短短一两年就有数十万的新增论文，要求研究者全文阅读论文，还要手动提取相关信息显然不现实，而这时就可以在Gemini中直接输入“寻找相关论文”的自然语言，让大模型帮忙阅读海量论文，提取关键数据，添加注释，甚至还能要求它直接基于数据制作图表。

而在谷歌的演示视频中，还给出了更多的例子：可以直接让Gemini判断一张手写物理题的对错，并让其针对某一具体步骤给出讲解；可以给出图片素材，让Gemini猜测所指电影名；可以让Gemini在几张图片之间找不同……

谷歌官方称，Gemini的多模态推理功能够理解复杂的书面和视觉信息，这就使其在大量数据中理解、过滤和提取信息的能力极为强大，未来将在科研、金融等领域发挥作用。此外，由于可以同时识别和理解文本、图像和音频等各类信息，因此，Gemini也擅长解释数学和物理等复杂学科的推理。

···

上线一天遭质疑，网友实测对比GPT-4

这次谷歌Gemini背后的核心技术是原生多模态（natively multimodal），用官方的话来说，就是一开始就对不同模态进行预训练，再用额外的多模态数据进行微调。这种“原声多模态”对比当下常见的为不同模态训练单独组件，再将它们拼接在一起的多模态大模型创建方法，性能更强，在面对更加复杂抽象的场景时，表现也更好。

整体而言，Gemini在演示中的效果确实极其亮眼，而对于已接入Gemini Pro的Bard，海内外社区也有不少专业人士迅速上手体验，并给出了极佳的反馈。因此，消息一出便在海内外引起了强烈反响。

不过，很快就开始有专业人士指出，这次Gemini引以为豪的基准测试标准结果上玩了点小花招——在号称优于人类专家的MMLU（大规模多任务语言理解）任务上，Gemini Ultra使用了思维链提示技巧、尝试了32次选最好结果，而作为对比的GPT-4则是“无提示词技巧给5个示例”。如果采用后者的标准，Gemini Ultra的效果就不如GPT-4了。

还有一位机器学习讲师Santiago Valdarrama在领英社区里提出，谷歌在宣传视频中的声明，“我们持续捕捉镜头，测试Gemini应对各种挑战的能力，向它展示一系列图像，并要求它对所看到的内容进行推理”，这是在暗示视频案例展示的是精心挑选、剪辑过的好结果，而并非实时录制。

而在X平台上，也有网友实测对比了Gemini和GPT-4的能力。威斯康星大学麦迪逊分校的一位副教授提取了Gemini宣传视频中的14道题目，包括物理数学题解答、图像识别、逻辑推理、解释笑话、如何理清中国亲戚关系等等，并将其喂给GPT-4。

最终，GPT-4在其中12道题上都与Gemini水平相当，但在一道数据图像处理题和数学题上略逊于GPT-4。

事实上，在Gemini推出之后，谷歌股价跌了0.74%，在某种程度上也说明市场仍对新产品的前景存在疑虑。但无论怎样，谷歌Gemini的发布仍然向市场释放了一种信号，那就是OpenAI和它的GPT们不再是难以企及、独一无二的存在了。

采写：南都记者杨博雯

谷歌发布“史上最强”大模型，全面对标GPT-4，又遭质疑

推荐体验

相关资讯

商汤科技发布日日新5.0大模型全面对标GPT-4

全面对标GPT-4 Turbo！商汤发布日日新5.0大模型

突发！谷歌发布史上最强大模型Gemini，打爆GPT-4

星火大模型V4.0正式发布，全面对标GPT-4 Turbo

商汤推出日日新5.0大模型体系，全面对标GPT-4 Turbo

近期资讯

小米手机刷机全攻略：从备份到完成的详细步骤与注意事项

如何选择和贴好保护膜，提升电子设备使用体验的技巧与注意事项

如何轻松设置密码锁密码及其安全性建议

如何高效绑定QQ号以提升账号安全与社交体验

打造高效群聊的策略与技巧：从平台选择到管理法则解析

掌握五笔输入法：快速输入“卫”字及提高打字效率技巧

如何高效剪短视频：技巧与工具推荐，助你轻松上手剪辑艺术

如何简单有效地注销QQ账号的详细步骤与注意事项

掌握三星手机重启技巧，提升使用体验与性能

掌握手机定位功能设置，提升生活便利性与安全性的方法总结

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响