Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

作者：量子位发布时间：2023-12-20

编程 GPT-4

梦晨发自凹非寺

量子位 | 公众号 QbitAI

谷歌Gemini实力到底如何？卡耐基梅隆大学来了场专业客观第三方比较。

为保证公平，所有模型使用相同的提示和生成参数，并且提供可重复的代码和完全透明的结果。

不会像谷歌官方发布会那样，用CoT@32对比5-shot了。

一句话结果：Gemini Pro版本接近但略逊于GPT-3.5 Turbo，GPT-4还是遥遥领先。

在深入分析中还发现Gemini一些奇怪特性，比如选择题喜欢选D……

不少研究者表示，太卷了，Gemini刚发布没几天就搞出这么详细的测试。

六大任务深入测试

这项测试具体比较了6大任务，分别选用相应的数据集：

知识问答：MMLU
推理：BIG-Bench Hard
数学：GSM8k、SVAMP、ASDIV、MAWPS
代码：HumanEval、ODEX
翻译：FLORES
上网冲浪：WebArena

知识问答：喜欢选D

从结果可以看出，使用思维链提示在这类任务上不一定能带来提升。

MMLU数据集里都是多选题，对结果进一步分析还发现奇怪现象：Gemini更喜欢选D。

GPT系列在4个选项上的分布就要平衡很多，团队提出这可能是Gemini没针对多选题做大量指令微调造成的。

另外Gemini的安全过滤比较严重，涉及道德问题只回答了85%，到了人类性行为相关问题只回答了28%。

Gemini Pro表现超过GPT-3.5的两个科目是安全研究和高中微观经济学，但差距也不大，团队表示分析不出来什么特别的。

推理：长问题不擅长

Gemini Pro在更长、更复杂的问题上表现不佳，而GPT系列对此更稳健。

GPT-4 Turbo尤其如此，即使在较长的问题上也几乎没有性能下降，表明它具有理解复杂问题的强大能力。

如果按问题类型来分析，Gemini特别不擅长“tracking_shuffled_objects”这类问题，也就人们交换物品，最后让AI判断谁拥有哪些物品。

Gemini比较擅长的任务是，需要世界知识的体育运动理解、操作符号堆栈、按字母顺序排序单词，解析表格。

数学：复杂任务反超‍‍

这一次问题本身太长Gemini Pro和GPT-3.5表现就一起下降，只有GPT-4还能保持一贯水准。

但使用的思维链提示长度最长时，Gemini反超GPT-3.5。

代码：擅长matplotlib

对于代码问题，Gemini在参考答案长的问题上表现很差。

按调用的库来分类，GPT系列在大多数类型更强，但matplotlib就完全不行。

翻译：只要回答了，质量就很高

翻译任务上，有12种类型Gemini拒绝回答，但是只要回答了的翻译质量都很高，整体表现超过GPT-4。

Gemini拒绝翻译的类型主要涉及拉丁语、阿拉伯语。

网络导航：擅长跨站点冲浪

WebArena给AI模拟了一个互联网环境，包括电子商务、社交论坛、GitLab协作开发、内容管理系统和在线地图等，需要AI查找信息或跨站点完成任务。

Gemini在整体表现不如GPT-3.5 Turbo，但在跨多个站点的任务中表现稍好。

网友：但是它免费啊

最后，CMU副教授Graham Neubig承认了这项研究的一些局限性。

基于API的模型行为可能随时变化
只尝试了有限数量的提示，对不同模型来说适用的提示词可能不一样
无法控制测试集是否泄露

谷歌大模型推理团队负责人周登勇指出，对于推理任务把Gemini的温度设置为0可以提高5-10个百分点。

这项测试中除了Gemini与GPT系列，还搭上了最近很受关注的开源MoE模型Mixtral。

不过强化学习专家Noam Brown认为可以忽略其中Mixtral的结果，因为用的是第三方API而非官方实现。

Mistral AI创始人也来给团队提供了官方版调用权限，认为能得到一个更好的结果。

总得来，虽然Gemini Pro还是不如GPT-3.5，但是它胜在每分钟调用不超过60次就免费。

所以还是有不少个人开发者已经转换了阵营。

目前Gemini最高版本Ultra版尚未发布，到时CMU团队也有意继续这项研究。

你觉得Gemini Ultra能达到GPT-4水平么？

论文：

https://arxiv.org/abs/2312.11444

参考链接：

[1]https://twitter.com/gneubig/status/1737108977954251216

— 完—

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

相关资讯

谷歌 Gemini Pro 实测不如 GPT-3.5，CMU 深入对比研究：保证公平透明可重复

为保证公平，所有模型使用相同的提示和生成参数，并且提供可重复的代码和完全透明的结果。一句话结果：GeminiPro版本接近但略逊于GPT-3.5Turbo，GPT-4还是遥遥领先。

谷歌编程 GPT-4

IT之家 2023-12-21

摸底谷歌Gemini：CMU全面测评，Gemini Pro不敌GPT 3.5 Turbo

前段时间，谷歌发布了对标 OpenAI GPT 模型的竞品 ——Gemini。这个大模型共有三个版本 ——Ultra（能力最强）、Pro 和 Nano。

谷歌 OpenAI

机器之心 2023-12-20

每日元宇宙｜GPT入选2023全球十大工程，谷歌Gemini不如GPT-3.5

2023全球十大工程成就在京发布ChatGPT、中国空间站等入选研究人员发现，谷歌Gemini表现不如GPT-3.5Turbo百度智能云千帆AppBuilder开放服务消息称苹果正在研究生成式AI技术HUGS…

元宇宙谷歌百度苹果 ChatGPT

元宇宙新声 2023-12-26

ChatGPT Alpha 与GPT-3.5、GPT-4详细对比评测

ChatGPT GPT-4

THEAI论坛 2023-11-08

ChatGPT国内使用分享：GPT-4o/GPT-3.5/GPT-4.0模型对比

ChatGPT指什么 ChatGPT是一个智能聊天机器人，能帮你解决各种问题，就像一个万能的助手。它能和你聊天、回答问题、帮你写文章、翻译语言，还能提供学习和工作建议。无论你需要创意灵感、数据分析，还是生活建议，ChatGPT都能提供帮助。总之，它就像一个聪明的朋友，随时随地为你提供支持。 ChatGPT的原理通俗地说，ChatGPT 的原理可以比喻成一个超级聪明的“语言魔法师”，它通过大量的阅读和学习，掌握了如何理解和生成自然语言。以下是其主要工作原理： 1.学习阶段： - 大量阅读：ChatGPT

ChatGPT GPT-4

LaiLaiRich 2024-05-29

近期资讯

维达力实业申请低氮的合金涂层等专利，兼具高硬度和优异耐腐蚀能力

金融界2024年12月25日消息，国家知识产权局信息显示，维达力实业（深圳）有限公司申请一项名为“低氮的合金涂层、Cr-Zr-N合金材料、硬质耐腐蚀涂层方面的应用及制备方法”的专利，公开号CN119177386A，申请日期为2023年6月。专利摘要显示，本发明涉及低氮的合金涂层、Cr‑Zr‑N合金材料、硬质耐腐蚀涂层方面的应用及制备方法。

金融界 2024-12-25

十堰旭昶工贸取得剪板机前定位剪切工装专利，便于适配不同宽度的板材

金融界2024年12月25日消息，国家知识产权局信息显示，十堰旭昶工贸有限公司取得一项名为“一种剪板机前定位剪切工装”的专利，授权公告号CN222199054U，申请日期为2024年4月。

金融界 2024-12-25

美的集团获得发明专利授权：“燃气热水器的燃气调节装置和具有其的燃气热水器”

证券之星消息，根据天眼查APP数据显示美的集团（000333）新获得一项发明专利授权，专利名为“燃气热水器的燃气调节装置和具有其的燃气热水器”，专利申请号为CN201910557051.7，授权日为2024年12月24日。

证券之星 2024-12-26

美的集团获得发明专利授权：“软水设备的性能检测方法、装置及电子设备”

证券之星消息，根据天眼查APP数据显示美的集团（000333）新获得一项发明专利授权，专利名为“软水设备的性能检测方法、装置及电子设备”，专利申请号为CN202210602602.9，授权日为2024年12月24日。

证券之星 2024-12-26

广州启蒙取得一种可对工件进行位置限定的五金制品用剪板机专利，保证工件在剪板后的合格率

金融界2024年12月25日消息，国家知识产权局信息显示，广州启蒙知识产权服务有限公司取得一项名为“一种可对工件进行位置限定的五金制品用剪板机”的专利，授权公告号CN222199056U，申请日期为2023年12月。

金融界 2024-12-25

忘记家中无线密码？教你几招轻松找回！

在现代生活中，无线网络几乎是每个家庭必不可少的东西。无论是上网冲浪、看视频，还是工作学习，Wi-Fi都扮演着重要的角色。然而，有时候我们会遇到一个让人头疼的问题，那就是忘记了家里的无线密码。这种情况可能会让人感到无奈，但其实解决起来并不复杂。接下来，我就来聊聊如果家里无线密码忘记了该怎么办。首先，最简单的方法就是查看路由器。

新报观察 2024-12-26

掌握电脑剪切功能，提升文件管理与编辑效率

在日常使用电脑的过程中，剪切功能是一个非常实用的工具。无论是整理文件，还是编辑文本，剪切都能帮助我们快速高效地完成任务。那么，电脑怎么剪切呢？这篇文章就来详细聊聊这个话题。剪切，简单来说，就是将选中的内容从一个地方移到另一个地方。这个过程通常包括“剪切”和“粘贴”两个步骤。

新报观察 2024-12-26

如何轻松关闭NFC功能及其使用注意事项解析

NFC，也就是近场通信技术，近年来变得越来越流行。大家用手机支付、交换文件、连接设备时，几乎都能见到它的身影。不过，有时候我们可能并不想让NFC一直处于开启状态。也许你在担心隐私问题，或者只是想省电。无论原因如何，关闭NFC其实是个相对简单的操作。接下来，我就来聊聊如何关闭NFC，以及一些相关的注意事项。

新报观察 2024-12-26

湖北申克包装科技取得基于油漆桶加工用铁皮截断装置专利，提高工作效率

金融界2024年12月25日消息，国家知识产权局信息显示，湖北申克包装科技有限公司取得一项名为“一种基于油漆桶加工用铁皮截断装置”的专利，授权公告号CN222199053U，申请日期为2024年5月。

金融界 2024-12-25

美的集团获得实用新型专利授权：“风机及地面清洁设备”

证券之星消息，根据天眼查APP数据显示美的集团（000333）新获得一项实用新型专利授权，专利名为“风机及地面清洁设备”，专利申请号为CN202323546397.8，授权日为2024年12月24日。

证券之星 2024-12-26

Gemini Pro还不如GPT-3.5，CMU深入对比研究：保证公平透明可重复

推荐体验

相关资讯

谷歌 Gemini Pro 实测不如 GPT-3.5，CMU 深入对比研究：保证公平透明可重复

摸底谷歌Gemini：CMU全面测评，Gemini Pro不敌GPT 3.5 Turbo

每日元宇宙｜GPT入选2023全球十大工程，谷歌Gemini不如GPT-3.5

ChatGPT Alpha 与GPT-3.5、GPT-4详细对比评测

ChatGPT国内使用分享：GPT-4o/GPT-3.5/GPT-4.0模型对比

近期资讯

维达力实业申请低氮的合金涂层等专利，兼具高硬度和优异耐腐蚀能力

十堰旭昶工贸取得剪板机前定位剪切工装专利，便于适配不同宽度的板材

美的集团获得发明专利授权：“燃气热水器的燃气调节装置和具有其的燃气热水器”

美的集团获得发明专利授权：“软水设备的性能检测方法、装置及电子设备”

广州启蒙取得一种可对工件进行位置限定的五金制品用剪板机专利，保证工件在剪板后的合格率

忘记家中无线密码？教你几招轻松找回！

掌握电脑剪切功能，提升文件管理与编辑效率

如何轻松关闭NFC功能及其使用注意事项解析

湖北申克包装科技取得基于油漆桶加工用铁皮截断装置专利，提高工作效率

美的集团获得实用新型专利授权：“风机及地面清洁设备”

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响