当前位置：首页|资讯|谷歌|OpenAI

Arena Elo 基准测试：谷歌Gemini 1.5 Pro性能媲美 OpenAI GPT-4o

作者：IT之家发布时间：2024-05-30

Arena Elo 基准测试：谷歌Gemini 1.5 Pro性能媲美 OpenAI GPT-4o

IT之家

2024-05-30 10:41发布于山东IT之家官方账号

IT之家 5 月 30 日消息，谷歌在 I / O 2024 开发者大会上，宣布将 Gemini 1.5 Pro 上下文窗口增加至 200 万个 tokens，那么 Gemini 1.5 Pro 性能究竟有多强悍？

根据 LMSYS Org 公布的总排行榜对比，通过 Arena Elo 系统的测量，Gemini-1.5-Pro-API-0514 和 Gemini-Advanced-0514 都接近 GPT-4o。

上述两款模型在中文方面的表现也非常游戏，Gemini 1.5 Pro 在“hard prompts”类别中也非常接近。

IT之家注：Arena Elo 系统通过让用户匿名投票决定哪个模型在随机对战中表现更好来衡量大型语言模型（LLMs）的技能，并像国际象棋中的 Elo 系统一样更新用户的评分，整体而言更加客观。

查看原图 54K

推荐体验

相关资讯

Anthropic推出Claude 3.5，力压GPT-4o和Gemini 1.5 Pro

当地时间6月20日，OpenAI的“劲敌”Anthropic公司发布了最新模型Claude3.5Sonnet。据Anthropic介绍，该模型是Claude3.5系列模型中的首个版本，也是Anthropic迄今为止发布的“最强大、最智能”的模型。

Claude Claude3 OpenAI

DeepTech深科技 2024-06-21

谷歌终于赢了 OpenAI 一回，Gemini 1.5 Pro 模型超越 GPT-4o，正确处理 9.9 > 9.19｜AGI 掘金资讯 8.5

酱酱们中午好～今天的 AGI 掘金热点资讯来啦，我们知识库上线了 AI 小助手，欢迎来撩！谷歌终于赢了 OpenAI 一回，Gemini 1.5 Pro 模型超越 GPT-4o…

谷歌 OpenAI AGI

酱酱们的每日掘金 2024-08-05

GPT-4o成为全领域SOTA！基准测试远超Gemini和Claude，多模态功能远超GPT-4

OpenAI半小时的发布会让很多人第一反应是直呼「失望」，但随着官网放出更多demo以及更多网友开始试用，大家才发现GPT-4o真的不可小觑，不仅在各种基准测试中稳拿第一，而且有很多发布会从未提及的惊艳功能。

Claude GPT-4 OpenAI

新智元 2024-05-20

GPT-4 Turbo惨遭碾压谷歌刚发布的Gemini 1.5 Pro有多强？

当地时间周四，谷歌突然发布“下一代AI模型”——Gemini1.5。相较于更新迭代的速度（注：谷歌去年12月才刚发布Gemini1.0），新一代模型展现出的生产力暴增更是勾起了业界强烈的兴趣。作为新版本最大的亮点，Gemini1.5版本中首个登场的多模态通用模型Gemini1.5Pro，把稳定处理上下文的上限扩大至100万tokens。

金融界 2024-02-16

Chatbot Arena (聊天机器人竞技场) (含英文原文)：使用 Elo 评级对LLM进行基准测试 -

内容使用“gpt-3.5-turbo” 分小节进行摘要说明：1：微软2023年Build大会来自OpenAI的研究员和创始成员Andrej Karpathy的一个主题为State of GPT的演讲中，介绍大语言模型的能力排名时用了本文项目中的Leaderboard，有关注价值。后续我们将每周更新追踪。 2: 文章使用''gpt-3.5-turbo''进行摘要测试。3: by: Lianmin Zheng*, Ying Sheng*, Wei-Lin Chiang, Hao Zhang, Joseph

微软 OpenAI 大语言模型

贝叶斯派对 2023-06-07

近期资讯

2024年度电视盘点：MiniLED白菜价，国产旗舰狂卷画质

在经历2023年的寒潮后，2024年的电视市场终于有了回暖的迹象，特别是下半年，随着国补活动的开启，中国电视市场也迎来了新一轮的增长。而在全球范围内，中国电视的出海行动也取得了新的进展，全球五大电视品牌里中国品牌已占据三个。

雷科技 2024-12-31

强化企业创新主体地位！郏县液压支架“撑”开国际大市场

近日，位于郏县经济技术开发区的平顶山平煤机煤矿机械装备有限公司（简称平煤机装备公司）机加工分厂装配车间里，公司工程师郭新灿、周玉乾，质量管理部部长周玉亮、技术研发中心主任王跃功、技术带头人李恒乾等十余人围在一根平躺着的立柱旁，认真地对新研制的等压液压支架立柱进行校正。

河南日报 2024-12-31

广汽发布第三代机器人GoMate，人形机器人量产渐行渐近 | 投研报告

华龙证券近日发布汽车行业点评报告：广汽发布第三代机器人GoMate，人形机器人量产渐行渐近。2024年12月26日，广汽集团在中国机器人网年会发布自研第三代具身智能人形机器人GoMate，现场演示中表现出了其精确动作控制、精确导航定位与灵活自主决策能力。行业首创可变轮足移动结构，融入自研视觉自动驾驶算法。

中国能源网 2024-12-31

星河动力谷神星二号火箭计划 2025 上半年首飞

IT之家12月31日消息，国内航天民企星河动力航天今日发布2024年度回顾，并披露了2025年的后续火箭进展。2024年，星河动力航天谷神星一号成功完成了五次陆地和海上发射任务，实现了灵活的地域、轨道适应能力和高密度发射能力。

IT之家 2024-12-31

国内首个高校“AI禁令”发布

据“首都教育”微信公众号消息，期末已至，在高校读书的同学们正忙着完成各种论文、报告，很多学生会选择利用AI来当帮手，相比翻阅厚重的书籍资料，或者利用互联网搜索引擎查找资料，借助AI完成作业更加方便、实用，但也出现了滥用AI的情况。

新京报 2024-12-31

FSF呼吁2025年继续对微软施压！号召Window用户改用GNU/Linux

快科技12月31日消息，据报道，自由软件基金会（FSF）发布了名为“继续向微软施压（KeepputtingpressureonMicrosoft）”的文章，鼓励自由软件支持者在2025年继续向微软进行施压。

驱动之家 2024-12-31

挑战同档最强品质！REDMI Turbo 4防水大满贯：支持IP66/IP68/IP69

快科技12月31日消息，REDMITurbo4即将发布，今天官方公布了其防水性能，支持IP66+IP68+IP69，号称“防水大满贯”。首销还免费赠送进水保，一年内因发生意外进液，导致手机发生故障且无法正常使用，可享受一次免费维修服务，不包含外观损坏及人为故意损坏场景。

快科技 2024-12-31

一加Ace 5系列是如何“All in游戏” 打造性能体验天花板？

与以往不同的是，今年Ace5系列的Pro版本提档了，与标准版一起双杯齐发；一起发生变化的还有产品整体思路：「Allin游戏」的方向下，Ace系列将围绕游戏体验，从软硬件两方面一起下手去打磨方方面面，直指目前移动游戏体验的天花板。

手机中国 2024-12-31

3399元入手骁龙8 Gen2手机！一加Ace 5 Pro开售

它采用了超窄黑边纯直屏设计，搭配利落直边中框，整体机身线条流畅，配重均匀。同时，一加Ace5Pro还采用了全新的星轨玻璃工艺和丝绸玻璃工艺，使得手机触感细腻、不粘指纹，并且拥有深邃且浪漫的视觉效果。

中关村在线 2024-12-31

三部门联合发布实施《加快工业领域清洁低碳氢应用实施方案》

中新网12月31日电据工信部网站消息，为落实《氢能产业发展中长期规划(2021—2035年)》，积极拓展清洁低碳氢在工业领域应用，加快技术装备产品升级，促进氢能产业高质量发展，工业和信息化部、国家发展改革委、国家能源局于2024年12月30日联合发布实施《加快工业领域清洁低碳氢应用实施方案》(以下简称《实施方案》)。

中国新闻网 2024-12-31

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1