GPT-4不服被Bard反超：最新模型已入场

作者：量子位发布时间：2024-01-30

西风发自凹非寺

量子位 | 公众号 QbitAI

“大模型排位赛”权威榜单Chatbot Arena刷新：

谷歌Bard超越GPT-4，排名位居第二，仅次于GPT-4 Turbo。

然鹅，众多网友对此却表示“不服”、“不公平”。

原来，谷歌AI掌门人Jeff Dean透露，Bard性能大幅提升，是因为搭载了新版大模型——Gemini Pro-scale。

这也就意味着，打“排位赛”的Bard具备了联网功能。

网友的质疑正是围绕着这一点展开：

在同一个排行榜上混合在线和离线大模型，是极易引起误解的。

Hugging Face的“首席羊驼官”Omar Sanseviero也表示：

既然如此…我也可以向lmsys提交具有搜索功能的Mixtral吗？

面对种种质疑声，Imsys官方做出了回应，其中指出：

Arena排行榜是实时的，大家如有疑问，可在Arena中直接比较模型并投票；
投票数据公开透明，还会即将发布关于用户提示多样性和投票质量的研究以及相应的数据集；

对于网友们最关心的被Bard超越的GPT-4是不联网版本的问题，Imsys表示“如果实时数据的接入能够提升用户体验，排行榜将予以体现”。

并且直接@了OpenAI和Bing以及微软高管Mikhail Parakhin，表示非常乐意在竞技场中加入GPT-4联网版或Bing Copilot。

最新消息是，OpenAI的最新模型gpt-4-0125-preview现已入驻竞技场，等待用户参与投票。

Bard超越GPT-4是怎么回事？

Chatbot Arena是一个大模型权威榜单，由UC伯克利研究人员主导的Imsys（Large Model Systems Organization）组织创建。

该排行榜采用匿名1V1battle的投票规则，基于Elo评级系统排名。

具体来说，投票页面如下，两个模型Model A和B均匿名，用户在提出多个问题后对模型的回答打分，总共有四个选项：A更好、B更好、A和B一样好，A和B都不好。

值得一提的是，如果在问答过程中，模型身份泄露，那么该投票作废。

根据当前榜单，竞技场中有56个大模型：

此前GPT-4凭借“遥遥领先”的评分，长期霸榜，然而新版Bard发布后，直接超越GPT-4的两个版本冲到了第二名，和第一名的GPT-4 Turbo只差34分：

更详细一点，在所有没有平局的Model A对B的对决中，Model A获胜的比例如下：

还有每一对模型组合的单挑次数（无平局）：

此外，Chatbot Arena排行榜还使用自助法对Elo评分估计进行1000次随机抽样，从而评估置信区间等。

单个模型相对于其他所有模型的平均胜率如下：

不过值得注意的是，Arena排行榜是实时的，Bard目前虽然排名第二，但总共只有3000多票。

相较而言，GPT-4 Turbo的票数已经达到了30000+，被超越的两个版本的票数也都是Bard的数倍。

而现在GPT-4最新版本已入场（虽然还没有在排行榜上更新），后续结果还要再坐等一波～

参考链接：https://twitter.com/lmsysorg/status/1752035632489300239

— 完—

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

近期资讯

钧崴电子科技股份有限公司首次公开发行股票并在创业板上市发行公告

发行人自成立以来始终致力于围绕核心业务进行技术研发,建立了涵盖材料应用、结构设计、制程工艺、设备和产线自动化等多方面的技术体系,掌握了多项核心专有技术,构建了完备的研发体系,形成了良好的研发机制。

证券时报 2024-12-27

潇湘晨报 2024-12-27

在这里，看钢筋铁骨如何秒变贴心小棉袄

1.万德昌自主研发的康养型具人形机器人-飞燕。一个机器人揪着耳朵把猪拉出猪圈，还能凭一己之力，抱起猪塞进车里；同时，它还是插秧的一把好手，耕田、拔萝卜更是游刃有余，这可把网友乐坏了，纷纷表示：真有这个神器，我贷款都买下来。

南方都市报 2024-12-27

海上“风光”别样好

近年来，山东青岛市以场景应用为导向，以科技创新为支撑，大力发展海洋新能源产业。布局海洋新能源基础设施项目，是利用海洋能源的关键一步。中国能建海洋能源研究院联合中国海洋大学李华军院士团队，成立了绿色智能海工技术协同创新中心，旨在推动海洋能源领域高质量发展。

经济日报 2024-12-27

深圳科学家成果再登国际顶级期刊

ABCH外排农药的功能，为解决抗药性问题提供了全新的思路。中国农业科学院深圳农业基因组研究所（岭南现代农业科学与技术广东省实验室深圳分中心）（以下简称“基因组所”）杨青教授团队，发现了昆虫体内的一类特殊蛋白——ABCH转运蛋白，这类蛋白能将昆虫体内脂质转运到表皮，参与表皮脂质屏障的构建。

深圳商报 2024-12-27

“新卷王”——真我Neo7，那是非常值得体验的！

真我Neo7内置是7000mAh大电池，不仅容量大，而且能量密度高，电池在经1800次充放电循环后，健康度还保持80%以上。电池在满电状态，可游玩8.5小时的《王者荣耀》，5小时的《原神》，吃鸡能玩近7小时。在GT性能引擎加持下，实现了全场景流畅优化，配合AI自适应调频，在游戏场景中能够做到恒久高帧，支持超帧超分。

大话百科天地 2024-12-27

河北发布四个区域特色场景

会上，河北省科技厅集中展示了石家庄栾城低空制造与飞行、唐山高新区机器人产业协作共享、廊坊开发区先进算力共建共享、衡水桃城低空文旅运动体验等四个区域特色场景。

央广网 2024-12-27

人类学的新未来

全书从人类学的学科前沿出发，以人类学的整体观为基点，阐述数智时代的文明演变。就推动当下文理结合的跨学科发展而言，本书以中国实践为基础提出许多突破性观点，如神话与科幻相互映照、虚拟与现实双线并置等，本书的突出特点在于突破以往的“数码时代”“数字化生存”等习惯认知，提出“数智文明”为核心的表述构架。

北京日报 2024-12-27

GPT-4不服被Bard反超：最新模型已入场

推荐体验

相关资讯

谷歌一雪前耻，全新PaLM 2反超GPT-4，办公全家桶炸裂升级，Bard史诗进化

谷歌一雪前耻！全新PaLM 2反超GPT-4，Bard聊天机器人史诗进化

新大模型能超 GPT-4，Bard 全面升级，谷歌反击 ChatGPT

Meta发布最强开源大模型追赶GPT-4，小扎：明年反超

地表最强AI，GPT-4专治各种不服

近期资讯

钧崴电子科技股份有限公司首次公开发行股票并在创业板上市发行公告

一加13系列发布日期临近新配色抢眼配置令人期待

车企纷纷“驶入”人形机器人赛道

无人机有望实现边飞边充电

在这里，看钢筋铁骨如何秒变贴心小棉袄

海上“风光”别样好

深圳科学家成果再登国际顶级期刊

“新卷王”——真我Neo7，那是非常值得体验的！

河北发布四个区域特色场景

人类学的新未来

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响