当前位置：首页|资讯|智源|GPT-4|源大模型

智源更新大模型排行榜：豆包大模型“客观评测”排名国产第一

作者：大力财经V发布时间：2024-06-23

智源 GPT-4 源大模型

6月中旬，智源研究院旗下的 Flageval 大模型评测平台发布最新榜单：在有标准答案的“客观评测”中，GPT-4 以76.11分在闭源大模型中排名第一；Doubao-Pro（豆包大模型）以75.96分排名第二，同时也是得分最高的国产大模型；其后依次是 ERNIE 4.0、Baichuan3、Moonshot-v1。在开放问答等“主观评测”中，Doubao-Pro 同样排名第二，得分超过 GPT-4o 和 GPT-4。

图：豆包大模型在 Flageval 客观评测中获综合评分第二（2024年6月）

Flageval 大模型评测平台由智源研究院与多个高校团队共建，以人类认知能力的发展阶梯为基准，对齐大模型所能达到的认知水平。Flageval 构建了大量原创的非公开评测集，确保评测质量和公正性。自2023年6月上线以来，Flageval 已完成了1000多次覆盖全球大模型的评测。

Doubao-Pro 是由字节跳动自主研发的大语言模型，于5月15日正式发布。本期 Flageval 大模型排行榜，是豆包大模型在公开评测中的首次亮相。

测试成绩显示，豆包大模型的数学能力、知识运用、任务解决等多项能力在客观评测和主观评测中都有着出色表现。其中，知识运用和数学能力得分排名客观评测第一、主观评测前三，任务解决测试得分在主客观评测中均排名前三。

数学能力是评估大模型是否“聪明”的一个重要维度。此前，复旦大学自然语言处理实验室就2024 年高考数学题对13家主流大模型产品进行评测，豆包的数学高考新课标 II 卷答题获得最高分，客观题正确率达到 74.66%，成绩优于GPT-4o及国内多款大模型产品。

图片来源：复旦NLP实验室公众号

据悉，豆包大模型是国内使用量最大、应用场景最丰富的大模型之一，日均处理 token 达到千亿级。其同名AI对话助手“豆包”，在苹果APP Store和各大安卓应用市场的AIGC类应用中下载量排名第一。目前，豆包大模型正在通过字节跳动旗下的火山引擎向企业市场开放服务，已经与OPPO、荣耀、小米、三星、华硕等智能终端厂商建立合作。

来源：https://www.top168.com/news/202406/7248.html

推荐体验

相关资讯

智源更新大模型排行榜：豆包大模型「客观评测」排名国产第一

鞭牛士6月19日消息，6月中旬，智源研究院旗下的FlagEval大模型评测平台发布最新榜单：在有标准答案的“客观评测”中，GPT-4以76.11分在闭源大模型中排名第一；Doubao-Pro（豆包大模型）以75.96分排名第二，同时也是得分最高的国产大模型；其后依次是ERNIE4.0、Baichuan3、Moonshot-v1。

智源 GPT-4 源大模型

鞭牛士 2024-06-19

中国开源大模型登顶HuggingFace排行榜

12月8日消息，全球最大的开源大模型社区HuggingFace日前公布了最新的开源大模型排行榜，阿里云通义千问力压Llama2等国内外开源大模型登顶榜首。通义千问-72B登顶HuggingFace的OpenL…

Hugging Face 通义千问

环球Tech 2023-12-09

Stability AI新模型登顶开源大模型排行榜

在很多基准上击败了 ChatGPT。

Stability AI ChatGPT

杨亮 2023-07-23

IDC、智源最新大模型评测百度文心大模型双榜夺魁

近日，由北京智源研究院打造的FlagEval天秤大模型评测平台实现了全面升级，并公布202406期FlagEval模型评测排行榜单。最新一期榜单显示，百度文心大模型4.0以89.72的综合评分在闭源对话模型中排名第一，超过字节云雀、豆包和阿里通义千问等一众国产大模型，以及OpenAI的最新模型GPT-4o。

智源百度 OpenAI 文心大模型通义千问

百度 2024-06-19

开源医疗大模型排行榜: 健康领域大模型基准测试

Image source: https://arxiv.org/pdf/2311.05112.pdf多年来，大型语言模型 (LLMs) 已经发展成为一项具有巨大潜力，能够彻底改变医疗行业各个方面的开创性技术。这些模型，如 GPT-3，GPT-4 和 Med-PaLM 2，在理解和生成类人文本方面表现出了卓越的能力，使它们成为处理复杂医疗任务和改善病人护理的宝贵工具。它们在多种医疗应用中显示出巨大的前景，如医疗问答 (QA) 、对话系统和文本生成。此外，随着电子健康记录 (EHRs) 、医学文献和病人生成数

医疗大语言模型 GPT-4

HuggingFace 2024-04-30

近期资讯

索尼PS5已进入生命周期后半段 2024年将迎多项变革

索尼公司正式告别了PS4时代，并为下一代独占大作奠定了基础。在硬件方面，PS5Pro的推出提供了更强大的性能和更出色的画面表现，但定价较高，目前来看只能算是一种“锦上添花”的升级。《地狱潜者2》等第三方游戏在PS5平台上获得广泛关注和好评。

中关村在线 2024-12-26

苹果如何通过质量、服务与创新赢得消费者信任的深度分析

苹果，这个我们每个人都耳熟能详的名字，似乎已经成了现代科技生活的代名词。无论是那款流行的手机，还是那台功能强大的电脑，苹果似乎总能带给我们一种无与伦比的信任感。那么，苹果到底是如何赢得这么多消费者的信任呢？我们可以从多个方面来分析这个问题。首先，苹果的产品质量毋庸置疑。无论是外观设计还是内部构造，苹果都以其精湛的工艺和严格的质量控制著称。

新报观察 2024-12-26

四川博正达机械密封件科技取得金属包装箱平口数控圆盘锯机床专利，加快了对物件切割速度

金融界2024年12月26日消息，国家知识产权局信息显示，四川博正达机械密封件科技有限公司取得一项名为“一种金属包装箱平口数控圆盘锯机床”的专利，授权公告号CN222199116U，申请日期为2024年5月。

金融界 2024-12-26

华为官方翻新机开售！售价仅4288元起

具体而言，华为Mate60Pro有三种配置可供选择：12GB+256GB售价4999元（原价6499元），12GB+512GB售价5499元（原价6999元），12GB+1TB售价6499元（原价7999元）。

中关村在线 2024-12-26

湖北兴福申请一种钼的磷酸基蚀刻液专利，能对金属钼沉积层有效蚀刻且蚀刻后表面无残余、粗糙度降低

金融界2024年12月26日消息，国家知识产权局信息显示，湖北兴福电子材料股份有限公司申请一项名为“一种钼的磷酸基蚀刻液”的专利，公开号CN119177450A，申请日期为2024年10月。

金融界 2024-12-26

维达力申请 Cr-Zr-N 合金涂层用于提供高光泽度面专利，提升镀膜制品光泽度

金融界2024年12月26日消息，国家知识产权局信息显示，维达力实业（深圳）有限公司申请一项名为“Cr-Zr-N合金涂层用于提供高光泽度面的应用”的专利，公开号CN119177442A，申请日期为2023年6月。

金融界 2024-12-26

维达力申请Cr-Zr-N合金涂层用于基材表面导电涂层应用专利，作为导电涂层兼具较好导电性能和优异耐腐蚀性能

金融界2024年12月26日消息，国家知识产权局信息显示，维达力实业（深圳）有限公司申请一项名为“Cr-Zr-N合金涂层用于基材表面的导电涂层的应用”的专利，公开号CN119177443A，申请日期为2023年6月。专利摘要显示，本发明涉及一种Cr‑Zr‑N合金涂层用于基材表面的导电涂层的应用。

金融界 2024-12-26

荣耀CEO赵明：iPhone降价加剧行业竞争荣耀将迎更多挑战

iPhone大幅降价的消息引发了业内的一片波澜，荣耀CEO赵明在接受采访时对此发表了看法。他认为，iPhone降价以及华为高端手机的常态入市无疑加剧了整个手机行业的竞争态势。业内人士分析指出，苹果作为全球最大的手机厂商之一，其产品定价策略的变化会对整个行业产生深远影响。

中关村在线 2024-12-26

苹果手机截屏技巧详解：简单操作与实用功能分享

今天就来和大家聊聊怎么在苹果手机上截屏，顺便分享一些小技巧，让你的截屏体验更加顺滑。你只需要在“设置”里找到“辅助功能”，然后打开“触控”，接着选择“辅助触控”并开启。

新报观察 2024-12-26

新手机激活全攻略：顺利开启智能生活的第一步

激活手机是每个新用户都必须经历的一个步骤，虽然看似简单，但对于一些刚入手智能手机的人来说，可能会有点困惑。一般情况下，手机的开机键会在侧边，按下去后，你会看到品牌的logo出现，接着手机会进入初始设置界面。这个时候，你可以先享受一下这段开机动画，毕竟这是你与新手机的第一次亲密接触。

新报观察 2024-12-26

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1