当前位置：首页|资讯|GPT-4

Baichuan再次登上国内大模型综合评分榜首，知识百科能力超越GPT-4-Turbo

作者：零壹财经发布时间：2024-04-30

SuperCLUE是国内权威的通用大模型综合性测评基准，其前身是第三方中文语言理解测评基准CLUE（The Chinese Language Understanding Evaluation），致力于科学、客观、中立评测的CLUE自2019年成立起，陆续推出了CLUE、FewCLUE、KgCLUE、DataCLUE等广为引用的测评基准。在CLUE的基础上，SuperCLUE依托多年测评经验，基于通用大模型在学术、产业与用户侧的广泛应用，构建了多层次、多维度的综合性大模型测评基准。不同于传统测评通过选择题形式的测评，SuperCLUE纳入了开放主观问题的测评。通过多维度多视角多层次的评测体系以及对话的形式，模拟大模型应用场景，真实有效的考察模型生成能力。同时，SuperCLUE通过构建多轮对话场景，更深层次考察大模型在真实多轮对话场景的应用效果，对大模型的上下文、记忆、对话能力全方位评测。为更真实反映大模型通用能力，SuperCLUE本次测评由十大基础任务组成，包括逻辑推理、代码、语言理解、长文本、角色扮演等，题目为多轮开放式简答题。评测集共2194题。测试结果显示，Baichuan3的文科、理科能力均衡。在知识百科能力上Baichuan 3以82分的成绩超越了GPT-4-Turbo，在所有32个参与评测的国内外大模型中排名第一。而在代表了大模型智力的“逻辑推理”能力上，Baichuan3以68.60的成绩超越Claude3-Opus，也力压一众国内大模型拔得头筹。此外，在计算、代码、工具使用能力上，Baichuan 3表现同样不俗，均排名国内前三。

推荐体验

相关资讯

DeepSeek发布DeepSeek-Coder-V2：数学能力超越了GPT-4-Turbo

DeepSeek宣布发布开源模型DeepSeek-Coder-v2，该模型在代码和数学能力上超越了GPT-4-Turbo,成为全球首个在这些领域竞争的开源模型。DeepSeek-Coder-v2基于DeepSeek-v2的模型结构，总参数236B，激活参数21B，具有全球顶尖的代码和数学能力，并在多个排行榜上位居全球第二，次于GPT-4o和GPT-4-Turbo之间。同时，它在中英通用能力上也表现出色，位列国内第一梯队。DeepSeek-Coder-V2与DeepSeek-V2相比，各有所长，前者更擅长理

AI-GitHub 2024-07-01

通义千问新版本发布超越GPT-4-Turbo

来源：飞象网5月9日消息，阿里（BABA.US）在通义大模型发布一周年之际，通义大模型品牌升级，发布了通义千问2.5版本，集成通义大模型全栈能力，免费为所有用户提供服务。性能全面赶超GPT-4-T

通义千问 GPT-4

泛泛de科技 2024-05-20

国产最强大模型易主！Baichuan 4霸榜SuperCLUE，击败GPT-4-Turbo，首款AI助手来了

国产最强大模型易主！Baichuan 4霸榜SuperCLUE，击败GPT-4-Turbo，首款AI助手来了智东西2024-05-22 19:00发布于北京智东西官方账号智东西（公众号：zhidx

智东西 2024-05-22

超越GPT-4 Turbo，国产大模型首次排名榜首！最新SuperCLUE测评出炉

OpenAI长期霸榜的SuperCLUE（中文大模型测评基准），有了新“头雁”。自SuperCLUE问世以来，GPT-4、GPT-4 Turbo先后六次占据榜首位置。最近，商汤日日新5.0（Sens

GPT-4 OpenAI 商汤

新民晚报 2024-05-22

通义千问2.5版本发布，超越GPT-4-Turbo或成全球最强中文大模型

通义千问2.5版本发布，超越GPT-4-Turbo或成全球最强中文大模型金融界2024-05-10 10:46发布于北京阿里云在通义大模型发布一周年之际，于5月9日正式发布了通义千问2.5版本

通义千问 GPT-4 金融

金融界 2024-05-10

近期资讯

iQOO Z9 Turbo 长续航版手机重 196g、厚 7.98mm

IT之家12月26日消息，iQOOZ9Turbo长续航版手机将于明年1月发布，该机将搭载高通骁龙8sGen3处理器、内置6400mAh超薄蓝海电池。

IT之家 2024-12-26

如何轻松更换PPT母版，提升演示文稿效果与美观度

在日常工作和学习中，PowerPoint（PPT）是一个非常常用的工具。无论是做报告、展示项目，还是分享学习成果，PPT都能帮助我们更好地传达信息。而在制作PPT的过程中，母版的使用显得尤为重要。母版不仅能统一整个演示文稿的风格，还能提高制作效率。那么，如何更换PPT的母版呢？接下来，我就来和大家聊聊这个话题。

新报观察 2024-12-26

珠海莫界科技申请智能眼镜镜腿通信专利，提高镜腿通讯便利性及交互性能

方法、装置、介质及智能眼镜”的专利，公开号CN119183212A，申请日期为2023年6月。便利性以及第一镜腿和第二镜腿之间的交互性能。

金融界 2024-12-26

如何轻松设置手机来电显示功能，提升生活便利和安全感

对于一些需要匿名拨打的电话，可以考虑使用隐私拨号功能。这个时候，可以尝试重启手机，或者检查一下手机的软件更新，确保你使用的是最新版本的软件。

新报观察 2024-12-26

一加元气版新配件发售：含移动电源、充电器、集结线，79 元起

据介绍，一加100W超级闪充元气版移动电源容量为12000mAh，约33分钟即可充满一加Ace5Pro，全面兼容PD/PPS/QC等协议，支持电脑PD45W快充。新品约32分钟即可充满一加Ace5Pro手机，支持80W+45W双口输出，支持PPS/UFCSQC等主流协议以及PD65W。

IT之家 2024-12-26

小天才学生平板评测：优缺点与使用体验分析，助力孩子快乐学习

小天才学生平板在市场上引起了不少关注，很多家长和孩子都对它充满了好奇。这款平板到底有什么特别之处呢？另外，平板上还有很多益智类的游戏和互动课程，这些内容不仅仅是为了娱乐，更是为了培养孩子的思维能力和创造力。

新报观察 2024-12-26

青岛润冠取得一种具有辅助结构的输送带专利，解决输送带物料洒落问题

金融界2024年12月26日消息，国家知识产权局信息显示，青岛润冠新型建材有限公司取得一项名为“一种具有辅助结构的输送带”的专利，授权公告号CN222203883U，申请日期为2024年4月。

金融界 2024-12-26

江苏通达家居用品有限公司取得基于型材下料的限位挡块装置专利，精确控制型材位置确保后续下料精度

金融界2024年12月26日消息，国家知识产权局信息显示，江苏通达家居用品有限公司取得一项名为“一种基于型材下料的限位挡块装置”的专利，授权公告号CN222203882U，申请日期为2024年4月。专利摘要显示，本实用新型公开了一种基于型材下料的限位挡块装置，涉及型材下料技术领域。

金融界 2024-12-26

如何轻松输入特殊字符：技巧与方法总结

在日常生活中，我们经常会遇到一些特殊字符，比如@、#、$、%、&等。这些字符在社交媒体、编程、文档编辑等场景中都扮演着重要的角色。今天，我们就来聊聊这些特殊字符的输入方法，帮助大家更方便地使用它们。首先，咱们来看看一些常见的特殊字符以及它们的输入方式。对于大多数人来说，最常用的特殊字符可能就是@和#了。

新报观察 2024-12-26

长沙融创智胜电子科技申请无电无网下的低功耗无人值守系统以及方法专利，降低检测虚警

金融界2024年12月26日消息，国家知识产权局信息显示，长沙融创智胜电子科技有限公司申请一项名为“无电无网下的低功耗无人值守系统以及方法”的专利，公开号CN119183216A，申请日期为2024年9月。专利摘要显示，本申请涉及一种无电无网下的低功耗无人值守系统以及方法。

金融界 2024-12-26

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1