当前位置:首页|资讯|GPT-4

Baichuan再次登上国内大模型综合评分榜首,知识百科能力超越GPT-4-Turbo

作者:零壹财经发布时间:2024-04-30

原标题:Baichuan再次登上国内大模型综合评分榜首,知识百科能力超越GPT-4-Turbo

SuperCLUE是国内权威的通用大模型综合性测评基准,其前身是第三方中文语言理解测评基准CLUE(The Chinese Language Understanding Evaluation),致力于科学、客观、中立评测的CLUE自2019年成立起,陆续推出了CLUE、FewCLUE、KgCLUE、DataCLUE等广为引用的测评基准。在CLUE的基础上,SuperCLUE依托多年测评经验,基于通用大模型在学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性大模型测评基准。 不同于传统测评通过选择题形式的测评,SuperCLUE纳入了开放主观问题的测评。通过多维度多视角多层次的评测体系以及对话的形式,模拟大模型应用场景,真实有效的考察模型生成能力。同时,SuperCLUE通过构建多轮对话场景,更深层次考察大模型在真实多轮对话场景的应用效果,对大模型的上下文、记忆、对话能力全方位评测。 为更真实反映大模型通用能力,SuperCLUE本次测评由十大基础任务组成,包括逻辑推理、代码、语言理解、长文本、角色扮演等,题目为多轮开放式简答题。评测集共2194题。 测试结果显示,Baichuan3的文科、理科能力均衡。在知识百科能力上Baichuan 3以82分的成绩超越了GPT-4-Turbo,在所有32个参与评测的国内外大模型中排名第一。而在代表了大模型智力的“逻辑推理”能力上,Baichuan3以68.60的成绩超越Claude3-Opus,也力压一众国内大模型拔得头筹。 此外,在计算、代码、工具使用能力上,Baichuan 3表现同样不俗,均排名国内前三。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1