专治大模型“刷题”，贾佳亚团队新基准让模型只挑错不做题，GPT-4得分不到50

作者：量子位发布时间：2024-07-18

GPT-4

大模型测试能拿高分，实际场景中却表现不佳的问题有解了。

贾佳亚团队联合多家知名高校提出了一种全新的测评方法，让一些模型立马现出了原型。

这下不用担心大模型“刷题”太多，测试集无法体现真实水平了。

这个新的测评数据集叫做MR-Ben，利用的是GSM8K、MMLU等数据集中的现有题目。

只不过，大模型在测试中的身份从“答题学生”变成了“阅卷老师”，任务是要给已有的解答步骤指出错误。

这样一来，模型无法再通过背诵或猜测撞对题目，测试题泄露也无需担心了。

利用MR-Ben，贾佳亚团队评测了GPT4-Turbo、Cluade3.5-Sonnet、GLM4、Qwen2-70B等许多开源和闭源模型。

目前，该数据集涉及的所有代码和数据均已开源。

熟悉的试题，全新的任务

目前，大模型测试的主流方向是使用人类的标准化考试——选择题和填空题的方式去进行大模型评测。

这套测试方式的优点是标准明确、指标直观，且量化结果天然具有话题性。

但作者认为，由于现在的大模型普遍采用逐步作答的思维链方式生成最终答案，导致这种方式并不“靠谱”。

预训练模型在预训练时早已见过数以万亿级别的token，很难判断被评测的模型是否早已见过相应的数据，从而通过“背题”的方式回答正确。

而因为评测的方式主要靠检查最终的答案，因此模型是否是基于正确的理解推理选出正确的选项，也不得而知。

尽管学术界不断地对诸如GSM8K、MMLU等数据集进行升级改造，如在GSM8K上引入多语言版本的MGSM数据集，在MMLU的基础上引入更难的题目等，依然无法摆脱选择或填空的窠臼。

并且，这些数据集都已面临着严重的饱和问题，大语言模型在这些指标上的数值已经见顶，并逐渐丧失了区分度。

为此，贾佳亚团队联合MIT、清华、剑桥等多家知名高校，与国内头部标注公司合作，标注了一个针对复杂问题推理过程的评测数据集MR-Ben。

MR-Ben基于GSM8K、MMLU、LogiQA、MHPP等大模型预训练必测数据集的题目，进行了“阅卷式”的范式改造，生成的新数据集更难、更有区分度，更能真实地反映模型推理能力！

不用重新找题出卷，也不用把题目变形来测试模型的鲁棒性，MR-Ben直接让模型从“答题者”变成“阅卷者”，对数据集中已有的答题过程进行评判，通过让大模型当老师来测试它对知识点的掌握情况！

具体来说，贾佳亚团队针对市面上主流的评测数据集GSM8K、MMLU、LogiQA、MHPP等数据集进行整理，并分成了数理化生、代码、逻辑、医药等多个类别，同时区分了不同的难度等级。

针对每个类别、收集到的每个问题，团队精心收集了对应的分步解题过程，并经由专业的硕博标注者进行培训和标注。

标注过程中，解题过程是否正确、出错的位置、出错的原因都会被细致指出，比对大模型的阅卷结果和人类专家的阅卷结果，就能知道模型对知识点的掌握情况。

从评测方式来看，MR-Ben所提出的方法，需要模型对于解题过程的每一个步骤的前提、假设、逻辑都进行细致分析，并对推理过程进行预演来判断当前步骤是否能导向正确答案。

这种“阅卷”式的评测方式从难度上远超于仅答题的评测方式，但可有效避免模型背题所导致的分数虚高问题。而只会背题的学生很难成为一名合格的阅卷老师。

GPT4-Turbo表现最佳

贾佳亚团队针对目前几款知名的大模型进行了评测，部分模型有多个版本参与测试。

可以看到，闭源模型中，GPT4-Turbo的表现最佳（虽然在“阅卷”时未能发现计算错误），在绝大部分的科目里，有demo（k=1）和无demo（k=0）的设置下都领先于其他模型。

智谱团队的GLM模型表现在榜单中位列第二，超过了Claude最新的3.5-Sonnet。

不过不同模型间的区分度较大，最强的GPT4-Turbo在MR-Ben数据集上获得的成绩也不到50分，可以看出其表现仍未饱和。

另外，一些表现较强的开源模型，效果已经赶上了部分商用模型。

除此之外，MR-Ben团队在工作过程中还发现了一些有意思的现象，例如：

低资源场景下，小模型也有不少亮点，MR-Ben评测中Phi-3-mini在一众小模型里脱颖而出，甚至高于或持平几百亿参数的大模型，展现出了微调数据的重要性。

MR-Ben场景包含复杂的逻辑解析和逐步推断，Few-shot模式下过长的上下文反而会使得模型困惑，造成水平下降的后果。

MR-Ben评测了不少生成-反思-重生成的消融实验，查看不同提示策略的差异，发现对低水平的模型没有效果，对高水平的模型如GPT4-Turbo效果也不明显。反而对中间水平的模型因为总把错的改对，对的改错，效果反而略有提升。

将MR-Ben评测的科目粗略划分成知识型、逻辑型、计算型、算法型后，不同的模型在不同的推理类型上各有优劣。

贾佳亚团队已在github上传一键评测的方式，测试一次消耗的token量大约为12M，开发者可以在自家的模型上评测并提交，MR-Ben团队会及时更新相应的leaderboard。

论文地址：https://arxiv.org/abs/2406.13975

项目主页：https://randolph-zeng.github.io/Mr-Ben.github.io/

Github Repo：https://github.com/dvlab-research/Mr-Ben

本文来自微信公众号“量子位”，作者：MR-Ben团队，36氪经授权发布。

近期资讯

攻克LeetCode 1055：探寻形成字符串的最短路径

一、题目引入在 LeetCode 的题库中，1055. 形成字符串的最短路径这道题饶有趣味且充满挑战。简单来说，对于给定的源字符串 source 和目标字符串 target，我们要找出源字符串中能通

高手永远不会趴着 2024-12-30

01 自研zdpui项目的启动

01.目标我在后端有zdppy这个框架, 实现了零依赖这个伟大的目标, 实现了轻量级, 低代码开发, 能够极大的提高开发效率, 我现在想要在前端通过vue3来复现这一个伟大的目标, 而这个目标的起点

Python私教 2024-12-30

HBase原理解析—Flush与Compaction

随着数据的不断写入，MemStore中存储的数据会越来越多，系统为了将使用的内存保持在一个合理的水平，会将MemStore中的数据写入文件形成HFile。flush阶段是Hbase的非常核心阶段，需要

执着码农 2024-12-30

C# 异步编程技巧 Task 和 CancellationTokenSource 的妙用

在程序开发中异步编程和任务管理是确保高效、响应式用户体验的关键。C# 提供强大的工具来处理这些需求，其中 Task 和 CancellationTokenSource 是两个非常重要的组件。

小码编匠 2024-12-30

SQL语句`WHERE 1=1`，到底会不会影响性能？

本文探讨了 `WHERE 1=1` 在 SQL 查询中的作用和影响。通过分析其优缺点发现，`WHERE 1=1` 适用于动态 SQL 拼接，能提高代码可读性和一致性，且对现代数据库性能影响微乎其微..

四七伵 2024-12-30

手写一个promise

原生Promise 首先，我们用原生的Promise实现一个简单的promise：运行上述代码，会进入promise的成功态resolve，输出“成功！！” 手写一个简单的Promise 接下来，我

ZZZzh 2024-12-30

002 用户数据的构造和渲染

构造用户数据有了基础代码以后, 我的想法就是逐步丰富代码, 用案例去驱动, 比如说, 现在想要实现用户管理的功能, 那么我们先构造一下用户的数据. 这个比较简单, 我们用js代码来构造一下: 这里的

Python私教 2024-12-30

消除协同部门的工作阻碍 —— Mock 平台设计

前言随着业务团队不断扩大，往往一个项目中很多重要的接口都是其他团队提供的。例如我们日常的需求中，有些接口依赖风控团队提供，但是风控是一个单独的团队，他们的工作安排和我们的团队是不一致的，他们有自己的

暮色妖娆丶 2024-12-30

【JS逆向百例】某江 Hospital 逆向分析

声明本文章中所有内容仅供学习交流使用，不用于其他任何目的，不提供完整代码，抓包内容、敏感网址、数据接口等均已做脱敏处理，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！本文章未经许

K哥爬虫 2024-12-30

3秒排版！这款免费工具让10万+公众号主都疯狂了

你是否遇到过这些烦恼？ 📝 在飞书写好文章，复制到公众号就变得格式凌乱 🎨 手动调整样式费时费力，还不一定好看 📱 预览效果和手机端显示差异大 🔧 代码、表格等特殊格式需要重新排版如果有，那这款免费

孟健的AI编程认知 2024-12-30

专治大模型“刷题”，贾佳亚团队新基准让模型只挑错不做题，GPT-4得分不到50

熟悉的试题，全新的任务

GPT4-Turbo表现最佳

推荐体验

相关资讯