我们来看这么一篇论文 [图片] 1.GSM8K 首先先介绍下GSM8K这个数据集及相关信息。 这可以算是最著名的一个数学数据集了,GSM的意思是小学数学,基本就是能通过简单的加减乘除就能得到答案的一些问题,难度主要是通过增加计算步骤来控制的。8k的意思就是大概是8千条数据。因为是小学难度数学,所以GSM8K的评估也较为简单,也容易做步骤的评估,所以是大语言模型评估的常客。 但是,正因为这个数据集实在是太常见了,所以数据污染几乎是避免不了的。所谓数据污染就是模型在训练过程中已经看过了这条数据,我们知道像Ch...【查看原文】