论文解析_客户分组对商业银行个人信用评分模型的提升作用研究，作者中国人民银行

作者：python风控模型发布时间：2024-09-26

大家好，我是Toby老师，之前发布过文章《银行客户分群模型-customer segmentation model-更好提升模型预测能力》。今天会为大家解析一篇客户分群论文。

经典分组模型论文

2021年有篇经典论文《客户分组对商业银行个人信用评分模型的提升作用研究》发布。其作者在中国人民银行征信中心博士后工作站工作，发布过多篇金融风控相关论文，在此论文有较深研究，其论文有一定深度。各位学员可以多关注和学习。

下面我简单解析一下论文经典地方。作者将总体样本进行分组，再对分组后的每个客群单独构建信用评分模型。作者采用 CART 决策树、模糊 C 均值聚类两种方法对样本数据中全部借款人进行客户分组，再对分组后的每个客群进行 WOE（Weight ofEvidence）数值转换和逻辑回归信用评分模型的构建，并采用模型性能指标AUC（Area Under Curve）、KS（Kolmogorov-Smirnov）进行模型对比，分析分组对于模型精度的影响，并比较无监督学习与有监督学习在分组模型中的优劣。

分组模型意义

实际建模中，很多建模人员往往只重视机器学习技术，算法本身，试图从多算法比较，调参来提高模型性能，而忽略了如何从业务方面提升模型性能。

市场细分是知识营销最重要的领域之一。在银行中，这确实是一项具有挑战性的任务，因为数据库庞大且多维。

分组在我们专业领域也可以称为分群。客户分组是信用评分模型开发的重要一环，即根据客户特点将样本划分为不同客群，再针对每个客群构建信用评分卡。相较于直接使用全样本构建的单一信用评分模型，分组后构建的信用评分模型可能在一定程度上提升评分模型的准确率。

数据选择和划分

作者选取美国网络借贷平台 Prosper 的个人贷款数据集，样本时间跨度为2011年7月至2014年 7 月，共 71 817 个样本。作者抽取 80%的样本为训练集，20%的样本为测试集，如表1所示。将逾期90天以上的样本作为违约坏客户，令 y=1；其余为好客户，令y=0。Prosper数据集之前Toby老师有发文章介绍《美国真正的p2p鼻祖-PROSPER金融科技公司-理想风控建模数据集》。金融领域很多人长期把lendingclub当成美国p2p鼻祖。真相是Prosper公司才是美国真正意义上p2p鼻祖。lendingclub只是名气更大，让人产生错觉。Prosper Marketplace, Inc.是一家位于加利福尼亚州旧金山的金融服务公司。Prosper Funding LLC 是其子公司之一，运营着 Prosper.com，这是一个个人可以申请借钱、开信用卡或投资个人贷款的网站。

Prosper数据集在我们公司《Python风控建模实战案例数据库》里可以找到。

CART分类（有监督学习）

作者用CART模型把客户分为4组结果。参数选择上，作者用基尼系数评估变量重要性，叶子节点最小样本数min_sample设为5000，depth深度设为3。

CART（Classification and Regression Trees）模型是一种决策树学习技术，用于分类和回归任务。CART模型通过递归地将数据集分割成越来越小的组（或节点），每个组内的样本在目标变量上具有高度的相似性。

Toby老师补充一下CART更多细节，CART使用基尼不纯度（Gini impurity）或交叉熵作为分割标准。在回归问题中，CART使用均方误差（MSE）作为分割标准。CART通常使用成本复杂度剪枝（cost-complexity pruning），这是一种在构建树之后进行的剪枝方法，旨在优化模型的泛化能力。

模糊聚类Fuzzy Clustering（无监督学习）

作者使用模糊聚类方法，把数据集分为5组客群。提醒一下，模糊聚类之前，需要将数据进行归一化，本文采用“最大值最小值”方法将数据转化为 0 到 1 之间。

下图是作者采用模糊聚类（Fuzzy Clustering）后坏客户占比和样本比例。