当前位置:首页|资讯

技术应用 | 量子计算在普惠金融小样本问题中的应用研究

作者:金融电子化发布时间:2024-10-15

文 / 中国民生银行 郭晓波 信峥 沈志勇

龙盈智达(北京)科技有限公司 徐奇 张月

当前科技创新日新月异,科技与金融深度融合,我国金融业特别是银行业开始探索量子计算技术在不同业务条线的应用。量子计算基于量子力学原理构建而成,是一种全新的计算范式,在如分子建模和优化算法等关键前沿科技领域,显示出其对于传统计算显著的优势。尽管量子计算机目前正处于开发的关键阶段,其未来在金融领域引领重大突破的潜力仍然备受关注。在众多银行业务中,尤以中小微企业项目为例,数据稀疏是常态,且许多细分市场的数据量相对少,此背景下小样本问题尤其凸显。该类问题对现有基于数据量要求的金融模型构成了巨大挑战,传统金融模型难以适应随时间和条件变化的多变特征。量子计算有望提供处理这类小样本问题的新思路,在一定程度上弥补传统金融模型的劣势。本文将着重解决传统机器学习方法在小样本领域普遍面临的困境;设计并试行基于量子算法的量子机器学习模型,提高面向中小微企业中小样本数据集分析的准确性和预测力;有效推动量子金融科技的发展,并为样本量不足的小微金融实务开辟创新的解决路径,提供深入洞察能力。

研究发展

自20世纪末期以来,对单样本学习(One-Shot Learning)受到的关注逐步增加,该思想本质上是通过微量的标注样本来实现有效学习。在早期的研究中,2003年首次明确定义了单样本学习,强调已有知识能够辅助新类别的识别与预测。小样本学习(Few-Shot Learning)则进一步扩展这一思想,它挑战从稀少数据中学习泛化之根本,不同于此的零样本学习探索在完全没有训练实例的环境下,通过类别属性信息进行识别。

计算机视觉领域是小样本学习的策源地,在该领域的诸多任务中,尤以在图像分类上取得突破,表现了优异的成果。小样本学习转向金融领域后,显示出在多个领域的巨大潜力,在精准营销、风险评估、信用评分、欺诈检测和量化投资中都展示出重要作用。在2022年,华夏银行吴永飞等人提出的“6M”小样本学习框架,借助于质量管理中的“人-机-料-法-环-测”元素,为小样本学习的挑战提供了六方面的解决策略。这些策略包括:利用专家知识构建模型的Man-based方法;通过样本增强如SMOTE和GAN的Material-based维度;使用迁移和元学习的Model-based策略;算法层面的改进如核函数法的Method-based方法;利用数字仿真和强化学习进行训练的Environment-based模式;以及采用量子计算增强模型性能的Machine-based方案。实证研究显示,上述方法较传统算法在小样本问题解决上展现出显著优势,为小样本学习带来创新视角。

小样本学习在人工智能领域的进步是近年来取得显著成就的一个方面,它不仅在学术研究中热度不减,而且在商业应用上也显示出重要的价值。尤其在商业银行的智能营销与智能风险场景中,小样本学习技术发挥着越来越关键的作用。面对新业务发展期或“冷启动”阶段的数据收集问题,传统机器学习方法因为需要大量样本数据才能达到预期效果,而显示出明显的限制。针对现实中中小微企业等领域面临的挑战,本文深入分析了小样本数据下模型建设的挑战和问题,其中聚焦于在商业应用中涉及的数据稀疏性问题,并特别关注新客群体的识别,以普惠金融的中小微客户精准营销场景为出发点,重点对新客识别估精度、新客产品营销等进行了深入探究。据公开的招投标信息显示,近五年来,金融机构外部数据的采购规模呈指数级增长,数据采购项目数量复合年均增长率达40%,远超金融机构采购总项目数量的26%,其中银行业占比最高,采购项目数接近金融机构项目总数的70%,采购金额接近总金额的80%,保险业和证券业次之。多源的外部数据包含用户的全网信息,可以大幅提升用户画像的准确率和营销效果,合规地引入外部数据可以帮助银行解决精准营销的冷启动问题。考虑到量子技术近年来的蓬勃发展,在量子计算平台上开展实践,并评估基于量子算法的外部数据小样本学习模型在真实营销场景中的可行性和准确性。本文的研究发现将对商业银行等金融机构实现数据稀缺环境下有效决策制定与精准管理提供理论支持与实践指导。

方法介绍

1.问题定义

在普惠金融的背景中,由非上市的中小微企业组成的庞大业务领域呈现出显著的数据和分类难题。这些建立在粗粒度分类框架上的中小企业群体,在细分目标客户(尤指新客户)环节上表现出明显的不足,难以为他们提供精准的营销线索与特定的产品匹配。这种市场现象对高质量外部数据的集成和利用提出了紧迫要求,以便实现对这些企业进行精准画像。本文探讨了在中小微企业,特别是未上市的绿色环保类企业,如何运用外部数据提高企业画像的精度并优化智能模型建立的有效性。当面对中小微企业的样本量极少,且优良样本更是屈指可数的情况,传统的业务拓展模式显得捉襟见肘。本文提倡运用前沿的量子算法探索小样本学习技术的应用创新,并借此增强一线客户管理者利用数字化工具对企业分类评价的准确度,有望为智能营销开发提供新的解决策略,并解决小样本学习的挑战。本文以个贷违约预测,采用公开数据集,在合理的数据清洗及特征工程之后,挑选了全面反映个人贷款状态的8个变量作为解释变量进行模型构建和数据分析,其中包括个人基本信息变量4个,贷款产品信息变量2个,网络贷款行为计数变量2个;标签Y表示预测客户在精准营销中是否存在违约行为。

2.模型介绍

针对商业银行小样本分类建模场景,本文构建了量子支持向量机模型。量子支持向量机(Quantum Support Vector Machine,QSVM)于2003年提出,在QSVM中数据通过量子嵌入方法嵌入至希尔伯特空间,该空间有更强的数据表达效果,然后通过找到可以将不同类别的数据分开的超平面来进行分类,如图1所示。

图1 QSVM流程展示了如何将输入数据

通过量子电路转变为特征空间中的量子态表示

(1)基于量子核函数的特征空间映射。对于量子态嵌入,本文主要使用量子核函数法将经典数据进行量子态嵌入量子比特。量子核函数转化可以获取更多的信息,如图2所示。在众多实验研究中观察到,量子算法对于小样本数据集的处理呈现出相对于传统计算更为卓越的性能表现,学界对此现象背后的物理学机理正展开深入探讨。目前的理解指向量子算法内涵的核心差异:每个量子比特(qubit)都能表现出多项式级别的波函数叠加形态,使得量子线路获得了复杂概率分布的表达能力,而多量子比特门能够实现量子纠缠,为量子线路赋予了强大的非线性表示能力。该固有的性质,使得量子计算在处理高维度问题时表现得尤为出色,特别是在小样本情境下,量子算法可有效地对数据进行建模并得出准确的预测和判断。量子算法在小样本数据集处理的有效性方面潜力巨大。

图2 量子核函数转化示意图

(2)特征重嵌入(Re-uploading)。在运用量子核函数法对传统数据进行量态嵌入至量子比特时,特征嵌入的层数可能对模型的分类表现产生显著影响。理论上,通过增加嵌入层数的操作旨在充分利用量子力学中的叠加和纠缠特性,以便构建一个更加复杂和增强的特征表示,进而提升模型的性能。本文中采用的特征重嵌入流程具体展示在图3中。

图3 特征重嵌入示意图

虽然增加嵌入层数可以增强特征表征的深度和复杂度,然而过度嵌入可能导致过拟合现象,影响模型的泛化能力。因此,本文通过采用不同层数的特征嵌入技术,探索最适嵌入层数以达到适度的模型复杂性。同时探索一个嵌入层数的最优解,使得模型能在捕捉数据结构的同时保持良好的泛化性能。

3.实施方案

本文采取了一种结合外部数据特性的实施方案,如图4所示,同时进一步探索外部数据特性在QSVM中的经验和约束效应,并在实验部分做了透彻阐述。基于传统机器学习建模的方法论,并在此基础上进行拓展,特别是对量子支持向量机(QSVM)进行了详尽地介绍和探究,包括但不限于以下。数据采集:根据业务场景收集外部数据,确保了分析基础的全面性。数据预处理:针对不同数据的特性执行数据处理工作,提升数据质量与分析准确性。特征工程:挖掘数据的价值,选取最合适的特征变量来表征客户属性与行为,增强模型的解释不变性和预测力。建模:采用传统机器学习与QSVM等模型,探求不同算法之间的协同点和最佳实践。模型评估与验证:通过一系列的评价指标和交叉验证方法,审慎评估模型的性能,保障结果的稳健和可靠。

图4 实施方案

实验分析

为了验证所提方法的有效性,文中采用公开数据集,重点围绕个贷违约预测问题。实验设定旨在代表性和控制性之间取得平衡,揭示QSVM在复杂场景下处理潜在客户数据时相较于传统机器学习方法的优势,进而聚焦于模型对不同维度的敏感度,以及适应不同场景的能力。QSVM的创新机能与应用潜力的系统展示将作为本文的核心结果予以深刻剖析,明确指示出在个贷违约预测工作中QSVM所扮演的标志性角色与实质性进展,展示它作为一种高效策略如何更好地应用于银行精准营销业务场景中。

1.数据可视化分析

对数据进行可视化分析,可以直观分析特征变量的分布特点,其中“f2匿名特征”“贷款人提前还款累计金额”“贷款人评分下限”等特征呈现出较大的差异性,如图5所示。

图5 特征分析

2.实验设置

(1)环境配置。量子金融云平台的模拟量子算力包含多台Linux服务器,服务器配置CPU为16C,内存64G,支持多用户使用,支持国内外多种主流开源量子编程框架,可实现单量子比特门、多量子比特门等操作。华夏银行量子云平台是融合了模拟、核磁共振、超导等量子算力的实用性量子云平台,可以面向国内金融行业提供开放性的多类型量子云算力、多领域量子金融算法和多场景量子金融科技解决方案,支持金融机构在该云平台上自主调用量子算力、便捷进行量子算法创新研发和快速实现量子金融科技方案迁移应用,助力量子金融科技在我国的推广应用,将量子科技向实用化和工程化转化。

(2)评价指标。为了综合比较,我们采用了逻辑回归模型(Logistic Regression,LR)、支持向量机模型(Support Vector Machine,SVM)、极限梯度提升模型(eXtreme Gradient Boosting,XGBoost)和量子支持向量机(Quantum Support Vector Machine,QSVM)5种分类算法。为了验证提出的模型的有效性,我们采用以下评价指标。AUC(Area Under Curve,曲线下面积):反映了分类器根据类别进行排列的好坏程度。AUC的值介于0和1之间,一个高AUC值对应于分类器具有很好的判断力,即其能以较高的概率区分正负样本。KS(Kolmogorov-Smirnov test,其中K-S就是KS值):是观察模型对正负样本区分能力的一个统计方法。KS值蕴含了模型将正负样本进行分类的能力强弱。KS值介于0和1之间,值越大代表模型的区分能力越强。Recall(召回率,查全率):又被称作True Positive Rate或者Sensitivity,是衡量预测模型能找回多少正样本。Precision(精确度,查准率):是衡量预测为正样本的样本中,真正的正样本比率。

(3)样本设计。为了模型验证的稳定性和有效性,本文采用“分而治之”的思想,按照“MCC二级类目”标签,将279个样本分行业划分为两部分,其中一份数据集样本量为63,另一份数据集样本量为216。对于样本量为68的较小数据集,按7:3的比例划分训练集和测试集,使用QSVM进行模型训练预测,并同时对比了专家规则、LR、SVM和XGBoost。并且进行了30次抽样,求得30次抽样下模型的AUC、KS、Recall和Precision的平均值,以支持模型对比分析。对于样本量为216的较大数据集,按7:3的比例划分训练集和测试集,使用经典的LR进行模型训练预测,并同时对比了SVM和XGBoost;并且进行了30次抽样,求得30次抽样下模型的AUC、KS、Recall和Precision的平均值,以支持模型对比分析。

3.实验结果

(1)效果分析。从表1可知,将全量数据集划分为两个样本量大小不等的数据集,在较小样本的数据集上使用QSVM模型,在较大样本的数据集上使用XGBoost模型,实证结果显示这两个模型的结果均优于其他模型,尤其是在小样本数据集上,QSVM模型明显优于其他经典模型。并且可以看到,通过这种“分而治之”的思想,两个子模型的效果均优于全量数据的建模效果,说明了这种思想的有效性。该表同时说明,由于量子算法模型在小样本建模方面存在一定的优势,使得业务上可以做更加精细的“分而治之”,从而做到精细化管理,具体分析如下。

一是细分行业一的样本集(63个)。LR与XGBoost相比经典SVM有显著的改进,LR和XGBoost在以上所有指标上均显示出相似的强的性能,而SVM的AUC和召回率稍逊一筹。QSVM在所有的评估指标上都远远超越了其他几种方法,AUC值为0.87,显示出极其优秀的区分能力;KS值为0.83,表明其对于正负样本分类具有很好的区分度;召回率为0.92和精确度达到了最高的0.31。这表示在识别正确的正样本方面,QSVM显示出更加均衡而高效的性能。

综上所述,QSVM在所有的性能评估指标上均远超其他方法,特别是在区分正负样本的能力上(由AUC和KS反映)体现出极好的性能。衍生的结论可能表明QSVM是一个比传统机器学习方法,在极小数据集上具有更好的预测能力和分类性能的模型。

二是细分行业二的样本集(216个)。当样本增加后,本文仍对每种模型的表现进行以下分析:LR比他表现得更出色,AUC和KS指标有显著提升,表明在此背景下模型对数据的判别能力更强。精确度虽然较低,但召回率达到了更高的0.58,表示对正样本的检出率相对较好。SVM的表现依旧略逊一筹,区分类的能力(反应在AUC和KS上)和正样本的查全查准率都没有取得突出表现。XGBoost表现非常好,召回率和精确度排名第一,AUC值高达0.81,KS数值高至0.59,仍然维持着非常强的分类能力。

综上所述,XGBoost和LR的表现相对于经典SVM都要好,特别是XGBoost在这些重要指标上有着领先优势,因此在进行正负样本的分类上更为合理和有效。LR在召回率上表现很好,这意味着该模型对于正样本的遗漏较少,但在确保分类的精确率上则稍显不足。相对而言,SVM的表现不够强劲,特别是在精确率方面,即使可以识别出一些正样本,但它们同时也会产生更多的错误预测。最后在选择模型时,如果更看重召回率,逻辑回归可能是一个好的选择;而如果想要综合多项指标求得平衡性能较佳的模型,XGBoost是首选。

(2)指标参数分析。QSVM模型在279样本的ROC曲线与KS曲线如图6所示,AUC指标与KS指标如表所示,说明模型对行业小样本数据具有良好的预测与泛化能力。同时本文分析了模型在63样本的ROC曲线与KS曲线如图7所示,同样表现出良好的性能。

图6 量子279样本的ROC和KS曲线

表 不同算法模型性能对比

图7 量子63样本的ROC和KS曲线

(3)特征重嵌入分析。在本文中,使用不同层数的量子嵌入技术对特征进行了重嵌入,并通过多次重复实验分析了QSVM模型性能,如图8所示。结果表明,rep=5模型性能最佳,AUC值高达0.871,KS统计量为0.827,召回率为0.917,精确度为0.306,暗示对测试数据有良好拟合。相比之下,当rep=6性能显著下滑,所有指标均为最低,提示可能存在数据处理或模型设置问题。大多数重复实验的其他指标表现平稳,但是精确度普遍低,指示模型可能将过多实际负样本误判为正样本。这在敏感应用领域,如金融诈骗检测,可能导致高误报率和随之而来的成本増加。

图8 特征重嵌入分析

(4)预测效果分析。本文分析了模型在63样本的预测效果,采用30组抽样对应的AUC、KS、Recall和Precision的变化曲线,如图9所示。实验结果表明QSVM模型的Recall和Precision在30次抽样中明显优于LR和SVM模型,而AUC和KS在大部分情况下优于LR,几乎全部优于SVM。从实验结果可知,对于该小样本业务数据集,QSVM模型的分类效果较经典的LR和SVM有明显的提升,实证了量子计算在小样本建模中的优势。

图9 度量指标变化曲线分析

结 论

针对普惠金融背景下的中小微企业潜力客户数据匮乏问题,本文利用量子计算的独特优势来解决大型商业银行在精准营销中对潜在客户定位的挑战。通过引入基于核函数的特征空间映射与特征重嵌入进一步优化QSVM,实验证实了该方法在商业银行少样本学习场景中具有显著的应用效益,其性能在各项评估指标上皆优于传统的机器学习算法。从未来发展的角度来看,该研究存在进一步的优化潜力。一是数据的多源异构整合。研究目前仅采纳了外部工商数据,接下来将探索包括但不限于财务报表、产业链信息、税务数据、公共情绪、招标投标信息等多元数据源的整合,旨在增强数据结构的多维度特性,从而进一步提升模型及策略的精确度。二是场景的多样行业匹配。目前研究成效主要体现在新客户开拓场景中,接下来计划拓展模型应用到更加广泛的业务场景中,利用联系数据的深入分析来全面支撑业务发展。本文的展望在于通过不断探索新的数据来源和分析方法,持续拓宽金融科技的前景,为精准引导商业银行营销策略提供科学依据和技术支撑。

龙盈智达(北京)科技有限公司王彦博、杨璇对本文亦有贡献

(此文刊发于《金融电子化》2024年8月上半月刊)


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1