当前位置:首页|资讯|机器学习|深度学习|编程

机器学习也能绘制列线图吗?这篇文章预测模型统计方法大集成,有点意思

作者:郑老师统计发布时间:2024-07-03


详情请点击右方:郑老师统计课程:帮你零代码快速构建预测模型

什么是机器学习?通俗来讲,机器学习是以数据为研究对象,通过统计学方法构建模型并应用模型对数据进行预测与分析,是一门数据驱动的学科。通常而言,机器学习代指一些较为复杂的模型,例如监督式学习的基于树的Random forest,Decision tree或SVM,以及无监督式学习的K-means聚类,PCA,又或者是深度学习中的神经网络等等。

当然,在定义上,我们所常用的回归,例如线性回归,逻辑回归,Cox回归也属于机器学习,但一般不会用机器学习来代指回归模型。

列线图(Nomogram)是是一种图形化工具,用于简化复杂计算和统计模型的应用。它通过将多个变量的影响可视化,帮助用户直观地理解和应用统计模型,特别是在医学和生物统计领域。Nomogram 通常用于估计特定事件的概率或预测某个结果。

在整理文献的时候,我们发现了一篇中国学者采用MIMIC-IV数据库发表的文章,文章使用的方法有点意思,机器学习也能做列线图吗?

今天本文将简单介绍一下这篇文献及其采用的统计学方法,感兴趣的千万不要错过!

2024年6月7日,中国医学科学院北京协和医学院的学者在期刊《BMC Medical Informatics and Decision Making》发表了题为:“A novel higher performance nomogram based on explainable machine learning for predicting mortality risk in stroke patients within 30 days based on clinical features on the first day ICU admission”的研究论文,旨在基于可解释的机器学习方法开发更高性能的列线图,并根据重症监护病房 (ICU) 入院第一天的临床特征来预测中风患者 30 天内的死亡风险。


主要研究结果


1.研究设计

总体而言,研究设计分为四个阶段:

(1)访问MIMIC-IV和MIMIC-III数据库并选择合适的卒中患者和相关临床特征; 

(2) 可解释机器学习的开发和验证;

(3) 选定变量和分界点的评估;

(4)列线图的构建和评估。

本研究最终纳入2982名符合条件的ICU脑卒中患者,纳入标准包括:

(1)脑卒中患者;

(2)年龄在18岁至89岁之间(所有患者年龄大于89岁的情况并不准确);

(3)仅纳入1个stay_id的患者(排除同一院入院多次入住ICU的患者); 

(4)ICU住院时间少于30天。

研究团队使用结构化查询语言(SQL)与Post greSQL(13.11版本)和Navicat Premium(16.0.11版本)来提取中风患者的数据,以及许多临床特征,纳入的指标包括:

  • 年龄、性别和种族;

  • 患者入住 ICU 的第一天的实验室测量结果、合并症、生命体征和疾病严重程度评估(例如第一天尿量、第一天血气);

  • 中风诊断的类型(包括缺血性中风、短暂性脑缺血发作(TIA)、蛛网膜下腔出血和脑出血)。

2.基线特征

研究共纳入2982名符合条件的ICU脑卒中患者,共纳入64个变量(下图呈现部分)。平均年龄65.3岁,48.2%为女性,多达704名(23.6%)患者在30天内死亡。

3.机器学习预测模型:变量选择与截断值

使用LightGBM对于64个变量与因变量建模后计算各个变量的SHAP值,以此查看各个变量在模型中的重要性。

下图为在测试数据集中使用形状加性解释(SHAP)的可视化LightGBM结果。

A:排名前 10 的变量 SHAP 特征分析汇总图。X 轴代表 SHAP 值,Y 轴代表特征,按特征重要性降序排列。

B:每个选定变量的 SHAP 部分相关图 (PDP),查看这10个变量的最佳截断值

有关于机器学习的部分到此就结束了,该文章并未列出LightGBM的建模过程,也没有直接使用LightGBM进行列线图的绘制那为何文章题目是使用机器学习构建高性能列线图呢?我们继续往下看。

4.截断值评估

根据找到的每个变量的截止点,所有 10 个其他连续变量都被二分为分类变量,因此中风患者被分为两个亚组(高风险和低风险)。

研究团队随后通过以下三种方法评估了所找到的分界点的表现:

(1)方检验用于比较死亡组和生存组之间这些分类变量的统计分布;

(2)以高危亚组为参考,采用Cox回归模型确定各选定变量与脑卒中患者30天死亡率之间的相关性;

(3)利用Kaplan-Meier (K-M)生存曲线对数秩检验来比较两个亚组之间基于每个选定变量的30天内ICU生存率的差异。

5.基于逻辑回归的列线图

看到这我相信大家都清楚了,文章使用LightGBM模型中变量重要性相对较高的10个变量,基于逻辑回归来构建列选图。
以脑卒中患者入住 ICU 后 30 天的生存状况为因变量,我们为原始 10 个连续变量和分类变量(即二分连续变量)构建了基于逻辑回归的列线图,用于预测脑卒中 ICU 患者死亡风险。分别为连续变量(UC-N)和分类变量(EML-N)构建列线图。

7.多方面比较两模型效力

AUC和净重分类指数(NRI): Delong Test显示AUC无显著差异,NRI显示EML-N在预测 30 天死亡率方面具有显著的正向改善。

校准力(校准曲线和brier评分):两张列线图的校准曲线均显示脑卒中患者的实际30天死亡率与预测的30天死亡率一致,但UC-N的Brier评分高于EML-N。

临床适用性(决策曲线分析(DCA)):在较高的阈值概率 (0.4-0.8) 下,EML-N比UC-N具有更高的临床净效益。


统计学方法

1.开发和验证可解释的机器学习

使用LightGBM作为机器学习算法来预测 ICU 中风患者 30 天内的死亡风险,而LightGBM本身就是一种创新的基于树的集成学习算法,具有速度快、预测精度高、基于梯度的单侧样本和独家特征捆绑占用内存少的特点。

MIMIC-IV 数据集被随机分为训练数据集 (80%) 测试数据集 (20%)我们通过贝叶斯优化方法寻找LightGBM的最佳参数组合,目标是最大化测试数据集中受试者工作特征曲线 (AUC) 下的面积。并基于5倍交叉验证方法评估优化模型的质量。

应用 Shapely 附加解释 (SHAP) 来解释LightGBM的输出。

  • SHAP 是一种来自联合博弈论的新型模型解释方法,可以通过 SHAP 值检查每个变量对机器学习输出的影响。SHAP 汇总图用于确定特征重要性,从而选择合适的变量,SHAP 部分依赖图(PDP)用于查找所选变量的截止点。

2.评估选定的变量并找到截止点

为了方便列线图开发和临床应用,我们选择了按 SHAP 汇总图排名的前 10 个变量。为了评估所选 10 个变量区分两组(死亡/生存)的能力,我们采用 kruskal-wallis 秩和检验来比较每个所选变量的两组之间的差异。

根据找到的每个变量的截止点,所有 10 个其他连续变量都被二分为分类变量,因此中风患者被分为两个亚组(高风险和低风险)。我们随后通过以下三种方法评估了所找到的分界点的表现:

(1)卡方检验用于比较死亡组和生存组之间这些分类变量的统计分布;

(2)以高危亚组为参考,采用Cox回归模型确定各选定变量与脑卒中患者30天死亡率之间的相关性;

(3)利用Kaplan-Meier (K-M)生存曲线对数秩检验来比较两个亚组之间基于每个选定变量的30天内ICU生存率的差异。

3.构建和评估列线图

以脑卒中患者入住 ICU 后 30 天的生存状况为因变量,我们为原始 10 个连续变量和分类变量(即二分连续变量)构建了基于逻辑回归的列线图,用于预测脑卒中 ICU 死亡风险患者。

总体维度使用判别力(AUC和净重分类指数(NRI))校准力(校准曲线和brier评分)临床适用性(决策曲线分析(DCA)),并考虑特定患者(ID:2846)作为单个维度的示例来比较两个列线图的性能。

  • NRI 是 AUC 的代替,用于评估新模型在风险预测方面的改进。

  • 通过校准曲线和 Brier 评分评估列线图估计风险与观察风险的接近程度。

  • DCA 可以评估列线图辅助决策是否可以改善患者的治疗结果 。

此外,通过 DeLong 测试使用 2000 次自举重采样来比较两个列线图的 AUC,以减少过度拟合。

读完整篇文章,我们发现研究团队用的还是逻辑回归来创建的列线图,文章只是使用了LightGBM和SHAP来挑选出在LightGBM中重要的变量

这样做是否合理呢?
利用LightGBM和SHAP筛选好的变量,绘制列线图是否合理呢?

不一定,且该做法的合理性也有待商榷,不推荐大家进行模仿分析。因为LightGBM和SHAP方法得到的变量不是基于线性关系筛选,而列线图是基于线性模型。LightGBM和SHAP得到的变量,在Cox回归模型中不一定是最佳的预测因子。

建议可以比较使用该流程挑选的变量构建模型与常规单多变量,逐步回归,lasso等方法挑选变量构建的模型,比较不同模型间的Nomogram预测性能可能更能体现题目的意义所在。当然这篇文章也有他的独到之处的,一般来说当变量为连续变量时,他的预测能力会比变量分组后的分类变量预测能力高的,但本文用了机器学习的方法找到变量的最佳截断值,在模型的验证上反而有更好的表现,证明这种确认截断值的方法值得肯定,也值得我们去探索。

详情请点击右方:临床、护理研究1对1全程统计指导,支持发表SCI论文或顺利毕业


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1