2023年郑老师多门科研统计课程:多次直播,含孟德尔随机化方法
一、背景
机器学习是利用计算机算法实现的技术手段,它可以发现数据中的新模式和做出推断,并能自主学习和适应新情况。近十几年来,机器学习在工业、互联网、金融等领域得到广泛应用,成为开发利用大数据资源的有力工具。在医疗健康领域,临床医生和研究人员同样对机器学习具有强烈渴求,希望它能具备传统统计分析技术无法企及的性能,为临床解决更多问题。
然而,机器学习也有其局限性,并非在所有条件下都优于传统技术。因此,临床研究需要认真考虑应用机器学习(或人工智能)的必要性或适当性问题。近期,荷兰鹿特丹伊拉斯姆斯大学医学中心神经外科的Victor Volovici等学者撰文讨论了临床研究中滥用和误用机器学习的原因、危害和规避方法。
二、滥用机器学习的风险
“滥用”是指不必要地采用机器学习,即机器学习并非最佳选择但仍然采用。滥用问题产生的原因是不清楚机器学习的适用条件,没有认真考量采用机器学习的理由。比如,有些研究者在选择机器学习而非传统技术时,给出的理由是“使用新技术也许能得出有意义的新答案”。但这个理由其实并不成立。
首先,需要权衡模型的预测精确度与复杂程度。机器学习技术无疑提供了处理非线性、复杂或高维关系数据预测问题的强大方法。但许多简单的医学预测问题本质上是线性的,通过参考既有研究或者相关机制、选择已知的强预测因子作为预测变量,可以取得相对理想的预测效果,此时机器学习方法不具有明显优势。与工程领域不同,在临床领域,预测精度少许改善的实际意义不大。然而,机器学习模型却往往比传统模型复杂得多,这增加了临床医生和研究人员的理解(解释)难度。
其次,评价机器学习模型性能的指标有局限性。曲线下面积(AUC值)是衡量机器学习模型识别能力的常用指标,可以理解为模型将阳性样本(事件)排在阴性样本(事件)之前的可能性。但AUC值高的机器学习模型可能是过度拟合了。在具有罕见结局的数据集中,高AUC值模型可以准确预测阴性事件,却不能准确预测阳性事件。
三、误用机器学习的风险
“误用”指不适当地使用机器学习模型,从而做出错误推断。因此,“误用”的后果比“滥用”更加严重。出现误用的主要原因包括:
其一,没有仔细审视机器学习模型的内部运作机制。医疗决策应该由清晰、有逻辑、经得起推敲的推理过程来支持。用“黑匣子”支撑临床决策是与现代医学实践相悖的。新冠疫情大流行之初,即时检测新冠病毒的可靠方法尚未广泛应用,基于电子医疗记录中的数据元素(比如胸片),利用机器学习模型估计感染概率的研究活跃起来。起初,不少基于胸部X光片的神经网络算法取得了比较理想的验证结果。然而,当这些模型被应用于不同的医疗场景时,却大多没能成功复现,部分原因是模型并没有理解疾病背后的病理学原因,却试图利用缺乏生物学意义的变量“走捷径”,形成了伪因果关系。
其二,没有考虑数据约束。机器学习需要大量数据。但是和其他科技行业相比,许多医学文献介绍的机器学习技术所需数据量少得多、特征集规模小得多。比如,Facebook使用来自超过10亿名用户的照片训练人脸识别软件,而采用人工智能的临床研究一般只使用几千或者几百张放射学和病理学图像,开发手术阶段识别技术使用的外科手术视频往往不过几十条。使用有偏数据、小数据集训练出的机器学习算法可能无法对感兴趣的临床问题进行完整描述,甚至可能放大性别歧视和种族歧视。
https://mp.weixin.qq.com/s?__biz=MzAwOTYyMDY3OQ==&mid=2650404591&idx=3&sn=7655119ec4dc63aeb7ace73a439ab468&chksm=83518b47b4260251a12690614e8b25071c63d6765db0409b4cd5d618fda874f7898408d3a207&token=310940294&lang=zh_CN#rd
2023年统计服务