2023年12月19日,JAMA Netwok 发表了一篇名为《评估AI在住院患者诊断中的影响》的随机临床调查研究。该研究发现,当故意给医生呈现有偏倚的AI诊断结果时,医生可能被AI欺骗导致诊断准确性降低11.3%。在医疗保健中使用的AI是一把双刃剑,它们既可以提高的诊断决策能力,也可能让情况变得更糟。
2023年人工智能可谓出尽风头。美国的一名女士通过ChatGPT诊断出了她4岁儿子患的罕见疾病,而之前17名医生都未能发现问题所在。前段时间,人工智能(Chatgpt)甚至被列入Nature期刊发布的十大年度人物榜单。近年来AI在临床辅助诊断领域也迅速扩张,已经实现了AI基于胸部平片诊断肺炎、基于眼底图像诊断糖尿病和病理切片诊断皮肤癌等技术。
然而,AI并不总是充当神来之笔。由于AI的诊断能力是人为地投入临床数据而训练出来的,如果训练数据本身存在偏倚,得到的结果也会呈现系统偏差。例如:给AI输入包含女性漏诊的心血管疾病的数据,AI就会认为女性本身不易患病,进而在临床应用中偏向于对男性作出心血管疾病的诊断。
为了尽可能避免这种情况发生,美国FDA要求在医疗保健中使用的AI除了能出疾病诊断外,还要附带解释,以便临床医生就可以评估AI结果的可靠性。
然而,AI真的能提高临床诊断的准确性吗,面对带有偏倚解释的AI模型,临床医生又能否识破AI的分析过程呢。
为回答此问题,密歇根大学(U-M)的计算机科学团队和内科学团队联合开展了一项随机临床案例调查研究,通过让医生在AI辅助下进行临床诊断来观察偏倚的AI模型以及附带解释的AI模型对诊断准确性的影响。
AI和临床医生切磋切磋
该研究拿出了45个急性呼吸衰竭住院患者的临床案例,每名医生会随机抽取9个案例作出诊断选择(肺炎、心衰、慢阻肺选其一),并被按照1:1的比例分配到使用有解释的AI组和无解释的AI组。
在这9个案例中,案例1和2由医生自行诊断,用于计算基线诊断正确率。案例3~案例8中随机抽取一半由标准AI模型辅助、一半由偏倚的AI模型辅助,用于反映有偏倚的AI对正确率的影响。经过事先测定标准AI的诊断准确率为75%,而偏倚AI为70%。最后案例9则设计为故意给医生提供正确的诊断的原因和解释参考,以反映理想条件下的最高诊断正确率。
从研究设计图来看,研究通过两次随机,实现了对两种不同干预措施的探究(有/无AI解释、标准/偏倚AI),可谓是巧妙。
虽然研究设计上有些复杂,但统计分析方法主要为计算诊断准确率及其95%CI,以及两组间率的比较。
在2022年4月至2023年1月期间,研究共在美国13个州调查了457名临床医生,平均年龄34岁,57.7%为女性。其中231人被分配到有解释的AI组,226人被分配到无解释的AI组。
“聪明的AI只帮小忙,笨的AI捅大娄子”
首先,临床医生在没有AI辅助下的基线诊断准确率为73.0%(95% CI,68.3%-77.8%)。这一准确率介于标准AI(75%)和偏倚AI(70%)之间。
当向临床医生提供没有解释的标准AI时,临床医生的准确性比基线提高了2.9%(95% CI,0.5%-5.2%),而看到有解释的标准AI后,准确性比基线提高了4.4%(95% CI,2.0%-6.9%)。当临床医生得到研究提示后,准确率达到最高,为81.1%(95%CI,76.9%-85.4%)。
在另一组比较中,当给医生提供有系统性偏倚但无解释的AI结果后,临床医生的准确性比基线降低了11.3%(95% CI,7.2%-15.5%);而提供有偏倚的AI 模型预测和解释后,临床医生的准确性比基线降低了9.1%。两种情况下的准确率差异不明显(2.3%,95%CI,-2.7%-7.2%)。
后记
评估AI临床诊断的文章并不少,但少有研究能采用多中心随机案例对照设计直接拿AI和医生对比诊断正确率,而且样本量达到了近450名医生。JAMA同时还上线一篇社论来评价该研究的结果,感兴趣的朋友可以进一步检索阅读。
这项研究结果中,标准AI确实提高了医生的诊断率,但仅有2.9%的提升,而一旦面对有偏倚的AI,诊断率便明显下降。这说明AI对临床诊断的帮助仍有局限性,临床医生如果依赖有偏倚的模型,就可能会放大现有的偏倚,导致错误诊断的风险升高。另一方面,提供偏倚AI的解释本是为了让临床医生识别模型的错误,但遗憾的是提供解释并没有导致诊断率的显著恢复。
作为人类科学技术的革命性成果之一,AI无疑是强大且高效的。但考虑到临床诊断关乎患者的生命安全,即使是1%的诊断率差异,放在真实世界中可能都会产生不小的影响。幸运的是,目前AI在临床决策中仍仅被允许作为辅助诊断的工具,真正下诊断的权力仍在临床医生手上。
参考资料:
1. Jabbour S, Fouhey D, Shepard S, et al. Measuring the Impact of AI in the Diagnosis of Hospitalized Patients: A Randomized Clinical Vignette Survey Study. JAMA. 2023;330(23):2275–2284.
2. Khera R, Simon MA, Ross JS. Automation Bias and Assistive AI: Risk of Harm From AI-Driven Clinical Decision Support. JAMA. 2023;330(23):2255–2257. doi:10.1001/jama.2023.22557.
详情请点击下方(复制转换):
https://mp.weixin.qq.com/s?__biz=MzAwOTYyMDY3OQ==&mid=2650411360&idx=1&sn=ca5832662deb4a4521dc4aa23b7682a2&chksm=83526cc8b425e5de1234cd2d3f6d228b102e7f043ae094a62084cb737150cf3d711b5542d8e0&token=1589380685&lang=zh_CN#rd