在现代医学的发展史上,机器学习的发展为精准医学和转化研究提供了信息。计算病理学将计算机视觉方法应用于临床和病理图像,并极大地受益于基于神经网络的深度学习技术。
今天小云跟小伙伴们分享一篇发表在Cell Reports Medicine上的高分机器学习类文章。这篇文章引入了一种开创性的方法,将病理成像与转录组学和蛋白质组学相结合,以确定与癌症关键临床结果相关的预测组织学特征。
这篇文章是如何斩获14+的高分呢?小云带小伙伴们一起揭秘一下吧~
1,本研究采用了一种创新性的研究方法,根据泛癌蛋白质组数据训练和验证深度学习成像模型,在包含六种疾病类型的泛癌数据上构建了端到端的多分辨率神经网络,以预测广泛的组织学、临床和分子结果,使得该研究具有很高的应用价值;
2,本文使用了图像模型识别驱动蛋白质组特征的诊断形态,模型包括蛋白质组学以及基因组学和转录组学,提高了研究的可靠性和准确性,
3,本文广泛的结合了人类病理学专家进行评审,让可视化程度在可解释性上大幅提高,有助于该技术在转化研究和临床实践中的应用,有望成为组织病理学图像数据蛋白质组学建模应用的框架概念,同时结合专家病理学审查与机器学习,以评估模型的相关性。本文团队认为,将机器学习与人类专家评审相结合能够提高病理学家的诊断,有助于提高模型的可信度和应用的可靠性,从而更好地指导临床实践和研究;
4,本研究团队还开发了一个图形用户界面(GUI),让临床医生可以用他们自己的临床图像来探索模型,这一创新对于医生学者们来说可谓是非常实用呀!
相信本文的研究思路能够给想要发表高分SCI论文的小伙伴们一定的参考价值!小伙伴们也可以扫码咨询小云,小云可以提供更多生信方面热点研究方向和创新思路,协助你发表高分SCI哦~
题目:利用深度学习在泛癌水平上整合组织病理学和蛋白质组学
杂志:Cell Reports Medicine: Cell Press
影响因子:IF=14.3
发表时间:2023年8月14日
公众号回复“123”获取文献,文献编号:231122
云生信学生物信息学,将在12月05日 15:00 直播预约R语言实操-临床数据下载整理与应用视频号
研究背景
卷积神经网络(CNN)模型可以稳定预测特定癌症类型中常见的突变基因。弱监督CNN还可以识别多种癌症类型中的可操作驱动突变,并预测分子特征。然而,以前的研究尚未尝试将丰富的蛋白质组数据与组织学特征关联起来。同时,很少有弱监督的深度学习研究将病理学专业知识整合到研究设计和解释中,导致模型可能缺乏人类可解释性或与肿瘤生物学的明确相关性。现有模型过于依赖基因组和转录组数据,这限制了临床和转化研究人员在实际操作中采用机器学习作为辅助技术的能力。为了解决这些限制,本文作者团队引入了一种多分辨率CNN架构Panoptes,用于对子宫内膜癌图像进行分类。该技术不仅适用于来自不同器官系统的癌症类型,还为推动机器学习在临床和研究中的应用提供了一个实践路线图。同时,通过评估蛋白质组模型来补充和验证转录组相关性,进一步提高了该技术的可靠性和应用价值。
数据来源
本文研究团队所使用的图像库由2,755张H&E染色切片组成,来自临床蛋白质组学肿瘤分析联盟(CPTAC)的福尔马林固定石蜡包埋(FFPE)组织块切片,涵盖了六种癌症类型。该联盟对数百名患者的肿瘤组学(包括基因组学、蛋白质组学和代谢组学)进行了全面的表征,并且对匹配的组织病理学图像和临床结果进行了详细注释。这些数字化的H&E切片图像可以在癌症影像档案(TCIA)上公开获取。
同时,患者的临床数据、人口统计学和其他临床特征均由CPTAC的泛癌症蛋白质组学联盟协调并提取,该联盟从组织特异性CPTAC研究中获得相关数据。本文重点关注的是具有基因组、转录组和蛋白质组数据的CPTAC样本,这些数据可用于研究泛癌蛋白质组对组织病理学的影响。
原始和处理后的蛋白质组学数据以及开放获取的基因组数据均是通过蛋白质组学数据共享(PDC)获得的,该平台的网址为https://pdc.cancer.gov/pdc/cptac-pancancer。原始基因组和转录组数据文件则可以通过基因组数据共享(GDC)数据门户获取,其中dbGaP研究登录号为phs001287.v16.p6。
完整的CPTAC泛癌控制和处理数据可以通过癌症数据服务(CDS)获取,该平台的网址为https://dataservice.datacommons.cancer.gov/。CDS中托管的CPTAC泛癌数据是受控数据,只有通过NCIDAC批准的dbGaP编译的白名单才能进行访问。用户还可以通过七桥癌症基因组云(SB-CGC)访问这些数据进行分析。
研究思路
从CPTAC获取的组织块切片和H&E染色切片,将TCGA 中的每个医学全量影像(whole-slide images,WSI)划分为较小图块,并使用与整个幻灯片共享相同标签的图块,然后在整个图像级别聚合各个图块级别的评估,基于Panoptes的多分辨率CNN模型在图块上进行训练、验证和测试,为了更好地理解模型决策,作者将四个任务分为 1 类或 2 类。1 类任务用作模型的概念验证,包括 (1) 识别肿瘤组织来源和 (2) 区分来自正常组织的肿瘤。2 类任务包括根据组织学图像特征预测 (3) 临床特征和 (4) 生物标志物。通过稀疏 CCA 研究驱动预测形态改变的潜在生物机制,稀疏 CCA 提取基因、蛋白质和成像特征的亚组,其表达值彼此最大程度相关。然后对不同典型变异的高分和低分病例进行病理学审查,以评估模型衍生特征的病理和生物学相关性。在每个切片基于成像的预测任务的AUROC图中进行总结比较。除此之外,通过引入基于云的图形用户界面,供临床医生将此机器学习模型应用于自己所需的组织学图像。
主要结果
1.组织源模型性能和组学整合
通过使用正常邻近组织(NAT)和肿瘤样本的组合进行训练,模型表现出了极好的性能,每切片水平的AUROC值介于0.949至0.995(图2A),而每图块水平的AUROC值则介于0.905至0.963(图2B)。为了更直观地理解模型的学习成果,我们将潜在特征与最终卷积层的tSNE结果进行了可视化,从而可以观察到不同组织类型之间的分离程度(图2C和2D)。后续作者应用稀疏 CCA将组织来源模型在TCGA样本上进行了验证,CCA 典型变量突出了 UCEC 和 LUAD 样本之间的相似性。(图2E)
图 2组织源模型性能和组学整合
2.泛癌模型的特征可视化和交叉测试
通过评估组织学特征的 CNN 模型如何区分肿瘤和 NAT(另一类 1 类任务),并将模型的决策过程与标准病理检查进行比较。结果显示泛癌模型在肿瘤和NAT分类中实现了高的AUROC值,并在外部TCGA测试集上验证了泛癌模型的准确性。为了识别模型中权重较大的组织学特征,作者评估了模型在每个幻灯片级别的预测的空间分布,并采用类激活映射(CAM)来展示深度学习模型的注意力。结果显示模型通常更多地关注肿瘤区域而不是正常区域(图3c)。提取倒数第二层测试集样本的激活图进行降维以显示二维 tSNE 图,观察到肿瘤样本聚集在顶部,而正常样本聚集在底部,并且预测标签和真实标签相关性良好。除了与 CCRCC 样本相关的两个小簇外,没有按来源组织划分的明显簇(图3 DEF)。通过审查与 tSNE 图上的点相对应的 H&E 图块,表明高细胞核密度和细胞核形状/大小是模型用于区分肿瘤组织与 NAT 的主要特征。
图3肿瘤发生模型的特征可视化和交叉测试
在对泛癌模型中区分肿瘤和NAT的分子特征进行评估后,发现模型通过将成像和转录组或蛋白质组特征之间的投影值可视化,清晰地显示了正常样本和肿瘤样本之间的界限(图4A)。此外,对顶级转录组和蛋白质组通路以及顶级图块的评估确定了富含细胞周期DNA复制和双链断裂修复的基因和蛋白质子集(图4B和4C)。另一个典型变量(第2号)则显示LSCC和LUAD与NAT明显分离,而HNSCC肿瘤与NAT中度分离(图4D和4E)。通过可视化,我们还观察到蓝色区域能够明显隔离具有离散静脉血的区域(图4F),而与代谢活动增加相关的红色区域则突出显示具有肿瘤细胞的图块。蓝色区域则分割出具有平滑肌组织的正常肺区域,中间的白色图块则与纤维化或促结缔组织区域相关(图4E)。这些发现表明,成像模型已经学习到了一些特征,这些特征结合起来代表可解释的生物信号并对应于可识别的H&E特征。
3.临床和组织病理学特征
经过训练模型来预测病理分级和疾病阶段(如图5A所示),可以清楚地看到,TCGA等级数据并不适用于测试其普遍性。为了解决这个问题,作者利用稀疏CCA来识别生物相关性。通过这种方法,实现了对具有最高预测值的区域的可视化(如图5B所示),该可视化捕获了无管腔形成和广泛坏死的杂乱肿瘤细胞区域,以及恶性腺体显示基底核极性丧失的区域。这些区域通常与肿瘤的恶性程度和疾病进展相关。另一方面,具有最低预测值的图块主要是NAT样本,这些样本通常具有正常的非肿瘤形态或具有明显极性的细胞。这些结果表明,此模型能够准确地识别出肿瘤组织和正常组织之间的差异,从而为病理诊断提供有力的支持。
图5模型性能及年级和阶段的多组学评估
4.生物标志物
直接从H&E染色组织病理学图像推断分子特征的工具,将充分利用组学研究的优势,使诊断病理学图像更容易获取,增强传统诊断病理学技术的能力,并扩展回顾性分子分析,无需基因组测序即可推断生物样本的突变情况。所有突变预测任务均显示出显著差异,表明这些模型可用于区分具有常见突变的肿瘤(图6A)。使用tSNE对泛癌TP53突变模型学习到的特征进行提取和可视化(图6B),观察到预测的TP53突变簇中具有高级肿瘤特征的肿瘤浸润淋巴细胞;在预测的KRAS突变簇中,观察到较大的细胞核、开放的染色质和腺体特征;在预测的STK11突变体中发现了丰富的中性粒细胞、大细胞和腺体结构,并且恶性细胞显示出聚集的染色质;与预测的TP53突变体相比,这些肿瘤浸润淋巴细胞的细胞更少、炎症更多、坏死更多。在EGFR突变簇中也观察到了类似的模式。预测的PTEN突变簇显示出细长的致密腺体,这是子宫内膜癌的典型特征。TCGA FFPE 验证证实了TP53和PTEN的普遍性。多模式整合结合对 TP53 野生型与突变样本的盲法全切片病理学评估,表明该模型一致地再现了TP53突变型癌症的典型组织学特征。
图6 生物标志物的性能、可视化和特征提取
5.Panoptes Web
为了方便集成到临床和转化研究工作流程中,本研究团队开发了Panoptes Web这一具有直观可视化功能的工具(http://panoptes.fenyo.cloud),用于评估模型的性能。该工具可实现模型的可视化,并采用简单的工作流程进行逐块预测(图7A)。结果以概率分数和班级结果的直观箱线图进行展示,同时提供基于网络的查看器(图7B),详细说明每个图块的预测情况。
文章小结
这篇文章可以说在应用价值和创新性方面都有可圈可点之处,通过利用已公开的大量本临床数据,使用时下非常热门的卷积神经网络(CNN)模型和深度学习的研究方法,就能轻松发出14+的Cell子刊,可谓性价比极高。你心动了吗?如果你想了解更多生信方面的创新点,发出高分文章,就把握住机器学习的热点方向,快快行动起来吧!