粉丝小Q:怎么现在到处都是孟德尔随机化,好热门的感觉。但是好像我才关注这个点,就听说已经开始卷起来了。我们临床医生看文献时间太少了,好难跟上第一梯队的热点,都emo了。小云:是啊,刚出来时候创新性强,但是我们没觉察到,等后知后觉的发现身边到处都是的时候,又开始卷的要死要活。粉丝小Q:有什么的好建议吗?小云:我的建议是,可以找一些比较新的方向,然后组合起来,虽然诸葛亮很难做,但是3个臭皮匠潜力也是巨大的。比如,小云今天要给大家分享的这篇孟德尔随机化+机器学习(深度学习)主题的文献,就是这样操作的。孟德尔随机化自不必说,机器学习想必大家也有所耳闻,近几年生信分析中最热门的方法之一。这两个方向的组合,自然出手不凡了。在这篇文章中,作者针对颅内动脉瘤(IAs),基于公共数据库中的转录组学数据,对IA中的DNA甲基化进行了全面的生物信息学研究,包括100种机器学习算法、全基因组关联研究(GWAS)、孟德尔随机化(MR)以及基于汇总数据的孟德尔随机化(SMR)分析。这些技术的整合应用,轻松实现了非肿瘤疾病的0实验1区7分+文章,思路实在值得学习和借鉴,需要复现这篇文章思路或定制分析思路的朋友欢迎call小云,风里雨里小云公众号等你!
题目:DNA甲基化调节修饰模式和颅内动脉瘤风险:整合机器学习、孟德尔随机化、eQTL和mQTL数据的多组学和表观基因组范围关联研究
杂志:J Transl Med
影响因子:IF=7.4
发表时间:2023年9月
公众号回复123领取原文,文献编号:240204
研究背景颅内动脉瘤带来了重大而复杂的挑战。阐明DNA甲基化与IA发病机制之间的相互作用对于识别潜在的生物标志物和治疗干预措施至关重要。本研究旨在通过对GEO数据库中RNA测序和微阵列数据进行生物信息学分析,进一步研究这种并发症的分子机制。数据来源
分析思路作者对IA中的DNA甲基化修饰基因(MRGs)进行了全面分析,重点是区分正常组织、破裂颅内动脉瘤(RIAs)和未破裂颅内动脉瘤(UIAs)样本之间的分子特征。基于19个DNA甲基化调节基因确定了不同的m6A修饰模式,并在不同亚型中对其进行了进一步评估。作者使用100种机器学习方法,根据全球IA队列中的17个DNA甲基化相关基因(MRG)开发了IA破裂的预测模型。最后,作者应用全基因组关联研究(GWAS)、汇总数据的孟德尔随机化(SMR)和孟德尔随机化MR方法来证明DNA甲基化相关基因在颅内动脉瘤发病机制中的关键作用。
主要结果
1. 临床正常脑组织样本、RIA 和 UIA 样本的 MRGs 基因存在差异
作则选择了19个DNA甲基化修饰基因(MRGs)(图1A)。利用了STRING数据库分析其蛋白表达(图1B),证明MRGs作为蛋白质复合物发挥作用(图1C)。对GSE122897数据集中差异甲基化区域(DMR)水平进行PCA分型时,破裂颅内动脉瘤(RIAs)组独立于未破裂颅内动脉瘤(UIAs)和正常组,表明甲基化程度可能在IA破裂的发生中起关键作用。热图分析还揭示了三个不同样本中19个MRG的表达水平存在显着差异。此外,大多数MRG在RIA样本中的表达显着更高(图1D)。表明MRG 似乎在组织层面的IA破裂的中发挥了关键作用。
图1 MRGs基因的差异表达分析2. IA患者中MRG介导的甲基化修饰模式作者对19个MRGs进行了聚类分析,以无监督的方式研究甲基化修饰模式与IA之间的潜在关联。k-means分析(图2A)曲线下面积分析揭示了鉴定结果(图2B)和两种不同的甲基化修饰亚型(图2C)。除了TET3、TET2和DNMT3B之外,A亚型样本中的大多数MRG均表现出上调(图2D)。这些发现表明,MRG表达升高可能代表IA患者中与IA破裂相关甲基化修饰模式,并且可以作为IA破裂的重要预测标志物。
图2 IA患者中MRG介导的甲基化修饰模式鉴定3.不同甲基化修饰基因的生物学功能分析
MRG甲基化修饰模式分析表明,与未发生破裂的B亚型患者相比,发生破裂的A亚型患者占主导地位。作者使用基因集变异分析(GSVA)比较了两种亚型之间差异基因和通路。与B亚型相比,A亚型中TGF-β信号通路和RNA降解通路显著上调(图3A)。异构体A中各种与蛋白质修饰相关的过程被显著激活,例如蛋白质单泛素化(图3B)。作者利用limma包识别了1735个差异基因(图3C)并进行了富集分析,揭示了PI3K-Akt信号通路在IA破裂中的潜在参与(图3D)。上述结果探究了IA发病机制的分子机制。
图3 不同甲基化修饰基因的生物学功能分析4. MRG的在单细胞层次表达分析
作者使用Seurat的CAA算法整合IA和正常样本,并初步识别细胞簇,t-sne图显示样本合并得到了改进(图4A)。通过使用singleR包和CellMarker数据库,作者成功鉴定了20个可区分的细胞簇,包括成纤维细胞、粒细胞和单核细胞等(图4B)。比较发现,成纤维细胞和巨噬细胞占主导地位,IA发作后巨噬细胞显着增加,而成纤维细胞大量减少(图4C)。Mdb3和Zbtb38两个MRG基因在内皮细胞和成纤维细胞中表现出高表达(图4D)。
图4 MRG的在单细胞层次表达分析5. 100种机器学习方法鉴定MRG作为识别UIA患者破裂的潜在诊断标志物
作者结合100种最机器学习方法来开发19个MRG基因的预后模型,以预测IA破裂。使用GSE122897作为训练集,其他数据集作为验证集,对不同队列中100个机器学习模型的AUC进行平均。最终发现Stepglm[both]+Ridge算法具有最佳的模型性能功效(图5A)。此外,还通过ROC曲线、Calibration曲线和DCA曲线来评估模型性能,证明了良好的区分度(图5B)。MRG模型比完全治疗或无治疗策略表现出更好的临床净效益(图5C)。MRGs模型在GSE122897队列中的表现相当可观(图5D)。以上数据表明,MRGs模型能够充分检测有或没有IA破裂的患者,并且可以有效优化IA患者的临床决策过程。
图5 MRG作为识别UIA患者破裂的潜在诊断标志物鉴定6.全基因组顺式eQTL和IA/aSAH/UIA的SMR分析
为了确定与SAH和UIA相关的遗传位点,作者使用P-SMR<0.05和P-HEIDI>0.01进行了多效性分析。根据这些标准,作者确定了DNMT3A与SAH相关的独特遗传位点的关联信号,MBD2与UIA相关的独特遗传位点关联信号。而未观察到与IA关联信号(图6 C-E)。结果表明DNMT3A和MBD2可能分别在SAH和UIA的发病机制中发挥重要作用。
图6 全基因组顺式eQTL和IA/aSAH/UIA的SMR分析(因原文图片清晰度欠佳,如需详细信息,请查看原文)文章小结
这篇文章最大的特色是使用了100种机器学习算法、孟德尔随机化(MR)和基于汇总数据的孟德尔随机化(SMR)分析对非肿瘤疾病的公共数据进行基因集挖掘并构建了预后模型。当然也包括了GWAS、表观遗传、单细胞数据挖掘等等内容,分析相当完整。这些技术的整合应用,才实现了非肿瘤疾病的0实验1区7分+文章,值得学习和借鉴,对这篇文章思路或定制分析思路的朋友欢迎call小云,风里雨里小云公众号等你!