当前位置:首页|资讯|深度学习

基于图的可解释性深度学习在抗生素发现中的应用

作者:Student_Zero发布时间:2023-12-29



  榴莲忘返 2014  

导读

◊为应对抗生素抗耐药性困局,发现新型抗生素结构类别显得尤为迫切。在探索化学空间时,传统的深度学习方法多采用难以提供化学理解的「黑盒」模型。本研究运用一种可解释的、基于子结构的深度学习方法,来有效指导化学空间的探索。

作者对 39,312 种化合物进行了抗生素活性和人类细胞毒性分析,并利用图神经网络集成,预测了 12,076,365 种化合物的相关活性。通过可解释的图算法,识别出了那些既具有高抗生素活性又低细胞毒性的化合物子结构。

在对 283 种化合物进行实证测试后,发现在针对金黄色葡萄球菌(Staphylococcus aureus)表现出抗生素活性的化合物中,推测的结构类别呈现富集状态。这些结构类别中的化合物对甲氧西林耐药金黄色葡萄球菌(MRSA)和万古霉素耐药肠球菌显示出选择性,有效避免了广泛的抗药性,并在 MRSA 皮肤和系统性大腿感染的小鼠模型中显著降低了细菌滴度。

深度学习在抗生素发现中的应用

利用 RDKit 进行分子表征

  • SMILES 字符串: 研究团队使用 RDKit 将化合物的 SMILES 字符串转换成基于图的分子表征。

  • 特征向量的创建: 为每个原子和键创建了独特的向量,包含了原子序号、键类型等多种可计算特征。

基于键的消息传递卷积神经网络

  • 神经网络的实现: 研究在原子基消息传递神经网络的基础上进行改进,重点关注键。

  • 消息的更新与总结: 与键相关的消息(实数)通过求和、连接和应用神经网络层的过程进行更新。

输出预测

  • 预测化合物的活性: 模型输出一个实数,表明化合物抑制细菌生长、细胞毒性或改变质子动力力的可能性。

模型优化技术

  • 增加额外特征: 为了更全面地表征化合物,添加了 200 个分子级特征。

  • 参数调整以提高性能: 研究采用网格搜索和优化技术,选择模型的最佳超参数。

  • 集成方法: 训练并结合多个模型,以增强预测的稳健性和可靠性。

模型评估与应用

  • 在广泛的数据集上评估: 在包含 39,312 个化合物的数据集上测试模型,确保了其预测能力的全面验证。

  • 拓展应用范围: 模型被用于筛选数百万个来自如 Mcule 可购买数据库的化合物,识别潜在的抗生素候选物。

  • t-SNE 分析: 研究使用 t-SNE 可视化化合物结构,提供了对它们关系和相似性的观察。

  • 识别关键子结构: 研究者采用蒙特卡洛树搜索来确定具有高抗生素活性分子中最小的活性子图。

  • 该研究不仅仅停留在预测层面,还对模型在不同数据集和真实世界化合物上进行了严格测试,以确认其准确性和普适性。

主要结果

通过图神经网络模型,预测并测试了针对耐药金黄色葡萄球菌的抗生素活性。

  • 🧪 实验筛选与化学结构分析

  • 📈 模型训练与性能评估

  • 🧬 机理探究与抗性研究

该研究首先筛选了 39,312 种化合物,涵盖已知抗生素和天然产品,针对耐甲氧西林金黄色葡萄球菌进行生长抑制活性测试。研究者使用 Chemprop 训练图神经网络模型,基于化学结构预测化合物的抗菌活性。通过对 12,076,365 种化合物的预测,筛选出具有高抗生素活性和低细胞毒性的化合物。此外,研究者通过图搜索算法识别了与高抗生素预测分数相关的化学亚结构("rationales"),进而预测抗生素类别。这些"rationales"有助于理解模型的预测逻辑,为筛选新的抗生素结构类别提供了依据。

在人类细胞毒性方面,研究者通过对同一数据集的不同细胞类型进行筛选,开发了预测细胞毒性的正交模型。通过对过滤后的化合物进行实验测试,结果显示部分化合物对金黄色葡萄球菌具有显著的生长抑制作用,同时对人类细胞表现出高选择性。

最后,作者对这些化合物的作用机理和抗性进行了深入研究。通过对耐药菌株的测试发现,部分化合物在不同的细菌种类中具有广泛的活性,显示出对抗多重抗生素耐药性的潜力。进一步研究化合物 1 和 2 发现,它们对金黄色葡萄球菌具有较好的选择性,并且在动物模型中显示出治疗效果。

图 1:深度学习模型在抗生素活性和人体细胞毒性预测中的集成应用

  • a, 方法概述。图神经网络预测超过 1.09 亿分子的化学性质,这一过程是在计算机模型中完成的,与大型化学库的实验筛选相比,节省了时间和成本。研究者使用 39,312 种化学多样性化合物的生长抑制活性数据训练模型,然后将模型应用于包含 12,076,365 种易得化合物的虚拟化学数据库。对预测得分高的化合物(即命中化合物)按结构类别进行分析,并进行采购和测试。该方法具有迭代性,允许模型重新训练以产生新的预测。

  • b, 展示了对 39,312 种化合物在 50μM 浓度下对 S. aureus RN4220 的生长抑制效果的数据,来源于两次生物重复实验。定义活性化合物为平均相对生长小于 0.2 的化合物。

  • c, 展示了基于 b 数据中的 10 个 Chemprop 模型集合所得的精确度-召回率曲线。这些模型增加了 RDKit 特征,基于 b 部分的数据进行训练和测试。黑色虚线表示数据集中活性化合物的基线比例(1.3%)。蓝色曲线及其 95%置信区间展示了自举法的变化。

  • d,f,h, 分别展示了对 39,312 种化合物在 10μM 浓度下对 HepG2 (d)、HSkMC (f) 和 IMR-90 (h) 细胞的活性数据,数据来源于两次生物重复实验。定义细胞毒性化合物为平均相对存活率小于 0.9 的化合物。

  • e,g,i, 展示了基于 d、f、h 数据中的 10 个 Chemprop 模型集合所得的精确度-召回率曲线。这些模型同样增加了 RDKit 特征,并在对应的数据上进行训练和测试。黑色虚线表示数据集中细胞毒性化合物的基线比例:8.5% (e);3.8% (g);8.8% (i)。蓝色曲线及其 95%置信区间显示了自举法的变化。

图 2:化学空间的筛选与可视化

  • a, 描述了计算机模型筛选过程。经过训练的图神经网络应用于 Mcule 可购买数据库和 Broad Institute 数据库中的 12,076,365 种化合物,用以预测抗生素活性。对于预测得分高的化合物(Mcule 数据库>0.4,Broad Institute 数据库>0.2),保留以供后续分析。同样的图神经网络被用来预测这些化合物对 HepG2 细胞、HSkMC 细胞和 IMR-90 细胞的细胞毒性。保留那些对所有细胞类型的细胞毒性预测得分低(<0.2)的化合物,进而通过计算机测试这些化合物是否含有普遍反应性或不利的化学亚结构(PAINS 和 Brenk 亚结构)。最终,根据与训练数据集中活性化合物的 Tanimoto 相似性得分小于 0.5 的标准,并排除了含有喹啉双环核或 β-内酰胺环的化合物,从而筛选出结构上新颖的化合物。

  • b, 对所有 12,076,365 种化合物的抗生素活性预测得分进行了排序。c–e, 对 10,310 种预测得分高的化合物在 HepG2 (c)、HSkMC (d) 和 IMR-90 (e) 细胞上的细胞毒性预测得分进行了排序。

  • f, 使用 t-SNE 方法绘制的图表,展示了高低抗生素预测得分化合物以及训练集中化合物的化学相似性或差异性。图中活性化合物主要区分了预测得分高的化合物与预测得分低的化合物。

图 3:基于图的解释性揭示潜在抗生素类别的骨架

  • a, 展示了使用蒙特卡罗树搜索方法所得的结果,该方法生成具有高预测抗生素活性的化学结构 "rationales"(即图亚结构)。

  • b, 展示了使用蒙特卡罗树搜索方法为头孢美诺(cefmenoxime)确定的子结构,这是一个示例命中化合物。这里的 "rationales" 结构与头孢菌素核心重叠,并且自身的抗生素预测得分为 0.149。为了进行比较,同时展示了头孢菌素核心。

  • c, 对所有命中化合物与训练集中活性化合物的 Tanimoto 相似性得分进行了排序。使用 0.5 的阈值来筛选与训练集中活性化合物结构不同的预测命中。

  • d, 在 1,261 个结构上新颖且不含不利亚结构的命中中,找到的 186 个带有可解释 "rationales" 的命中的骨架组中保留骨架的子图数量排序。其中,16 个带 "rationales" 的命中与五个骨架 G1–G5 相关。

  • e, 对于 253 个高抗生素活性预测得分(>0.2)和 30 个低抗生素活性预测得分(<0.1)的化合物的抗生素活性预测得分进行了排序,这些化合物被采购用于实验测试。

  • f, 展示了化合物 1 和 2 的化学结构,这两个结构上新颖的命中与 "rationales" 组 G2 相关,不含不利亚结构,并且发现可以抑制 S. aureus RN4220 的生长。这两种化合物的 "rationales" 相同,导致抗生素预测得分为 0.144。

  • g, 展示了化合物 1 和 2 的 S. aureus MIC 和人类细胞 IC 50 值,以对数尺度显示。条形图显示了两次生物重复实验的平均值(点),并根据细菌菌株、人类细胞类型或测试介质条件进行了颜色标记。星号表示数值大于 128μg ml^-1。

图 4:抗药性结构类别及其作用机制研究。

  • a. 金黄色葡萄球菌(S. aureus)RN4220 和枯草芽孢杆菌(B. subtilis)168 在对数生长期接受化合物 1、2 和万古霉素的处理,或不进行处理,进行的时间杀菌测试。该数据基于两组生物重复实验,点状图表示平均值。在适当情况下,每毫升菌落形成单位(CFU)的值低于 102 时,为了反映定量下限,该值被截断为 102。

  • b. 金黄色葡萄球菌 RN4220 进行连续 30 天的液体 LB 传代实验,每 24 小时传代一次,记录最小抑菌浓度(MIC)倍数的变化。每种化合物的两组生物重复实验结果分别以对数刻度展示。

  • c. 在抑制剂突变体的进化实验中,研究者在含有化合物的 LB 琼脂板上以 10^9 CFU 播种金黄色葡萄球菌 RN4220,孵育 5 天后,再在新鲜含化合物的 LB 琼脂板上进行划线培养。每张图片展示了两组生物重复实验的结果。

  • d. 枯草芽孢杆菌 168 在对数生长期,经过含有化合物 1 和 2(16 μg ml−1)处理 3 小时后的相位对比显微镜图像。比例尺为 3 微米。展示的结果基于三组生物重复实验。

  • e. 在用 DMSO(1%)、valinomycin 和 nigericin(约 1 mg ml−1)以及化合物 1 和 2(32 μg ml−1)处理的金黄色葡萄球菌 RN4220 和枯草芽孢杆菌 168 的对数生长期,记录 DiSC3(5)荧光。细胞在 300 秒(垂直线标记处)接受处理。所示结果基于三组生物重复实验。a.u.代表任意单位。

  • f. 在不同介质 pH 值下,与化合物 1 和 2 孵育一夜后金黄色葡萄球菌 RN4220 的光学密度(OD600)测量。每条生长曲线代表一组生物重复实验,所展示的结果基于两组生物重复实验。

  • g. 化合物 1 和 2 对 CDC MRSA 和 VRE 分离株的最小抑菌浓度(MIC)值,以对数刻度展示。条形图展示两组生物重复实验的平均值(点状图表示)。星号标记的条形图代表 VRE 分离株,其余所有条形图对应 MRSA 分离株。

图 5:体内疗效研究。

  • a, b, 如研究方法所述,使用 MRSA CDC 563(a)和 MRSA CDC 706(b)菌株,对中性粒细胞减少症小鼠的伤口感染模型和大腿感染模型进行体内实验。在 a 部分,从感染后 1 小时开始治疗,随后在感染后的 4、8、12、20 和 24 小时进行局部治疗。每组使用 5 只小鼠,fusidic acid 和化合物 1 治疗组分别与对照组(使用载体)进行比较;两个对照组的结果以点状图叠加展示。

  • 在 b 部分,治疗采用感染后 1 小时的单次腹腔内给药,每个治疗组使用 6 只小鼠。水平线表示平均 log10 CFU g−1 值。与对照组相比,单侧两样本置换检验的 P 值小于或等于 10^-2。

讨论

这种方法通过基于图的可解释深度学习模型的预测,有效地探索化学空间,找到了 12,076,365 种化合物中具有抗菌活性的新结构类。作者识别出多个对金黄色葡萄球菌(S. aureus)具有抗生素活性的化合物,其中一类结构在抗药性克服、毒理学和化学特性方面表现出高选择性,并在小鼠感染模型中对 MRSA 的局部和系统治疗均有效。机制和结构-活性关系分析还表明,这一结构类可以针对革兰阳性菌的高选择性和革兰阴性菌的增强渗透性进行进一步优化。

此外,研究还展示了深度学习模型在药物发现中的可解释性。作者通过图神经网络,以基于图的可搜索化学亚结构的方式,更好地理解和解释模型预测,从而为生物活性的化学亚结构提供有意义的见解。未来工作可能会在此基础上进一步分析和理解深度学习模型的预测,例如通过扰动模型输入的方法进行额外的可解释性测试,以及扰动神经网络结构以提高可解释性。

该方法不仅在筛选化合物的细胞毒性和药物化学过滤步骤方面进行了严格的考量,还可能对其他药物发现领域的工作提供信息。通过迭代数据生成、模型重新训练和亚结构识别的任务,可以构建更完整的化学空间表示,并更好地识别和分类有前景的预测。通过可解释的深度学习发现结构类,可以促进潜在引物的识别和优化过程,专注于关键支架的研究,从而高效地探索新的化学空间,并获得关于生物活性背后化学亚结构的具体见解。

参考资料:

  • Wong, F., Zheng, E. J., Valeri, J. A., Donghia, N. M., Anahtar, M. N., Omori, S., Li, A., Cubillos-Ruiz, A., Krishnan, A., Jin, W., Manson, A. L., Friedrichs, J., Helbig, R., Hajian, B., Fiejtek, D. K., Wagner, F. F., Soutter, H. H., Earl, A. M., Stokes, J. M., … Collins, J. J. (2023). Discovery of a structural class of antibiotics with explainable deep learning. Nature. https://doi.org/10.1038/s41586-023-06887-8                IF: 64.8 Q1

  • Data and code: https://github.com/felixjwong/antibioticsai

— 完 —

点击这里👇关注我,记得标星哦~




Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1