MultiPPIMI: 多模态深度学习框架预测 PPI 相互作用调节剂

作者：Student_Zero发布时间：2023-12-23

深度学习

榴莲忘返 2014

导读

本研究通过构建多模态深度学习框架 MultiPPIMI，显著提升了蛋白质相互作用的预测效率和准确性。

蛋白质相互作用（PPI）在众多生物过程和疾病中扮演至关重要的角色。尽管如此，大多数现有的计算方法在识别 PPI 调节剂时都有所局限，它们通常需要靶标的结构或已知调节剂作为参考，这限制了它们在新型 PPI 靶标上的应用。

为了解决这一问题，研究者提出了 MultiPPIMI，这是一个能够预测给定 PPI 靶标与调节剂间相互作用的基于序列的深度学习框架。

MultiPPIMI 综合利用了 PPI 靶标和调节剂的多模态表征，并通过双线性注意力网络捕捉它们之间的相互作用。

在基准数据集上的实验结果显示，MultiPPIMI 在三种不同的冷启动场景下平均达到了 0.837 的 AUROC，在随机分割场景中更是达到了 0.994 的 AUROC。

此外文章案例研究中，MultiPPIMI 可以有效辅助分子对接模拟，筛选出针对 Keap1/Nrf2 PPI 相互作用的抑制剂。

主要步骤：

PPI 靶标表征： 涉及从复合体中选择两个伙伴蛋白并通过其氨基酸序列表征它们。
调节剂表征： 使用 SMILES 计算特征并将其转换成二维分子图。
目标： 训练模型以将联合特征表征空间映射到交互概率分数。

基准数据集

数据来源和处理：

来源： 数据集源自 DLiP 数据库，包括 PPI 靶标的活跃和非活跃小分子调节剂。
蛋白质序列： 从 UniProt 数据库中检索。
数据过滤： 确保多样性，包含 9,817 个独特的调节剂和 120 个 PPI 靶标。

平衡数据集创建：

正样本： 定义为相互作用的调节剂-PPI 靶标对。
负样本： 假设与其他 PPI 家族的靶标相互作用的调节剂无活性而生成。
类别不平衡： 通过对负样本进行降采样来解决，从而获得一个平衡的数据集。

PPIMI 框架组成：

调节剂特征提取： 结合结构嵌入和理化性质。
PPI 特征提取： 利用结构嵌入和理化性质特征。
相互作用建模： 采用双线性注意网络捕捉分子间相互作用。
分类： 使用多层感知器预测交互概率。

化合物和蛋白质表征

化合物表征：

框架： 图多视图预训练（GraphMVP）。
特征： 结合 2D 拓扑和 3D 几何视图。
输出： 每个化合物的 300 维嵌入向量，增加了理化性质。

蛋白质-蛋白质相互作用表征：

结构嵌入： 使用 ESM2 蛋白质语言模型获得。
理化性质： 以每个氨基酸在蛋白质序列中的 19 特征向量表征。

双线性交互网络

双线性注意网络最初设计用于视觉问题解答，在捕捉多模态输入通道之间的交互方面十分擅长。在本研究中，它们被用来建模调节剂和 PPI 靶标之间的非共价相互作用。

网络层：

双线性交互图： 捕捉成对注意力权重。
双线性池化层： 提取 PPI-调节剂对的联合表征。

分类模块和预训练策略

模块组成： 包括具有 ReLU 激活的全连接层和用于最终预测的 softmax 层。
预训练策略： 检验化合物结构编码器的不同自监督学习任务，重点在于增强 2D 表征。

评估策略和指标

数据分割策略：

随机分割
调节剂冷启动
PPI 冷启动
冷对设置

性能指标：

AUROC
AUPR
灵敏度、精确度和特异性

实施和基线模型

技术细节：

语言和库： 使用 Python 和 PyTorch 实现。
训练参数： 包括批量大小、学习率和周期的细节。

基线模型：

与 SVM、随机森林、XGBoost 和多层感知器分类器进行比较。

主要结果

MultiPPIMI 在不同条件下优于传统模型。

多元蛋白相互作用预测模型与基线模型的比较
模型组件对预测性能的贡献
不同预训练策略对化合物嵌入的影响
关键参数对模型性能的影响
基于 MultiPPIMI 的蛋白质相互作用抑制剂筛选

MultiPPIMI 在不同设置（S1-S4）下的性能与四种基线模型（随机森林、XGBoost、支持向量机和多层感知器）进行了比较。在 S1 设置下，MultiPPIMI、RF 和 MLP 表现相似且性能较高（AUROC > 0.99），但这可能反映了数据集中的偏差和过拟合，而非真实学习交互规则。在更具挑战性的 S2-S4 设置下，所有模型性能均有所下降，但 MultiPPIMI 在 AUROC 和 AUPR 方面持续超过基线模型。

研究者对 MultiPPIMI 的主要组件进行了剥离研究，发现 GraphMVP 和 ESM2 嵌入对所有任务至关重要。此外，通过比较 MultiPPIMI 的三种不同变体（单侧调节剂注意力、单侧 PPI 注意力和线性串联），结果显示双线性注意力是学习 PPIMI 交互原理最有效的方法。

通过不同的 SSL 任务对 GraphMVP 进行预训练，发现 GraphMVP-C 和 GraphMVP-G 平均表现优于无预训练的 GraphMVP。这表明不同模态在预训练阶段相互补充，增强了模型的泛化能力。研究者分析了注意力头数、隐藏维度和双线性注意力模块的核心大小等关键参数对 MultiPPIMI 性能的影响，发现模型对这些参数相对稳健。

最后，研究者使用 MultiPPIMI 对小分子库进行初步筛选，预测与 Keap1/Nrf2 的相互作用概率。通过 UMAP 图和分子对接虚拟筛选，研究者发现 MultiPPIMI 筛选出的活性抑制剂与已知活性抑制剂在化学空间上有一定重叠，表明深度学习工具能够以数据驱动的方式捕捉 PPI-调节剂交互的隐含关系。

图 1: MultiPPIMI 框架概览

该框架通过整合预训练的结构嵌入与化合物的理化属性，来表征调控因子。

蛋白质-蛋白质相互作用（PPI）的表征是通过结合 ESM2 嵌入和两条蛋白质链的理化特性而构建的。

该框架将调控因子与 PPI 表征输入至一个双线性注意力网络，进而学习分子间的互动。通过一个全连接网络，联合表征 f 被解码，以预测 PPI 靶标与调控因子互动的概率 p。

图 2: 不同数据切分设置下 5 折交叉验证的消融研究

(a) 对 MultiPPIMI 的关键组件进行消融研究。"phy"代表理化特征。
(b) 对双线性注意力模块的消融研究。

图 3: 参数敏感性分析

在随机切分设置下，对 MultiPPIMI 的关键参数进行了 5 折交叉验证测试。

图 4: UMAP 可视化分析

(a 和 b) 使用 UMAP 技术在二维空间中展示(a) MACCS 指纹和(b) USRCAT 指纹的分布（紫色：预测的抑制剂；绿色：活性抑制剂）。
(c) 展示了 Keap1 蛋白与参考化合物（PDB ID: 4XMB）的结合构象，及使用分子对接技术发现的命中化合物的结合构象。

表 1 不同数据切分设置下 5 折交叉验证的性能比较（均值 ± 标准偏差）

表 2 使用不同预训练任务的 MultiPPIMI 及其变体的 AUROC 比较

结论

🧬 MultiPPIMI 集成了多种模态表征
🔍 应用双线性注意力网络进行局部交互学习
📊 优于基准模型，特别是在冷启动场景

作者团队将调制剂和蛋白质相互作用靶标的多模态表征（如结构嵌入和物理化学属性）整合到 MultiPPIMI 中，以捕获它们的多样性。该模型利用双线性注意力网络学习靶标和调制剂间的局部交互，从而提取普遍的交互规则。

系统评估显示，与基线模型相比，MultiPPIMI 在常见的冷启动场景中表现更佳，尤其是在现实世界应用中遇到的挑战性情境。

研究结果强调了化合物嵌入的多模态预训练在提升分子对接预测中的重要性，尤其是在实现健壮的分布外概括方面。

案例研究表明，深度学习工具有助于促进基于分子对接的虚拟筛选 PPI 抑制剂。与传统基于物理规则的方法不同，深度学习工具能以数据驱动方式捕获 PPI-调制剂交互的隐含关系，为新型 PPI 抑制剂的识别提供了不同的视角。

然而，MultiPPIMI 通过串联两个蛋白链的特征来高维表征 PPI 靶标，存在两个局限性：

(i)随着训练集的增长，可能增加计算成本；
(ii)可能忽略对 PPI 调节和模型可解释性至关重要的热点或界面信息。

未来研究中，作者将探索更有效的特征融合策略，以减少维度同时保留关键信息。此外，将利用 PPI 靶标的 3D 结构信息，并结合深度分子生成模型，以发现新型 PPI 调制剂。

参考资料:

Sun, H., Wang, J., Wu, H., Lin, S., Chen, J., Wei, J., Lv, S., Xiong, Y., & Wei, D.-Q. (2023). A Multimodal Deep Learning Framework for Predicting PPI-Modulator Interactions. Journal of Chemical Information and Modeling, 63(23), 7363–7372. https://doi.org/10.1021/acs.jcim.3c01527

— 完 —

点击这里👇关注我，记得标星哦～