Nature Communications | 基于ESMFold预测结构的几何图学习以准确预测酶功能

作者：生信宝典-陈同发布时间：2024-10-30

编译 | 王永康

审核 | 熊展坤

今天给大家分享近期发表在Nature Communications的一篇论文“Accurately predicting enzyme functionsthrough geometric graph learning on ESMFold-predicted structures”。酶在许多生物过程中都至关重要，酶委员会(EC)编号是定义酶功能的常用方法。然而，目前的EC预测方法尚未充分认识到酶活性位点和结构特征的重要性。本研究提出了GraphEC，一个基于几何图学习的EC编号预测器。

研究使用ESMFold预测结构和预训练的蛋白质语言模型，来构建一个模型来预测酶活性位点，并利用该模型来预测EC编号。通过结合同源性信息，研究采用标签扩散算法进一步改进了预测，同时预测酶的最适pH值反映酶催化的反应。实验表明，与其他最先进的方法相比，该模型在预测活性位点、EC编号和最适pH值方面具有卓越的性能。进一步的分析表明，GraphEC能够从蛋白质结构中提取功能信息，强调了几何图学习的有效性。

概要

酶通过催化多种反应，在各种生物过程中发挥着重要作用。识别酶功能对于研究代谢和疾病至关重要。酶委员会(EC)编号通常用于将酶功能表述为四位数结构，通过实验确定EC编号既费时又费钱。开发用于识别EC编号的计算方法已成为当务之急。

传统计算方法可分为基于同源性的、基于结构的和基于机器学习的方法。这些方法严重依赖序列相似性，这在缺乏相似序列的情况下限制了它们的覆盖范围。为了减轻相似序列和模板的限制，已经开发了基于机器学习的方法，但受到手工制作的特征的很大影响，这些方法不适应快速扩展的酶序列。近期深度学习方法在酶功能注释中取得了成功。然而这些方法仍然存在两个局限性，它们只使用蛋白质序列而不结合蛋白质结构，从而丢失了结构所暗示的关键特征；在酶功能分析中没有采用有关酶活性位点的关键信息。

由于缺乏天然结构，现有方法不能充分利用蛋白质结构中的信息。借助预测结构，几何图学习可以有效地提取结构信息；为了增强几何图学习，可尝试使用无监督语言模型来整合信息序列嵌入。此外，酶活性位点通常位于酶的表面，它们在进化过程中表现出高度的保守性，并显著决定了酶的功能。因此在分配EC编号时考虑酶的活性位点显然是非常有益的。这凸显了对快速准确的酶活性位点预测器的需求。

在本研究中，作者提出了基于几何图学习的EC注释(GraphEC)，这是一种基于预测的蛋白质结构和酶活性位点的酶功能预测模型。在活性位点的指导下，GraphEC通过几何图学习与ESMFold预测的蛋白质结构进行训练。为了提高模型性能，通过预训练语言模型生成信息丰富的序列嵌入以增强节点特征。此外，研究还采用了标签扩散算法，利用同源性信息进一步增强预测。研究进一步将模型扩展到酶最适pH预测，这可以协助实验。通过对几个独立测试的全面比较，该模型在预测活性位点、EC编号和最适pH方面优于所有最先进的方法。

数据

为了预测酶活性位点，研究收集了八个酶数据集并从中构建了新的训练集和测试集，总共包含987种蛋白质。对于EC编号预测，研究从UniProt中提取了超过220,000个酶序列，并通过70％聚类构建了大小为74,487的酶EC编号识别训练集。为了预测酶的最适pH，从BRENDA中收集了11,383种酶，剔除同一性>25%的相似序列后，获得4110个酶。

酶学委员会(EC)编号是一种数字系统，用于根据酶催化的反应对酶进行分类。每个EC编号包含四位数字，根据酶的催化反应类型和特定底物65对酶进行分层分类。本研究从训练集中收集了5106个EC编号，并定义了一个长度为5106的标签，其中每个位置对应一个特定的EC编号。

模型架构

特征层

对于局部坐标系，其节点特征可描述为两个残基内部的原子质心，以及残基之间的距离、方向、角度特征，以充分描述骨架的几何信息。同时为了增强节点特征的信息，采用预训练语言模型ProtTrans从序列中提取丰富的蛋白嵌入。对于边缘特征升级了残基ij之间的距离、方向、方向特征。

几何图学习

从特征化层获得的节点和边特征被输入到多个GNN层进行几何图学习，为了学习多尺度残差相互作用，分别在节点、边和全局上下文级别使用节点更新、边更新和全局上下文注意模块。

label diffuion

为了提高EC编号的初始预测准确率，在测试阶段采用了标签扩散算法。首先，使用DIAMOND找到与测试序列相似的训练集中的序列。其次，基于蛋白质对的序列同一性，建立同源性网络（表示测试集中蛋白质数量与训练集中命中数之和）。为了衡量一对蛋白质在同源网络中属于同一社区的程度，定义Jaccard相似性矩阵如下：

酶活性位点预测（GraphEC-AS）

由于酶活性位点在酶功能中起着重要作用，首先预测活性位点，然后再确定EC编号。从几何图学习中获得的几何嵌入被输入到MLP层，为每个残基分配一个分数，表明其属于活性位点的可能性。使用这些分数，为每个残基分配一个权重以表示其重要性级别。

EC 编号的识别（GraphEC）

在GraphEC-AS生成的权重分数的指导下，提出了一种EC预测器。先前生成的几何嵌入进一步输入到注意层，其中注意功能与多头注意机制并行执行。通过整合多头注意和权重分数，残基级信息通过池化层聚合到蛋白质级。池化后，获得初始预测，并使用标签扩散算法通过DIAMOND增强预测。标签扩散算法用于提取同源信息。标签扩散之后，生成最终的预测值以将EC编号识别为多标签分类任务。

酶最适pH预测（GraphEC-pH）

由于酶需要一定的环境条件才能发挥其催化活性，进一步预测了酶的最佳pH值。pH值分为三类：酸性（小于5）、中性（5至9之间）和碱性（大于9）。为了获得预测酶最佳pH值的特征，利用多头注意力来处理从几何图学习中得到的几何嵌入。然后使用MLP层来预测最佳pH值。通过将先前对酶功能的识别与当前对pH值的预测相结合，可以提供更有效的方法来指导实际实验。

实验结果

如下图所示，GraphEC-AS在五倍交叉验证中的AUC为0.9635，证明了该模型的稳健性。六种竞争方法的结果位于GraphEC-AS和BiLSTM的ROC曲线之间，表明几何信息的重要性。在MCC、召回率和精确度方面，本研究的方法始终表现最佳。GraphEC-AS学习到的几何嵌入可以清楚地区分活性位点和非活性位点，这证明了几何图学习能够识别它们之间的关键区别。使用TM-align评估ESMFold预测结构质量对TS124的影响，超过85%的蛋白质的TM分数大于0.8，这反映ESMFold预测结构的高质量。GraphEC-AS识别了所有四个活性位点，而BiLSTM仅检测到H149。与H149相比，其余活性位点在序列上的位置较远，但在结构上接近。这些结果表明GraphEC-AS能够学习局部结构信息。

在预测活性位点的指导下，GraphEC被提出用于识别酶EC编号。与四种最先进的EC编号预测器相比，GraphEC在各个指标中都表现出优异的性能。

GraphEC是一种基于几何图学习的EC数预测器，预测的活性位点可以指导学习，因为它们在酶功能中起着至关重要的作用。基于ESMFold预测的结构，几何图学习可以有效地提取结构信息，这在缺乏同源性信息时尤其必要。此外，标签扩散算法和ProtTrans嵌入可以提高模型性能。对于酶，可以全面分析EC数、活性位点和最适pH。

由于天然结构的局限性，目前的EC编号预测方法并未充分利用蛋白质结构中的信息。受益于ESMFold快速而精确的结构预测，GraphEC利用几何图学习提取重要的结构信息并超越了最先进的方法。实验证明了该模型在预测活性位点、EC编号和最适pH值方面的有效性。此外，事实证明，即使在没有同源性信息的情况下，GraphEC也能够从酶结构中提取功能信息，这强调了几何图学习的有效性。

参考文献

https://www.nature.com/articles/s41467-024-52533-w