编译 | 王永康
审核 | 熊展坤
今天给大家分享近期发表在Nature Communications的一篇论文“Accurately predicting enzyme functionsthrough geometric graph learning on ESMFold-predicted structures”。酶在许多生物过程中都至关重要,酶委员会(EC)编号是定义酶功能的常用方法。然而,目前的EC预测方法尚未充分认识到酶活性位点和结构特征的重要性。本研究提出了GraphEC,一个基于几何图学习的EC编号预测器。
研究使用ESMFold预测结构和预训练的蛋白质语言模型,来构建一个模型来预测酶活性位点,并利用该模型来预测EC编号。通过结合同源性信息,研究采用标签扩散算法进一步改进了预测,同时预测酶的最适pH值反映酶催化的反应。实验表明,与其他最先进的方法相比,该模型在预测活性位点、EC编号和最适pH值方面具有卓越的性能。进一步的分析表明,GraphEC能够从蛋白质结构中提取功能信息,强调了几何图学习的有效性。
酶通过催化多种反应,在各种生物过程中发挥着重要作用。识别酶功能对于研究代谢和疾病至关重要。酶委员会(EC)编号通常用于将酶功能表述为四位数结构,通过实验确定EC编号既费时又费钱。开发用于识别EC编号的计算方法已成为当务之急。
传统计算方法可分为基于同源性的、基于结构的和基于机器学习的方法。这些方法严重依赖序列相似性,这在缺乏相似序列的情况下限制了它们的覆盖范围。为了减轻相似序列和模板的限制,已经开发了基于机器学习的方法,但受到手工制作的特征的很大影响,这些方法不适应快速扩展的酶序列。近期深度学习方法在酶功能注释中取得了成功。然而这些方法仍然存在两个局限性,它们只使用蛋白质序列而不结合蛋白质结构,从而丢失了结构所暗示的关键特征;在酶功能分析中没有采用有关酶活性位点的关键信息。
由于缺乏天然结构,现有方法不能充分利用蛋白质结构中的信息。借助预测结构,几何图学习可以有效地提取结构信息;为了增强几何图学习,可尝试使用无监督语言模型来整合信息序列嵌入。此外,酶活性位点通常位于酶的表面,它们在进化过程中表现出高度的保守性,并显著决定了酶的功能。因此在分配EC编号时考虑酶的活性位点显然是非常有益的。这凸显了对快速准确的酶活性位点预测器的需求。
在本研究中,作者提出了基于几何图学习的EC注释(GraphEC),这是一种基于预测的蛋白质结构和酶活性位点的酶功能预测模型。在活性位点的指导下,GraphEC通过几何图学习与ESMFold预测的蛋白质结构进行训练。为了提高模型性能,通过预训练语言模型生成信息丰富的序列嵌入以增强节点特征。此外,研究还采用了标签扩散算法,利用同源性信息进一步增强预测。研究进一步将模型扩展到酶最适pH预测,这可以协助实验。通过对几个独立测试的全面比较,该模型在预测活性位点、EC编号和最适pH方面优于所有最先进的方法。
为了预测酶活性位点,研究收集了八个酶数据集并从中构建了新的训练集和测试集,总共包含987种蛋白质。对于EC编号预测,研究从UniProt中提取了超过220,000个酶序列,并通过70%聚类构建了大小为74,487的酶EC编号识别训练集。为了预测酶的最适pH,从BRENDA中收集了11,383种酶,剔除同一性>25%的相似序列后,获得4110个酶。
酶学委员会(EC)编号是一种数字系统,用于根据酶催化的反应对酶进行分类。每个EC编号包含四位数字,根据酶的催化反应类型和特定底物65对酶进行分层分类。本研究从训练集中收集了5106个EC编号,并定义了一个长度为5106的标签,其中每个位置对应一个特定的EC编号。
对于局部坐标系,其节点特征可描述为两个残基内部的原子质心,以及残基之间的距离、方向、角度特征,以充分描述骨架的几何信息。同时为了增强节点特征的信息,采用预训练语言模型ProtTrans从序列中提取丰富的蛋白嵌入。对于边缘特征升级了残基ij之间的距离、方向、方向特征。
从特征化层获得的节点和边特征被输入到多个GNN层进行几何图学习,为了学习多尺度残差相互作用,分别在节点、边和全局上下文级别使用节点更新、边更新和全局上下文注意模块。
为了提高EC编号的初始预测准确率,在测试阶段采用了标签扩散算法。首先,使用DIAMOND找到与测试序列相似的训练集中的序列。其次,基于蛋白质对的序列同一性,建立同源性网络(表示测试集中蛋白质数量与训练集中命中数之和)。为了衡量一对蛋白质在同源网络中属于同一社区的程度,定义Jaccard相似性矩阵如下:
由于酶活性位点在酶功能中起着重要作用,首先预测活性位点,然后再确定EC编号。从几何图学习中获得的几何嵌入被输入到MLP层,为每个残基分配一个分数,表明其属于活性位点的可能性。使用这些分数,为每个残基分配一个权重以表示其重要性级别。
在GraphEC-AS生成的权重分数的指导下,提出了一种EC预测器。先前生成的几何嵌入进一步输入到注意层,其中注意功能与多头注意机制并行执行。通过整合多头注意和权重分数,残基级信息通过池化层聚合到蛋白质级。池化后,获得初始预测,并使用标签扩散算法通过DIAMOND增强预测。标签扩散算法用于提取同源信息。标签扩散之后,生成最终的预测值以将EC编号识别为多标签分类任务。
由于酶需要一定的环境条件才能发挥其催化活性,进一步预测了酶的最佳pH值。pH值分为三类:酸性(小于5)、中性(5至9之间)和碱性(大于9)。为了获得预测酶最佳pH值的特征,利用多头注意力来处理从几何图学习中得到的几何嵌入。然后使用MLP层来预测最佳pH值。通过将先前对酶功能的识别与当前对pH值的预测相结合,可以提供更有效的方法来指导实际实验。
如下图所示,GraphEC-AS在五倍交叉验证中的AUC为0.9635,证明了该模型的稳健性。六种竞争方法的结果位于GraphEC-AS和BiLSTM的ROC曲线之间,表明几何信息的重要性。在MCC、召回率和精确度方面,本研究的方法始终表现最佳。GraphEC-AS学习到的几何嵌入可以清楚地区分活性位点和非活性位点,这证明了几何图学习能够识别它们之间的关键区别。使用TM-align评估ESMFold预测结构质量对TS124的影响,超过85%的蛋白质的TM分数大于0.8,这反映ESMFold预测结构的高质量。GraphEC-AS识别了所有四个活性位点,而BiLSTM仅检测到H149。与H149相比,其余活性位点在序列上的位置较远,但在结构上接近。这些结果表明GraphEC-AS能够学习局部结构信息。
在预测活性位点的指导下,GraphEC被提出用于识别酶EC编号。与四种最先进的EC编号预测器相比,GraphEC在各个指标中都表现出优异的性能。
GraphEC是一种基于几何图学习的EC数预测器,预测的活性位点可以指导学习,因为它们在酶功能中起着至关重要的作用。基于ESMFold预测的结构,几何图学习可以有效地提取结构信息,这在缺乏同源性信息时尤其必要。此外,标签扩散算法和ProtTrans嵌入可以提高模型性能。对于酶,可以全面分析EC数、活性位点和最适pH。
由于天然结构的局限性,目前的EC编号预测方法并未充分利用蛋白质结构中的信息。受益于ESMFold快速而精确的结构预测,GraphEC利用几何图学习提取重要的结构信息并超越了最先进的方法。实验证明了该模型在预测活性位点、EC编号和最适pH值方面的有效性。此外,事实证明,即使在没有同源性信息的情况下,GraphEC也能够从酶结构中提取功能信息,这强调了几何图学习的有效性。
https://www.nature.com/articles/s41467-024-52533-w