蛋白质领域的ChatGPT，首次使用对比学习准确预测酶功能

作者：机器之心发布时间：2023-04-09

编辑 | 紫罗

蛋白质功能注释高度依赖于计算注释方法。尽管目前已经开发了许多计算工具，然而，大多数现有工具无法准确预测功能注释。因此，蛋白质的功能注释仍然是蛋白质科学中的一个巨大挑战。

近日，来自伊利诺伊大学厄巴纳香槟分校（UIUC）赵惠民（Huimin Zhao）团队，开发了一种名为「启用对比学习的酶注释」（CLEAN，Contrastive Learning–enabled Enzyme Annotation）的机器学习算法，可以根据酶的氨基酸序列预测酶的功能，即使这些酶尚未被研究或了解甚少。

研究人员表示，这款名为 CLEAN 的 AI 工具在准确性、可靠性和灵敏度方面超过了最先进的工具（BLASTp）。更好地理解酶及其功能将有利于基因组学、化学、工业材料、医学、制药等领域的研究。

「就像 ChatGPT 使用书面语言的数据来创建预测文本一样，我们正在利用蛋白质的语言来预测它们的活动，」研究负责人、UIUC 化学和生物分子工程教授赵惠民说。「几乎每个研究人员在处理新的蛋白质序列时，都想立即知道蛋白质的作用。此外，在为任何应用（生物学、医学、工业）制造化学物质时，该工具将帮助研究人员快速确定合成化学物质和材料所需的适当酶。」

该研究以「Enzyme function prediction using contrastive learning」为题，于 2023 年 3 月 30 日发布在《Science》上。

蛋白质功能注释面临挑战

蛋白质功能注释高度依赖于计算注释方法。然而，基于社区的蛋白质功能注释的批判性评估（CAFA）发现约 40% 使用现有计算工具自动注释的酶被错误注释。因此，蛋白质的功能注释仍然是蛋白质科学中的一个巨大挑战。特别是，未充分研究和混杂蛋白质（ promiscuous proteins）的蛋白质注释不平等阻碍了生物医学进步和药物发现。

酶学委员会 (Enzyme Commission，EC) 编号是最著名的酶的数字分类方案，它用四位数字指定酶的催化功能，即酶催化的反应类型。由于目标酶功能的实验表征通常既费力又昂贵，因此开发了许多用于酶功能注释的计算工具。它们包括但不限于基于序列相似性、基于同源性、基于结构和基于机器学习 (ML) 的方法。

其中，基于序列相似性的蛋白质基本局部比对搜索工具 (BLASTp) 是使用最广泛的工具。然而，BLASTp 等比对工具仅根据序列相似度来标注功能，导致在序列相似度较低时预测结果的可靠性较低。另一方面，几乎所有现有的 ML 模型都是基于多标签分类框架，并且受到生物学中常见的有限且不平衡的训练数据集的影响。

因此，需要一种准确性更高和 EC 覆盖率更广的工具来释放当前未表征蛋白质的潜力，并了解蛋白质功能的范围。

CLEAN 优于最先进的 ML 模型

在此，赵惠民团队开发了一个名为 CLEAN 的 ML 模型，用于酶功能预测。CLEAN 基于 UniProt 的高质量数据进行训练，将氨基酸序列作为输入，并输出按可能性排序的酶功能列表（以 EC 编号为例）。

与之前开发的将 EC 数量预测任务构建为多标签分类问题的 ML 算法不同，CLEAN 使用对比学习框架。其训练目标是学习欧几里得距离反映功能相似性的酶的表示空间。

图 1：CLEAN 对比学习框架。（来源：论文）

为了验证 CLEAN 的准确性和稳健性，研究人员进行了大量的计算机实验。此外，还向 CLEAN 提出挑战，要求其为内部收集的所有未表征的卤代酶（总共 36 个）数据库注释 EC 编号，然后进行体外实验验证的案例研究。在这些任务中，CLEAN 优于其他 EC 编号注释工具，包括 BLASTp 和最先进的 ML 模型。

「我们不是第一个使用 AI 工具来预测 EC 数量的人，但我们是第一个使用这种称为对比学习的新深度学习算法来预测酶功能的人。我们发现这种算法比其他人使用的 AI 工具要好得多。」赵惠民说。「我们不能保证每个人的产品都会被正确预测，但我们可以获得比其他两种或其他三种方法更高的准确率。」

计算和体外实验验证

研究人员通过计算和体外实验验证了他们的工具。发现该工具不仅可以预测以前未表征的酶的功能，还可以纠正被领先软件错误标记的酶，并正确识别具有两种或多种功能的酶。

首先，为了系统研究 CLEAN 的预测性能，研究人员将 CLEAN 与六种最先进的 EC 数字注释工具 [即 ProteInfer、DeepEC、BLASTp、DEEPre、CatFam 和 ECPred] 进行比较。

图 2：CLEAN 与最先进的 EC 数预测工具的定量比较。（来源：论文）

对 New-392 和 Price-149 数据集（两个未包含在任何模型开发中的独立数据集用于提供公平和严格的基准研究）的评估表明，在预测新发现蛋白质的功能方面，CLEAN 比以前开发的基于 ML 的模型更精确和可靠，尤其是那些没有已知酶功能的蛋白质。

接下来，研究人员验证 CLEAN 在使用卤化酶作为概念验证研究分配 EC 编号时的预测准确性。

卤化酶因其出色的催化剂控制选择性而越来越多地用于生物催化 C-H 功能化。这些卤化酶要么在 UniProt 中用未表征/假设的蛋白质标记，要么在文献中有相互矛盾的注释。卤化酶数据集特别具有挑战性，因为卤化酶家族尚未得到充分研究，并且数据库中只有有限数量的卤化酶可用。通过后来的专家策划和实验验证，所有 36 种卤化酶都用 EC 编号进行了保密注释。

总的来说，与其他六种常用的计算工具（例如，DeepEC 中的 ~11.1% 和 ProteInfer 中的 11.1% 到 61.1%）相比，CLEAN 实现了更好的预测精度（86.7% 到 100%）。结果表明，即使在类似的生物催化反应范围内，CLEAN 也可以区分酶的功能。

在 36 种卤化酶中，三种名为 MJ1651、TTHA0338 和 SsFlA 的酶显示出相互矛盾的功能。CLEAN 在这三种情况下预测了新的 EC 数量，表明可能会出现其他潜在功能。因此，研究人员进行了体外实验来验证这些预测。

图 3：CLEAN 对未表征的卤化酶的实验验证。（来源：论文）

研究发现 CLEAN 相对于其他常用计算工具具有更好的预测准确度，能够高质量的完成以下任务：注释未被充分研究的酶，纠正错误标记的酶，以及识别具有两个或更多 EC 数字的混杂酶。

未来将预测所有蛋白质功能

该团队正在让其他研究人员可以在线访问 CLEAN，以确定一种酶的特征或确定一种酶是否能催化所需的反应。

赵惠民表示：「我们相信 CLEAN 将成为预测查询酶催化功能的强大工具，可以极大地促进功能基因组学、酶学、酶工程、合成生物学、代谢工程和逆转录生物合成的研究。此外，通用语言模型表示加上 CLEAN 使用的对比学习工作流程可以很容易地适应其他预测任务，不限于酶活性。」

赵惠民说:「我们希望这个工具能被广泛的研究团体广泛使用。通过网络界面，研究人员只需在搜索框中输入序列，就像搜索引擎一样，就能看到结果。我们计划扩展 CLEAN 背后的 AI 来表征其他蛋白质，比如结合蛋白。希望进一步开发 ML 算法，以便用户可以搜索所需的反应，AI 将指出合适的酶来完成这项工作。我们希望预测所有蛋白质的功能，这样我们就可以知道一个细胞的所有蛋白质，更好地研究或设计整个细胞，用于生物技术或生物医学应用。」

论文链接：https://www.science.org/doi/10.1126/science.adf2465

参考内容：https://phys.org/news/2023-03-ai-enzyme-function-tools.html