科学家开发生成式AI模型，可准确预测蛋白质-配体复合体结构

作者：DeepTech深科技发布时间：2024-04-01

现如今，深度学习已经在结构生物学领域取得突破性进展。

由谷歌 DeepMind 团队开发的 AI 系统 AlphaFold，是一个标志性的工作。它把包括语言模型、视觉模型、生物学的归纳偏置等在内的建模思想，整合到一个大模型中，成功实现蛋白质结构预测。

即便如此，AlphaFold 依然存在较大的局限性。

具体来说，该系统虽然可以良好地预测整个人类蛋白质组的蛋白单体结构，但如果想借助它在精准医疗、药物设计等领域产生根本上的影响，还需要能够预测蛋白-蛋白之间和蛋白-小分子配体复合物之间的相互作用，以及这些作用能给其三维结构带来的影响，而这却是最新版本 AlphaFold2 尚不能做到的。

为了解决上述局限，近期，来自美国加州理工学院、英伟达和美国 AI 制药公司 Iambic Therapeutics 等团队的研究人员，开发了一款生成式 AI 模型 NeuralPLexer，能够端到端地实现对蛋白质-配体复合物结构的直接预测。

（来源：Nature Machine Intelligence）

近日，相关论文以《使用多尺度深度生成模型预测状态特异性蛋白质-配体复合物结构》（State-specific protein–ligand complex structure prediction with a multiscale deep generative model）为题在 Nature Machine Intelligence 上发表[1]。

图丨相关论文（来源：Nature Machine Intelligence）

加州理工学院博士研究生乔卓然（现为 Iambic Therapeutics 主任研究科学家）是第一作者兼共同通讯作者，英伟达机器学习研究总监阿尼玛·阿南德库玛（Animashree Anandkumar）和 Iambic Therapeutics 联合创始人兼 CEO 霍马斯·F·米勒三世（Thomas F. Miller III）担任共同通讯作者。

图丨乔卓然（来源：乔卓然）

在该模型中，研究人员主要把蛋白和小分子的相互作用分割成两个层次。

第一层是语义层，用于预测蛋白和小分子相互作用过程中的接触图。

“通俗地理解就是，小分子在引入之后，对蛋白内部长距离的相互作用的影响。我们提出了一个高效的、基于高阶注意力机制的架构来学习这些长程相互作用。”乔卓然表示。

第二层则是根据语义约束，基于扩散模型对小分子和蛋白结合结构的三维坐标进行预测。

“像现在的文生图、文生视频等模型，其实是先通过一个大语言模型对用户给出的文本语言进行语义提取，然后再通过更细粒度的扩散模型来输出图像细节等用户所关心的最终结果。

NeuralPLexer 与这种思路类似，也是通过物理多尺度的分解，完成对结构的预测。”乔卓然解释道。

也就是说，用户只需向 NeuralPLexer 输入目标蛋白的一级序列和小分子的化学结构，模型就能端到端地处理这些信息，先获取其中有关语义的约束，再通过扩散生成得到整个三维结构。

值得一提的是，用户不用掌握小分子化学结构的任何三维信息，只要知道关于化学原子和化学键的信息即可。

并且，由于该模型属于生成式模型，因此得到的三维结构也包含了多个动态结构的集合。

从效果上看，NeuralPLexer 比现有的方法更加先进。

首先，从定性方面看，该模型在小分子结合以后对蛋白功能产生影响的体系上，取得了比 AlphaFold 更好的全局结构预测精度。与此同时，该模型可以实现在非功能态和功能态之间，对于小分子有不同的选择性。

“我们可以通过改变模型的输入，将这几个状态的最终构象区分开。这是 AlphaFold 不能完成的。”乔卓然说。

其次，从定量方面看，研究人员将该模型和一些物理分子对接方法以及 AI 方法进行比较，发现前者能取得最高达到 60% 的提升。

乔卓然解释道：“提升的原因在于，大部分物理方法都需要提前了解蛋白在结合态的构象，而 NeuralPLexer 原则上仅仅通过这个序列和得到的模板结构就能进行预测，不需要掌握那些必须通过实验才能得到的信息。”

除此之外，该团队还提出了一种模拟退火随机微分方程的扩散模型采样算法，帮助 NeuralPLexer 在蛋白结构生成更接近于晶体结构的分布。

据乔卓然介绍，该研究开始于 2021 年末，到 2023 年初推出 NeuralPLexer。在 2023 年 10 月，他们又发布了在方法学上拥有明显改进的 NeuralPLexer2。

新版本不但有效提高了对新目标的准确预测性，而且大大拓展了模型的适用范围，涵盖了几乎所有类型的生物分子复合物结构。

并且，相较于 AlphaFold2，该版本模型的推理速度能够达到比前者快 50 倍左右的效果。

显而易见，NeuralPLexer 系列的模型助力加速药物发现领域的化合物设计过程，为该领域带来了有效的技术革新。

参考资料：

1. Qiao, Z., Nie, W., Vahdat, A. et al. State-specific protein–ligand complex structure prediction with a multiscale deep generative model.Nature Machine Intelligence 6, 195–208 (2024). https://doi.org/10.1038/s42256-024-00792-z

https://www.iambic.ai/post/transforming-computational-drug-discovery-with-neuralplexer2

运营/排版：何晨龙