微软华人领衔AI²BMD登Nature，AI生物分子模拟双突破，继AlphaFold后又一里程碑

作者：新智元发布时间：2024-11-07

一个月前，诺贝尔化学奖颁给了AlphaFold，给全世界带来了一场认知地震。

人们开始意识到，近年来，AI在解析蛋白质结构与设计方面的应用进展迅速。凭借AlphaFold和其他前沿算法，研究人员能够以惊人的速度预测和分析蛋白质的三维结构，破解了这个长期以来困扰生物学界的难题。

如今，AI在静态晶体蛋白质结构的预测上已达到实验精度——这是一个巨大的突破。但它的潜力远不止于此。科学家们正努力将AI的力量拓展至动态表征和分子相互作用的模拟领域。

最近，微软研究院开发的AI²BMD（AI-based ab initio biomolecular dynamics system，基于AI的从头算生物分子动力学系统）在Nature上发表，这一进展代表着在分子动力学模拟领域的显著突破。

论文地址：https://www.nature.com/articles/s41586-024-08127-z

效率精度两不误

生物世界的本质在于分子及其相互作用的动态变化。理解生物分子的动态和相互作用对于解读生物过程的机制以及开发生物材料和药物至关重要。然而，通过实验捕捉这些真实的运动几乎是不可能的。

生物分子动力学（MD）模拟是一种结合物理定律和数值模拟的方法，旨在应对理解生物分子动态的挑战，其有效性依赖于模拟的精度和效率。

MD模拟大致可以分为两类：经典MD和量子力学。

经典MD侧重于模拟的效率。经典MD采用了对分子系统的简化表示，能够在较长时间的构象变化上实现快速模拟。该方法于2013年获得诺贝尔奖。不过，尽管速度快，经典MD的准确性却相对较低。

量子力学则侧重于模拟的精度。量子力学方法如密度泛函理论（DFT）提供了从基础原理出发的精确计算。DFT在1998年获得诺贝尔奖，但其计算成本过高，难以处理大型生物分子系统。

为此，微软研究院一直在开发高效的方法，目标是实现具有从头算精度的生物分子模拟。经过四年的研究，AI²BMD诞生了，它能够以从头算精度高效地模拟大型生物分子，真正实现了效率精度两不误。

与标准模拟技术相比，它在生物分子模拟中实现了一个此前难以达到的精度与计算成本的平衡——AI²BMD在精度上超越了经典模拟，但其计算成本远低于DFT的要求，速度上更是快了几个数量级。

这一方法有望为生物分子建模，尤其是在蛋白质-药物相互作用等需要高精度的场景中，提供新的动力。

基于AI的从头算生物分子动力学模拟

AI²BMD能够高效地以从头算精度模拟各种全原子蛋白质，并通过极化力场明确模拟溶剂环境。

AI²BMD的流程图

AI²BMD采用了一种通用的蛋白质分片方法，将蛋白质分割为重叠的单元，从而创建了一个包含2000万快照的数据集，这是DFT级别中规模最大的数据库。

在该研究团队此前设计的ViSNet的基础上，他们使用机器学习训练了AI²BMD的势能函数。ViSnet是一种通用分子几何建模基础模型，已在《Nature Communication》上发表，并已集成到PyTorch Geometry库中。

AI²BMD利用基于ViSNet的势能函数，在每一步模拟中计算蛋白质的能量和原子力，达到从头算的精度。

通过高效的AI²BMD系统，进行了几百纳秒的动力学模拟，展示了其高效探索肽和蛋白质构象空间的能力。在这一过程中，AI²BMD推导出了与核磁共振实验一致的精确3J耦合值，并展示了蛋白质的折叠和展开过程。

通过对动力学和热力学的综合分析，AI²BMD在蛋白质折叠自由能等方面表现出与实验数据的高度一致性，同时展现了与经典MD不同的现象。

蛋白质分片方法

蛋白质由20种氨基酸构成，每种氨基酸都有一个通用的主链（由Cα、C、O、N和H组成）和一个不同的侧链（称为R基）。

二肽是指在其N端和C端分别封端了Ace和Nme基团的氨基酸。鉴于氨基酸是蛋白质的基本单元，这些二肽便被作为分片的基本单元。

二肽的结构

该研究团队基于二肽设计了一种通用的蛋白质分片方法，并据此训练了AI²BMD势能函数，从而确保了对所有蛋白质的泛化能力。

在该方法中，采用滑动窗口技术对多肽链进行切割，因此Ace-Nme片段充当两个相邻二肽之间的重叠区域。

对于多肽链的末端Cα原子，会根据其连接的C-H键长和Cα的连接方向，为其添加额外的氢原子。如果第一个或最后一个氨基酸是甘氨酸，则仅根据C–H键长添加一个连接到Cα的氢原子。如果下一个氨基酸是脯氨酸，则还根据N–H键长添加一个连接到N的氢原子，其中该N与Cδ相连。

然后，为了精确调整氢原子的位置，采用有限记忆Broyden-Fletcher-Goldfarb-Shanno拟牛顿算法来优化添加的氢原子的位置。其它部分则保持不变。

通过蛋白质分片方法，所有蛋白质可以转换为21种蛋白质单元（即20种二肽和1个Ace-Nme），这大幅减少了蛋白质单元的特定类型数量，便于数据集构建和模型训练，帮助探索完整的构象空间，避免了势能面上的空白区域，从而提升了MD模拟的泛化性、效率和稳健性。

蛋白质单元数据集

AI²BMD蛋白质单元数据集的生成过程涉及对蛋白质的基本结构单元——二肽——进行全面的构象采样。

首先，生成了初始的20种二肽和1个Ace-Nme单元，并通过旋转关键化学键（称为二面角）来捕获不同的分子形态。

每一种构型经过几何优化，确保结构合理后用于后续的从头算分子动力学（AIMD）模拟。

在模拟中，研究人员采集了大量的分子形态，并重新计算每种构型的能量和作用力，以用于机器学习模型的训练。

整个数据集涵盖了约2000万个构象，全面捕获了蛋白质单元的构象空间，为AI²BMD提供了可靠的数据支持，以实现高效而准确的分子模拟。

ViSNet作为AI²BMD的势函数

ViSNet是一种通用的几何深度学习模型，能够以原子坐标和原子序数为输入，预测势能、原子力以及多种量子化学性质。

如上图a中所示，ViSNet模型由一个嵌入块和多个堆叠的ViSNet块组成，最后接一个输出块。原子序数和坐标输入嵌入块，随后进入ViSNet块以提取和编码几何表示。这些几何表示随后通过输出块用于预测分子的能量和力。

上图b中展示了ViSNet块的结构，包括一个消息块和一个更新块。这些模块协同工作，构成了称为ViS-MP的向量标量交互消息传递机制。通过ViS-MP传递的丰富几何信息由运行时几何计算模块以线性复杂度提取。

对于每种蛋白质单元，ViSNet被训练为一个能量守恒的势能模型，能够通过预测的势能梯度导出原子间的作用力。

研究人员将蛋白质单元数据集随机分为训练集、验证集和测试集，并在不同类型的蛋白质上进行了训练和验证。训练时使用了多种优化技术来提高模型的准确性和稳定性，并利用了GPU集群进行高效的训练。

AI²BMD模拟程序

为了使用AI²BMD的势能进行模拟，该研究团队设计了一个基于原子模拟环境的AI驱动MD模拟程序。该模拟程序支持云环境，可以将计算结果定期保存到云存储，以应对长时间计算中可能出现的断点。

程序启动时，初始蛋白质结构被输入到预处理模块，在该模块中添加溶剂和离子，并对结构进行弛豫。

然后，整个模拟系统进入MD循环，即程序的核心逻辑组件。在MD循环的每次迭代中，蛋白质首先通过蛋白质分片模块被分解为片段，随后被分配到不同的计算服务器上进行能量和力的计算。

分片后的蛋白质片段会被工作调度器分配到不同的服务器上。用户可以根据系统规模和计算需求，调整调度策略，以最大化GPU的利用率，或平衡各GPU上的计算负载。

分片后的蛋白质片段和溶剂原子以异步方式发送到不同进程中的计算服务器。其中，ViSNet服务器负责基于AI的蛋白质片段计算，溶剂服务器负责溶剂分子的计算。

各服务器完成计算后，能量和力的结果会汇总并用于更新整个系统。

MD模拟的大突破

AI²BMD在分子动力学（MD）模拟领域实现了显著的突破，具体体现在以下几个方面：

（1）从头算精度：AI²BMD引入了一种可推广的「机器学习力场」，即一个机器学习模型，用于模拟原子和分子间相互作用，实现了全原子蛋白质动态模拟的从头算精度。

不同蛋白质在AI²BMD与分子力学（MM）之间能量计算误差的评估

（2）解决泛化问题：AI²BMD首次解决了机器学习力场在蛋白质动态模拟中的泛化难题，展示了多种蛋白质的稳健从头算MD模拟。

（3）通用兼容性：AI²BMD将量子力学（QM）建模从小的局部区域扩展到整个蛋白质结构，且无需任何蛋白质的先验知识。这一突破消除了QM和MM计算之间的潜在不兼容性，同时加速了QM区域的计算数个数量级，使得全原子蛋白质的近似从头算计算成为可能。因而，AI²BMD为众多后续应用铺平了道路，为复杂生物分子动态表征提供了全新的视角。

（4）速度优势：AI²BMD比DFT和其他量子力学方法快了几个数量级，支持含有超过一万个原子的蛋白质的从头算计算，使其成为跨学科领域中最快的AI驱动MD模拟程序之一。

AI²BMD、DFT及其他AI驱动模拟软件的时间消耗比较

（5）多样的构象空间探索：在AI²BMD和MM进行的蛋白质折叠与解折模拟中，AI²BMD能够探索更多MM无法检测的构象空间。因此，AI²BMD在药物-靶点结合、酶催化、变构调控、固有无序蛋白等过程中，提供了更多研究蛋白质灵活运动的机会。这种能力更贴合湿实验数据，并为生物机制检测和药物开发提供了更全面的解释和指导。

AI²BMD从展开结构开始折叠Chignolin蛋白，比分子力学（MM）达到更小的能量误差，并探索了MM无法检测到的更多构象区域

（6）实验一致性：AI²BMD优于QM/MM混合方法，并在包括J耦合、焓、热容、折叠自由能、熔点温度和pKa计算在内的不同生物应用场景中，表现出与湿实验的高度一致性。

AI²BMD的潜能

AI²BMD提出的框架旨在解决机器学习力场在应用中的精度、稳健性和泛化局限。

通过考虑蛋白质的基本结构——即氨基酸链段，AI²BMD在模拟不同蛋白质系统时具备高度的通用性、适应性和多功能性。这种方法提升了能量和力的计算精度，以及动力学和热力学性质的估算精度。

AI²BMD可以在解决科学难题方面发挥作用，并在药物发现、蛋白质设计和酶工程等生物医学研究领域推动新的发展。

在2023年首届全球AI药物研发大赛中，AI²BMD成功预测出一个可与SARS-CoV-2主蛋白酶结合的化合物。其精准的预测超过了所有其他参赛者，夺得冠军，展示了其在加速现实世界药物研发方面的巨大潜力。

作者介绍

Tong Wang

Tong Wang是微软研究院AI4Science部门的高级研究员。他获得清华大学博士学位，并在哈佛大学进行过博士访问研究。

他的研究专注于算法设计及其在分子动力学模拟、量子模拟、计算机辅助药物发现和蛋白质结构预测中的应用。

在《Nature Machine Intelligence》《Nature Communications》《Cell Research》等高影响力期刊上，Wang作为第一作者和通讯作者发表了一系列论文，并持有多项中国和美国专利。他同时是Nature系列期刊的审稿人及ACS出版社的荣誉审稿人。

Wang曾带领团队赢得首届全球AI药物研发大赛和NIPS2022 OGB大规模挑战赛的冠军。此外，他还是中国生物信息学学会的委员。

Bin Shao

Bin Shao是微软亚洲研究院的高级首席研究经理，领导计算生物学组。他于2010年7月从复旦大学获得博士学位后加入微软。

他的研究兴趣包括计算生物学、计算化学、分子动力学、机器学习以及并行图处理。其研究成果已在顶级会议和期刊上发表。

由Bin及其团队开发的Microsoft Graph Engine，支持着众多微软产品和服务的运行，例如Microsoft Satori知识图谱、必应搜索、MSN、Xbox和认知服务。

参考资料：

https://www.microsoft.com/en-us/research/blog/from-static-prediction-to-dynamic-characterization-ai2bmd-advances-protein-dynamics-with-ab-initio-accuracy/

本文来自微信公众号“新智元”，作者：新智元，编辑：静音，36氪经授权发布。