AI蛋白质诺奖后再登Nature，第一性原理级精度，微软亚研院4年之作

作者：量子位发布时间：2024-11-08

西风发自凹非寺

量子位 | 公众号 QbitAI

历时四年，微软亚研院AI for Science团队发布AI驱动的从头算（ab initio）生物分子动力学模拟系统。

直接登上Nature正刊。

系统名为 AI²BMD，能够高效模拟 含有10000多个原子的各种蛋白质，分辨率达到 全原子级别，近似达到从头算（第一性原理）的精确度。

且比量子力学方法中的密度泛函理论（DFT）能实现的速度快几个数量级。

AI²BMD的出现，可促进药物发现、蛋白质设计和酶工程等领域的新生物医学研究。

微软研究院院长Peter Lee亲自发帖子为自家研究做宣传：

网友们纷纷表示这项研究十分令人着迷，可能会对一些领域产生颠覆性的影响：

可能会彻底改变我们对生物学和药物发现的认知。

生物分子动力学模拟系统，AI²BMD

为便于大家理解，作者们还自撰了一篇Blog，量子位在不改变原意的基础上进行了编译整理，一起来康康AI²BMD到底长啥样。

在介绍AI²BMD之前，先来简单了解一下分子动力学模拟。

生物世界的本质在于其分子及其相互作用的不断变化。理解生物分子的动态和相互作用对于破译生物过程背后的机制以及开发生物材料和药物至关重要。然而通过实验几乎不可能捕捉这些现实生活中的运动。

此前，AlphaFold、RoseTTAFold等为代表的深度学习方法，已经实现了用实验精度预测静态晶体蛋白结构。

不过 精确地在原子分辨率下表征动态仍然是一项非常具有挑战性的任务，特别是当蛋白质发挥作用并与其它生物分子或药物分子相互作用时。

分子动力学（MD）模拟方法将物理学定律与数值模拟相结合，用于探索分子运动与其生物功能之间的关系，已经被广泛使用了几十年。

分子动力学模拟大致可以分为两类： 经典分子动力学和量子力学。

经典版本在2013年获得诺贝尔奖，强调了其在推动人类理解复杂生物系统方面的关键作用。

量子力学方法中的密度泛函理论（DFT）在1998年获得诺贝尔奖，标志着计算化学的一个关键时刻。

不过，经典分子动力学采用分子系统的简化表示，实现长时间构象变化的快速模拟速度，但准确性较低。相比之下，像密度泛函理论这样的量子力学模型提供了自下而上的计算，但对于大生物分子来说，计算成本过高。

由此，微软研究院开发出了基于AI的从头算生物分子动力学系统——AI²BMD，这也是团队四年研究成果的结晶。

AI²BMD能够高效地以全原子分辨率模拟包含超过10000个原子的各类蛋白质，达到近似从头计算（第一性原理）的精度。

相比标准模拟技术，它在生物分子模拟方面实现了前所未有的权衡：获得比经典模拟更高的精度，其计算成本虽然高于经典模拟，但比密度泛函理论（DFT）快几个数量级。

AI²BMD采用专门设计的通用 蛋白质分片方法，将蛋白质分割成重叠的单元，创建了2000万个快照的数据集，这也是迄今为止DFT层面最大的数据集。

基于团队先前设计的通用分子几何建模基础模型 ViSNet，团队用机器学习训练了AI²BMD的势能函数。然后通过高效的AI²BMD模拟系统进行模拟，在每一步中基于ViSNet的AI²BMD势能都会以从头计算的精度计算蛋白质的能量和原子力。

通过动力学和热力学的全面分析，AI²BMD与实验室数据表现出更好的一致性，例如在蛋白质的折叠自由能和不同现象方面，比经典分子动力学表现更好。

总结来说，AI²BMD在分子动力学模拟领域取得了以下几个方面的重大突破：

从头计算精度：

引入了一种可泛化的“机器学习力场”，这是一种学习原子与分子间相互作用的模型，用于具有从头算精度的全原子蛋白质动力学模拟。

解决泛化问题：

它是首个解决机器学习力场在模拟蛋白质动力学中的泛化挑战的方法，展示了对多种蛋白质进行稳健地从头算分子动力学模拟。

通用兼容性：

AI²BMD将量子力学建模从小的局部区域扩展到整个蛋白质，而且不需要对蛋白质有任何先验知识。这消除了量子力学与蛋白质的分子力学计算之间可能的不兼容性，并将量子力学区域的计算速度提高了几个数量级，使全原子蛋白质接近从头算计算成为现实。因此，AI²BMD为众多下游应用铺平了道路，提供了表征复杂生物分子动力学的新视角。