当前位置:首页|资讯|机器学习

Npj Comput. Mater.:基于机器学习方法的通用混合分子体系力场的训练策略及其评估

作者:新威智能发布时间:2023-11-01


原创声明:本文为【新威智能】原创文章,转载及相关事宜请联系小智(微信号:nwMobi

背景介绍

在分子模拟的发展方面,机器学习为以从头计算为基础的高精度模拟提供了一个可靠的途径,使得大尺度和长时间尺度的模拟成为了可能。目前,机器学习方法已经成功应用于孤立分子、无机固体以及小分子液体的模拟,其中方向性分子内的相互作用占主导地位,并且相互作用是均匀的。然而,在分子混合物体系中,由于分子内和分子间相互作用之间存在着大的尺度分离,导致分子间环境呈现异质性,为分子模拟带来进一步的挑战。

分子液体的许多重要性质(如密度、粘度和介电常数),都取决于分子间的受力。因此,机器学习模型在分子内和分子间尺度上获得良好的准确性非常重要。许多研究已经展示了水和水溶液、甲烷、离子液体以及最近的电解质溶液的机器学习势能。这些分子系统建模的标准方法是为分子内和分子间的贡献创建单独的力场。这种方法受到经典力场的启发,并且很好地解决了尺度分离的问题。然而,在分子在模拟过程中发生变化的反应性系统中,这种近似方法会失效。因此,如何开发出一个准确而稳健的分子液体混合物的机器学习力场,而不显式进行尺度分离?特别地,这些模型能否产生长而稳定的分子动力学轨迹,并重现参考方法的热力学性质?实际上,在总损失函数上的良好拟合结果在分子内是准确的,但在分子间相互作用方面的准确性较差。最近的机器学习建模工作已经发展出处理长程静电相互作用的策略,这在界面、分子簇和气相中非常重要。

文章简介

在这项工作中,作者开发了一个针对二元溶剂乙烯碳酸酯/乙基甲基碳酸酯(Ethylene Carbonate/Ethyl Methyl Carbonate,EC:EMC-3:7 M)的机器学习力场,该溶剂是标准LP57电解质的关键组成部分(1M LiPF6 in EC:EMC (3:7 M) < 10 ppm H2O, BASF)。这种组合包含了环状和线性碳酸酯的混合物,因为它们具有极大偶极矩的环状碳酸酯互补的性质,可以有效解离盐类,而线性碳酸酯具有更高的运动性,并改善离子扩散。由于机器学习力场缺乏解析形式(如库仑、Lennard-Jones势),然而作者通过迭代训练和仔细测试分子内和分子间性能,并构建了多样化的训练集,重现了分子间相互作用的基础动力学,准确地描述EC:EMC二元溶剂液体在各种组成范围内的性质,解决了所有凝聚相分子系统中普遍存在分子内和分子间相互作用之间尺度分离的问题。更重要的是,作者这篇文章中得出的结论也同样适用于其他分子系统这为未来开发更普适的全反应力场铺平了道路。

相关研究成果以“Machine learning force fields for molecular liquids: Ethylene Carbonate/Ethyl Methyl Carbonate binary solvent”为题,发表在材料科学领域的国际著名期刊 npj computational materials 上。 

图文解读

图1. 空腔的不稳定性

 A、B分别显示了在NVE和NPT系综中进行GAP-MD模拟的势能和温度;C显示了在NPT系综中四个不同的GAP模型中密度的演变,揭示了轨迹的不稳定性并形成空腔(绿色阴影区域),这个问题在所有基于OPLS生成的训练集上训练的GAP模型中都存在,并且与模型的超参数选择无关

图2. 迭代训练过程和GAP-MD密度变化

连续的迭代(从左到右)过程中48-分子结构在不同温度下的GAP-MD轨迹(A),以及在温度为400K下分子密度的演变(B),顶部的弯箭头表示模型的关键因素演化中重要的改进;C显示了不同模型之间每个GAP-MD轨迹的最后80ps中提取的密度分布,结果显示了在相同热力学条件下,不同的起始结构的可重复性(顶部),温度依赖性(中部)以及对分子组成的依赖性(底部)。

 图3. 从头计算的二聚体相互作用势能

A显示了在PNO-LCCSD(T)-F12理论水平上,EC2、EMC2和EC1EMC1二聚体的相互作用势能曲线;B-D分别显示了使用四种不同的XC泛函计算得到的EC2、EMC2和EC1EMC1二聚体的相互作用势能,包括有和没有分散校正,并给出了参考的PNO-LCCSD(T)-F12结果。

 图4. 500K下GAP-MD和AIMD在EC:EMC(3:7 M)体系中比较

A、B显示了ρ=0.95 g·cm-3时分子内部径向分布函数(C-O和H-C);B放大显示了较长范围的分子结构;

C显示了不同密度下的C-O分子间径向分布函数;D显示了在ρ=0.95 g·cm-3时速度自相关函数(VACFs);

E、F显示了VACF傅立叶变换后的振动态密度(VDoS),其中高频峰表示C-H键的振动;

G显示了在500K和不同密度下体系在NVT系综中的压力分布;

H显示了不同模型的平衡压力随密度的变化趋势,并拟合了Murnaghan-Tait状态方程(EoS),在零压下的截距用垂直虚线标记,而在GAP-MD过程中NPT系综模拟的平衡压力用十字标记标记;I显示了液态状态的分子动力学模拟中能量的分布(类似于G);

J显示了通过能量波动计算的等体积比热CV。

图5. PBE-D3计算与实验的比较

A、B分别显示了在300K和350K下使用Gen16/DTS计算的包含1000原子的分子体系在1纳秒过程中GAP-MD模拟结果;C显示了参考文献中不同组成和温度下的实验密度值(加号)以及本研究的实验数据(三角形),垂直虚线表示GAP-MD模拟的精确分子组成(与其他面板一致的颜色),其中插值数据记录在D中;D将GAP-MD的密度(圆圈)、C中插值的实验密度(加号和三角形)以及来自参考文献的纯EC的附加数据(方块)的比较。 

图6. 分子内部/外部的分离误差

A说明了两种分解过程:分子间贡献是分子内和总体分量之间的差值,体系受力也是平移、旋转和振动分量的总和;B、C显示了针对两种不同的GAP模型(Gen10/DS和Gen11/DS)分离为内部/外部贡献的DFT-GAP力相关图。 

图7. 刚性分子的体积扫描

A展示了按分子结构类型标记的Gen16训练数据集的K-PCA结果:液态结构(粉色)、体积扫描(黄色)和孤立分子(浅绿色);B显示了体积扫描示意图;C显示了EC:EMC(3:7 M)的能量-体积曲线,该曲线使用了DFT和不同的GAP模型进行计算。 

图8. 分子组成

 

A展示了Gen16训练集中C1/EC碳原子的K-PCA结果;B展示了

—GAP-MD轨迹中目标组成

的典型局部环境分布;C、D展示了使用DFT和不同的GAP模型获得的两种不同组成的一系列体积扫描结果,Gen5+IM/DS和Gen6+IM/DS是基于Gen5和Gen6训练集进行拟合,并加入了OPLS孤立分子数据,插图说明了相应的分子组成:EC(橙色)和EMC(青色)。 

 图9. GAP模型的优化

A展示了在500 K和目标成分下进行的12个分子Gen15/DS-MD模拟;B使用DFT和Gen15/DTS计算分子内和分子间的势能;C展示了Gen15/DS和Gen15/DTS在40个结构测试集(包括B中的15个结构)上的DFT-GAP分子间势能和受力的相关性图;D展示了在目标成分下进行的体积扫描中一个分子所经历的分子间质心力。

总结与展望

在这项工作中,作者展示了一个可通用的机器学习训练过程,并将其用于EC:EMC二元溶剂体系训练,并指出了开发收敛的机器学习模型所面临的关键挑战。作者通过与大量从头算分子动力学结果进行比较验证,并且与实验值的密度预测进行比较来验证训练的最佳模型,结果发现在固定数据集上拟合的机器学习力场在分子动力学中是不稳定的,特别是在NPT系综模拟中,密度波动对于准确描述分子间相互作用非常敏感;分子内和分子间相互作用具有不同的尺度和维度,这使得机器学习建模变得复杂,作者开发了一系列方法(如刚性分子体积扫描和分子内/分子间误差分离)来评估势能并提高其在相应分子间尺度上的性能;同时作者证明一个用于模拟目标分子组成的势能仍然必须要在所有组成上进行训练,通过扩展数据集,才可以确保训练集中均匀表示所有局部分子环境;此外作者进一步展示了使用SOAP描述符时,需要仔细选择超参数来捕捉分子内和分子间相互作用,作者通过优化径向基函数和稀疏集,以实现所需的平衡,从而在两个尺度上表现良好;最后作者的机器学习策略可以推广到更复杂的与电池相关的系统,例如电解质(溶剂+盐)和溶剂-电极间相(SEI),这项工作将有助于指导未来在这些系统中的机器学习力场建模。



聚焦电化学、储能、材料领域

更多大咖报告/顶刊动态/资源干货

/科研招聘/学术会议 码上免费看




Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1