研究背景
随着计算化学和机器学习技术的发展,预测小分子性质的方法越来越受到关注。然而,传统的量子力学方法需要大量的计算资源,而机器学习方法需要大量的数据。因此,东京大学Hajime Shimakawa等人提出了一种结合量子力学和机器学习的方法,称为量子力学辅助机器学习方法(QMex-ILR),用于预测小分子性质。该方法结合了量子力学和机器学习,包括图神经网络(GNN)、多层感知器(MLP)和群贡献回归(GCR)。
该方法使用了分子指纹(Molecular Fingerprint)、量子力学描述符(QM descriptors)和分子性质(Molecular property)作为描述符,并使用了线性回归(Linear regression)和非线性回归(Non-linear regression)作为回归方法。该方法在小分子性质数据集(Small-data molecular property dataset)和分子结构数据集(Molecular structure dataset)上进行了测试,表现出色。
研究亮点
1. 本研究提出了一种基于量子力学的机器学习方法,称为QMex-ILR,用于预测小规模分子性质。
2. 本研究对12个有机分子性质进行了大规模的基准测试,以评估QMex-ILR方法在预测小规模分子性质方面的性能。
3. QMex-ILR方法在预测小规模分子性质方面表现出色,特别是在预测分子性质和分子结构方面。
计算方法
在分子结构(聚类)的外推方面,本研究在2D-UMAP平台上运用光谱k-means聚类方法,并采用Leave One cluster Out交叉验证(LOCOCV)进行评估。此外,在分子结构(相似度)的外推方面,本研究采用了后向交叉验证(backward CV,BCV),基于分子相似度对数据进行排序,从而提升了极低相似度数据集的预测性能。
图文导读
作者在研究中展挑选了11个机器学习/深度学习模型,以及多种分子描述符,如图1所示。他们为机器学习基线选择了线性回归(LR)和核岭回归(NLR),利用偏最小二乘法(PLS)进行回归分析。这些模型为非线性问题提供了有效的解决方案。作者利用SMILES字符串生成了二元化学类别分子描述符、扩展连接指纹(ECFP)和2D描述符指纹(2DFP)。
这些描述符为模型提供了丰富的化学信息,有助于更精确地预测分子性质。对于深度学习基线的,作者选择了图卷积网络(GCN)和图同构网络(GIN)这两种模型。为了确保准确性和可靠性,他们对每个测试数据集进行了再训练,利用PLS回归进行优化,以确保了评估的公正性和客观性。
图1 基线机器学习模型和分子描述符的总结
在图2中,本文展示了三种评估外推性能的方法:
性质范围外推:此方法旨在评估由有限属性范围引起的数据偏差的影响,通常称为基于y的外推。
分子结构外推(聚类):这种方法利用空间聚类映射来评估由有限分子结构引起的数据偏差的影响。
分子结构外推(相似性):此方法利用分子相似性来评估相同的影响。
每个数据集根据数据大小被划分为50、100、200、500、1000、2000和5000,以评估数据大小对外推性能的影响,这取决于分子性质的范围、分子结构的映射和分子相似性的范围。
图2 评估插值和外推性能的评估方法
作者在12个任务中对11个模型进行了基准测试,除了Mol-GCR,它在4个任务上进行了测试。这些测试包括1次插值和3次外推测试,在不同的分割基于Nin从50到5000。图3和图4的观察结果如下:在插值检验中,NLR和GNN模型在高精度模型中占主导地位(图3和图4a)。QMex- nlr和2DFP- nlr的高准确性可归因于使用了与目标性质密切相关的关键描述符,如2DFP描述符中的MolLogP、MolMR和TPSA,以及QMex描述符中的几种物理化学性质。
相反,本文基于QMex的模型对于具有小数据属性的插值任务提供了显着的优势,特别是对于Nin≤500。基于QMex的模型在性质范围外推和分子结构(簇)外推方面均取得了最高的性能。他们在所有外推任务中排名前三,并在19/24任务中取得了最佳表现(图4)。统计分析本文的基准测试结果与图4b、c中所示的有显著差异,证实了QMex-ILR和ML/DL模型的插值和外推性能的优越性。
图3 外推检验的评价结果
图4 每种数据规模排名前三的模型所占比例
基准测试显示,ML/DL模型的插值和外推性能存在显著差异。图5a显示了外推属性预测沸点精度下降的比较,其中NLR和GNN模型误差较大,因为目标属性的训练范围较小。这一结果与模型在训练范围外应用的挑战一致。QMex或2DFP的nlr模型偶尔能实现超出范围的预测,因为存在与目标属性强相关的描述符。在dG的基准测试中可观察到实例。当对大量数据进行训练时,GNN在预测logP、log和T方面具有外推性能。图6b显示了在亲脂性(logP)情况下,用于推断分子结构(簇)的基准结果。结构外推性能依赖于训练分子结构数量,而基于QM的模型对训练大小依赖较小。
基于结构的模型在学习大数据的结构-性质关系方面熟练度强,但应用于异类分子时效率下降。当Nin≥1000时,基于结构的模型在结构外推中排名前三的比例超过40%,而当Nin≤500时,这一比例约为10-20%。基于QM的模型对分子结构表现出很强的外推性能,即使在有限的数据上训练也是如此。
图5 外推检验的模型性能比较
图6展示了QMex-ILR在ESOL方面的优势,外推性能从QMex-LR的R2 ex¼0:819提高到QMex-ILR的0.896,归因于QM描述符和化学类别之间的相互作用项。图6e、f描述了QM描述符与分子性质之间的关系,考虑化学类别的影响,与特征重要性一致。利用训练好的Lasso系数计算特征重要性的结果表明,α和dEo在预测测井曲线(ESOL)方面有效。QMex-ILR可以学习α、dEo和log (ESOL)之间的多种关系。虽然LR模型有局限性,但ILR使用交互术语捕获差异。该分析不仅确定有助于预测分子性质的QM描述符,还揭示与分子结构相关的化学类别中的复杂线性关系。ILR的设计架构允许合并基本分类信息以解决不连续问题,即使不清楚重要类别,它也可从特征解释中提取关键类别信息。
这项研究强调了训练数据大小对预测分子性质的模型选择和性能的影响。基于QMEX的模型在有限数据集上也能获得外推能力,性能超过或匹配训练良好的GINs。基于QMEX的模型成为利用有限实验数据估计未知分子性质的重要工具,其外推稳健性优于其他基于QM的模型。
图6 QMex-LR和QMex-ILR模型性能比较
文献信息
Shimakawa, H., Kumada, A., & Sato, M. (2024). Extrapolative prediction of small-data molecular property using quantum mechanics-assisted machine learning. npj Computational Materials,