英文原题:Materials Data toward Machine Learning: Advances and Challenges
通讯作者:孙志梅,北京航空航天大学
作者:祝令刚,周健
背景和概要
机器学习驱动了材料科学研究范式的迭代。在材料的快速发现以及自主化智能实验室建立方面,机器学习已展现出巨大的变革能力。机器学习应用于材料科学已有大量的研究论文和综述报道,本文以机器学习的“原料”--材料数据问题为切入点,探讨如何进一步释放机器学习加速材料研发的巨大潜力。首先,本文总结了材料数据的高通量产生、标准化存储以及面向机器学习的数据表征方面的最新进展。接着,着重展望了未来材料数据问题的挑战和机遇,包括经典的大数据5V (volume, velocity, variety, veracity, value)问题、3M (multicomponent, multiscale, multistage) 挑战、实验和计算数据的协同挖掘、面向可移植/可解释性机器学习和因果机器学习的材料数据科学问题。
材料数据的“产生-存储-表征”现状
当前材料研究广泛采纳“高通量”方法,相关论文发表数和引用数近年来快速增长 (图1(a)),衍生出了高通量计算、高通量实验制备和高通量实验表征方法 (图1(b)-(d))。
图 1. 近十年材料科学领域中以“高通量”或“组合方法”为主题的论文数和引用数,以及高通量计算、高通量制备和高通量表征图示(b-d图出处请参考论文原文)。
高通量技术产生的大量数据、文献中已报道的数据(可通过程序自动提取)以及模型算法(结构预测方法、机器学习训练模型、逆向设计方法等)产生的数据共同构成了材料数据库的主要数据来源(图2)。最近10年,全球范围内开放共享的材料数据库快速发展。结构和非结构化的原始材料数据可通过数据表征转化成计算机可直接处理的数据,目前针对材料的原子结构、微观组织形貌等均已发展了对应的数据表征方法。
图 2. 材料数据库的主要数据来源
未来挑战与机遇展望
首先材料科学数据也有类似大数据的5V问题,只是在具体含义上有所不同。材料科学的数据量通常较少,因此小样本机器学习算法、数据增强技术等较受欢迎。材料数据还面临极端条件下实时快速采集、不确定性分析、大量“不成功”实验数据的收集和挖掘等问题和挑战。多元材料在工程应用中有重要作用,多元材料尤其是高熵材料具有庞大的成分空间,需要更高效的数据产生和挖掘技术;从电子、原子到晶相、界面、裂纹等,不同空间尺度的基本单元对材料性能均有重要影响,这些不同空间尺度的单元及其对应的不同时间尺度的动力学过程增加了材料研究和数据获取的难度;同时材料的全生命周期包含了“设计-制备-测试-服役-回收”多个阶段,特定材料全生命周期的数据采集十分困难,但这却是面向真实服役环境下材料可持续研发的基础。为此,本文提出了多组元、多尺度和多阶段(3M)的材料数据挑战,并探讨了多元材料数据原位采集和存储的一体化、集成计算材料工程技术、以及学术界和工业界数据的共享和流动等解决方案。
图 3. 材料的多元、多尺度和多阶段(multicomponent, multiscale, multistage, 3M)数据挑战,(b图出处请参考论文原文)。
计算模拟是继实验和理论之后材料研究的第三种范式,材料计算模拟在解释材料性能机理(understanding)以及新材料预测(prediction)方面发挥着举足轻重的作用。计算模拟和实验技术在不同空间和时间尺度的材料问题研究中相辅相成(图4)。然而多数情况下计算模拟获得的或者是提供给实验工作者的往往是某种变化趋势或者性能优异的候选材料,而非数据本身,主要原因是计算和实验得到的物理量的具体数值往往存在差异。不断缩小计算和实验数据的数值差异,将有效推动材料数据的快速积累和高效挖掘。未来,计算模拟层面,在多体相互作用、真实环境下材料行为的控制方程等方面需要取得突破;而在实验层面,需要更高空间分辨率和更高效的大时间尺度的材料研究装备。
图 4. 不同尺度下材料计算和实验方法及其产生的数据
最后,文章讨论了可移植机器学习(模型适用于更多材料和场景)、可解释机器学习(含有材料知识的数据输入或输出)中的数据问题。特别指出最近出现的结合因果推断和机器学习优点的因果机器学习可能为材料理论知识的发现以及材料的理性设计提供更多可能。
作者介绍
本文由北京航空航天大学孙志梅教授(通讯作者)团队完成,第一作者祝令刚副研究员,论文合作者周健研究员。孙志梅教授团队近年来围绕材料的高通量计算、多尺度模拟和机器学习加速材料设计等领域进行了系统研究,开发了材料高通量集成设计智能平台ALKEMIE,近期相关成果发表在ACS旗下的JACS ( J. Am. Chem. Soc. 2022, 144, 5878-5886), JPCL (J. Phys. Chem. Lett. 2022, 13, 3965-3977), ACS AM&I ( ACS Appl. Mat. Interfaces 2020, 12, 45184-45191)等期刊。