当前位置:首页|资讯|人工智能

Nature系列串讲:机器学习 —— 研究材料科学的新兴利器

作者:Singlecell-Genom发布时间:2023-02-11

机器学习(ml)在材料的应用:面对巨大的材料设计空间,基于理论研究、实验分析以及计算仿真的传统方法已经跟不上高性能新材料的发展需求。近年来,机器学习与材料基因组的结合带动了材料信息学的进步,推动了材料科学的发展。当前,运用数据驱动的机器学习算法建立材料性能预测模型,然后将其应用于材料筛选与新材料开发的研究引起了学者们的广泛关注。利用机器学习框架搭建材料研究设计平台对材料大数据资源进行分析与预测,成为开发新型材料的重要手段。包括根据预测对象确定材料特征的计算或自动抽取,不同精度的实验与计算数据的获取与预处理;选取或者开发合适的机器学习预测模型和训练算法;估计预测效果与预测性能的可靠性;处理材料机器学习问题所独有的小数据、异构数据、非平衡数据等特性。目前研究的焦点是针对不同的材料性能,收集相关的数据集,基于物理原理构造特征表示来训练机器学习模型,并将机器学习的最新技术用于材料信息学。现阶段机器学习已经被应用于光伏、热电、半导体、有机材料等几乎所有的材料设计领域。通过采用机器学习算法训练材料性能的预测模型,并将其用于筛选现有材料数据库或者搜索新的材料,大大加快了新材料发现的过程。机器学习在材料科学的研究应用文章近两年来多次发表在Nature、Science、Angew、Advanced Materials、JACS、Nano Letters、ACS Catalysis、Joule、Matter、Energy Storage Materials等国际知名顶刊。例如最近德国马普钢铁研究所韦业博士与Dierk Raabe教授(共同通讯)联合提出了一种主动学习策略,以基于非常稀少的数据,在几乎无限的成分空间中加速高熵因瓦合金的设计。该研究方法是一个闭环,将机器学习与密度泛函理论、热力学计算和实验相结合。研究人员首先使用了699种合金的公开数据训练了学习算法,然后让算法生成大量具有低热系数的候选成分,在加工和表征了17种可能的新合金后,研究人员确定了两种热膨胀系数极低的高熵因瓦合金(在300 K下为约为2×10-6 K-1)。文献链接:Machine learningenabled highentropy alloydiscovery ( Science 2022, 378, 78-85) 。 剑桥大学的Angelos Michaelides团队在这一领域取得了突破,他们利用量子蒙特卡洛(QMC)方法(分子材料最精确的第一性原理方法之一)来确定所研究系统最合适的DFT泛函,从而避免了计算中的精度和成本之间的权衡,并且开发了一种机器学习算法(MLPs),以低得多的成本预测DFT所算得的能量变化(Nature,2022,609,512–516)。华盛顿大学David Baker教授团队一年连发三篇Science,超越AlphaFold!(Science, 2022, 377(6604): 387-394.,Science, 2022, 377(6604): 387-394.,Science,2022,DOI: 10.1126/science.add2187)。 2022年10月6日

材料基因组:材料基因组技术是近年来兴起的材料研究新理念和新方法,是当今世界材料科学与工程领域的最前沿。材料基因组技术的实质是通过融合高通量材料计算设计、高通量材料实验和材料数据库三大组成要素,构建材料设计研发的协同创新网络,加速新材料从发现到应用的全过程。材料基因组计划的核心理念,是通过计算、数据和实验"三位一体"的方式,变革传统的主要基于经验和实验的"试错法"材料研发模式,把发现、开发、生产和应用新材料的速度提高到目前的两倍。它旨在建立一个新的以计算模拟和理论预测优先、实验验证在后的新材料研发文化,从而取代现有的以经验和实验为主的材料研发的模式。

CP2K-从头计算和分子动力学专题:长期以来,新材料一直是推动材料应用和技术发展的主要因素。在过去的十几年中,该领域的基础知识和技术应用中的许多进步都与意外发现具有新颖和理想性能的新材料有关。这些材料中的很多已经从作为基础研究兴趣的对象转变为实际应用的对象。然而,新材料的复杂性为实验科学的实现带来了困难,很多过程难以捕获,限制了材料的理性设计。随着计算机功能的增强和新计算方法的发展,可以使用理论计算方法来揭示这些材料结构与属性的关系,以探索性能卓越的新型材料。第一性原理作为一种不依赖经验参数的定量分析方法,能够大幅度缩减材料从设计到工程化应用的周期及成本。而CP2K是著名的开源第一性原理材料计算和模拟软件, 是运行最快的开源第一性原理材料计算和模拟软件, 可研究上千个原子的大体系,广泛用于固体、液体、分子、周期、材料、晶体和生物系统的模拟。对各种研究具有重要的推动作用,加速新材料的设计和研发。

全国各大高校、企业、科研院所从事方向为纳米材料、化学化工、计算化学、量子化学、金属合金、非晶新材料、二维材料、钙钛矿、氧化物材料、半导体材料、环境材料、燃烧电池、锂电池、生物材料、聚合物复合材料、能源材料、光电材料、增材制造、催化、亚稳材料、储能材料、催化剂、环境科学、凝聚态物理、电催化材料计算、光伏材料、材料基、高分子材料、数据库、道路工程、传递现象与分离工程、机电工程、光热CO2还原、化学转化膜、碳减排、污泥材料、复合板制备、合金、伪装隐身、环境材料、电解质、铁电压电、磁性材料、高分子复合材料、天然气水合物、除湿/防冻/吸收溶液、分析化学、超材料设计、数值模拟、可降解金属材料、特种陶瓷、湿法冶金、集成计算材料设计、铝镁合金、光纤生化传感、纺织材料、光学工程、催化杀菌、金属材料成型等研究的科研人员及机器学习人工智能算法爱好者

老师来自国内高校孙老师,老师擅长利用量子化学方法和机器学习方法预测设计并研究新型能源材料、锂离子电池的电极材料,燃料电池催化剂以及燃料电池体系的整体设计,已在Energy & Materals,Journal of Physical Chemistry Letters, Journal Physical Chemistry C,等权威期刊上发表SCI检索论文近40余篇。

机器学习(ML)在材料领域应用

第一天

机器学习在材料与化学常见的方法

理论内容

1.机器学习概述

2.材料与化学中的常见机器学习方法

3.应用前沿

实操内容

Python基础

1.开发环境搭建

2.变量和数据类型

3.列表

4.if语句

5.字典

6.For和while循环

实操内容

Python基础(续)

1.函数

2.类和对

3.模块

Python科学数据处理

1.NumPy

2.Pandas

3.Matplotlib

第二天

机器学习材料与化学应用

理论内容

1.线性回归

1.1 线性回归的原理

1.2 线性回归的应用

2. 逻辑回归

2.1原理

2.2 使用方

3. K近邻法(KNN)

3.1 KNN分类原理

3.2 KNN分类应用

4. 神经网络方法的原理

4.1 神经络原理

4.2神经网络分类

4.3神经网络回归

实操内容

1.线性回归方法的实现与初步应用(包括L1和L2正则项的使用方法)

2.逻辑回归的实现与初步应用

3.KNN方法的实现与初步应用

4.神经网络实现

项目实操

1.利用线性回归方法预测合金性能

2.利用KNN方法对MOF材料分类

这两个实操项目同时穿插讲解如下内容

1. 机器学习材料与化学应用的典型步骤

1.1 数据采集和清洗

1.2 特征选择和模型选择

1.3 模型训练和测试

1.4 模型性能评估和优化

第三天

1. 用随机森林方法预测大孔材料对CO2吸附

2.用决策树判断半导体材料类型

理论内容

1.决树

1.1决策树的原理

1.2决策树分类

2.集成学习方法

2.1集成学习原理

2.2随机森林

2.3Bosting方法

3.朴素贝叶斯概率

3.1原理解析

3.2 模型应用

4. 支持向量机

4.1分类原理

4.2核函数

实操内容

1.决策树的实现和应用

2.随机森林的实现和应用

3.朴素贝叶斯的实现和应用

4.支持向量机的实现和应用

项目实操

1.用随机森林方法预测大孔材料对CO2吸附量

2.用决策树判断半导体材料类型

这两个实操项目同时穿插讲解如下内容

1.模型性能的评估方法

1.1 交叉验证:评估估计器的性能

1.2 分类性能评估

1.3 回归性能评估

第四天

利用聚类方法对材料分类及可视化

理论内容

1. 无监督学习

1.1 什么是无监督学习

1.2 无监督算法——聚类

1.3 无监督算法——降维

2. 材料与化学数据的特征工程

2.1分子结构表示

2.2 独热编码

3. 数据库

3.1.材料数据库介绍

3.2.Pymatgen介绍

实操内容:

Pymatgen和material project实操

项目实操:

1. 利用支持向量机预测无机钙钛矿材料性能

2. 利用神经网络预测电化学催化剂的催化性能

第五天

1.向量机预测无机钙钛矿材料性能

2.神经网络预测电化学催化剂的催化性能

项目实操:

1. 分子结构的表示与特征提取

2. 聚类、降维等无监督学习方法应用于分子特征处理

项目实操

1. 利用机器学习方法预测有机无机杂化钙钛矿材料性能

2. CO2电化学还原催化剂性能预测的综合实训

第六天

1.机器学习方法预测半导体材料物理性质

2.多种机器学习方法综合预测

项目实操:

1. 逻辑回归预测钙钛矿性质

2. 基于分子特征的无监督学习综合应用

项目实操:

1. 利用多种机器学习方法对氧化物材料性质的综合预测

2. 利用多种机器学习方法对材料类型多分类的综合预测

材料基因组

第一天

Python讲解与实操

理论内容:

1.材料基因组概述

2.材料基因组的基本方法

3.材料数据库material project, OPMD, AFLO

实操内容 :

Python基础

1.开发环境搭建

2.变量和数据类型

3.列表

4.if语句

5.字典

6.For和while循环

实操内容 :

Python基础(续)

1.函数

2.类和对象

3.模块

4.Python科学数据处理

5.NumPy

6.Pandas

7.Matplotlib

第二天

材料基因组与数据库

实操内容:

1. Scikit-learn机器学习操作入门(约1小时)

2. AFLOW数据库

2.1 AFLOW数据库功能练习

2.2. AFLOW数据库的数据获取

实操内容 :

1. OQMD数据库

1.1 OQMD数据库功能练习

1.2 OQMD数据库的数据获取

2. material project数据库

2.1 Pymatgen练习

2.2 Pymatgen获取material project材料数据

第三天

结构数据驱动的高通量计算

实操和演示内容:

基于结构数据驱动的高通量计算:

1. pymatgen大批量结构获取

2. 基于pymatgen的计算文件生成

3. 大批量计算结果的获取与统计

实操内容:

案例一:基于数据驱动的功能材料开发(合金材料)

1. 背景介绍

2. 数据获取

3. 构建特征

4. 机器学习

5. 讨论与评测

穿插常见机器学习算法的介绍

第四天

基于数据驱动的多个功能材料开发案例实操

案例二:基于数据驱动的功能材料开发(半导体材料)

1. 背景介绍

2. 数据获取

3. 构建特征

4. 机器学习

5. 讨论与评

穿插材料特征工程的介绍

案例三:基于数据驱动的功能材料开发(钙钛矿材料)

1. 背景介绍

2. 数据获取

3. 构建特征

4. 机器学习

5. 讨论与评测

CP2K:从头计算和分子动力学

第一天CP2K与量子力学

理论内容

1. CP2K框架

2. DFT(密度泛函理论)基础

3. CP2K的核心:GAPW(Gaussian-augmented plane wave approach)介绍

4. CP2K的input

QM(量子力学)计算实操内容-1

1. 基组文件和势场文件选取

2. 分子体系单点能计算

3. 分子结构优化

4. 分子结构和电子结构的可视化

理论内容

1.分子动力学模拟介绍

2.周期性边界条件

3.MD模拟系综

4.势函数

MM(分子力学)计算实操内容-1

1. 溶剂体系的构造与可视化

2. L-J势场的参数设置

3. 利用L-J势场对溶剂体系的模拟

4. 分子动力学模拟分析(径向分布函数RDF,均方位移MSD,模拟退火…)

第二天子力学实操

理论内容

1. 周期性体系

2. 平面波与倒空间

3. DOS(态密度)知识基础

4. 能带知识基础

QM(量子力学)计算实操内容

  1. 晶体结构的获取与可视化

2. 晶体结构的单点能和结构优化

3. DOS计算和分析

4. 能带计算和分析

理论内容

CP2K、GROMACS和力场类型介绍

MM(分子力学)计算实操内容-2:

1. CP2K、GROMACS计算MD详解

2.热浴、退火计算与分析

3.VMD可视化轨迹与分析

4.Gromacs对轨迹进行后处理分析

5.自由能势能面的模拟

第三天量子力学实操

理论内容

1. 晶体表面和晶面指数

2. 过渡态理论介绍

QM(量子力学)计算实操内容-3

1. 晶体表面的构造与可视化

2. 晶体表面的结构优化

3. 晶体表面的分子吸附与成键状态分析

4. NEB方法计算离子迁移路径

理论内容

1. AIMD(从头计算分子动力学)的基本知识和应用

2. 自由能势能面介绍

AIMD(从头计算分子动力学)计算实操内容

1.Cu颗粒熔化过程的MD模拟

2.Cu颗粒在CO2中结构演变的MD模拟

3.催化剂作用下N2分解的二维自由能曲面计算

第四天QM+MM

理论内容

元动力学(metadynamics)介绍

QM(量子力学)计算实操内容-4

1. metadynamics方法的关键参数设置

2. metadynamics方法计算分子解离过程

3. 锂离子电池电极材料锂离子迁移过渡态的计算

理论内容

1.QM/MM理论介绍

2.QM/MM在不同体系的应用

QM/MM计算实操内容-2

1. 一般的溶剂化蛋白的处理流程

2. 蛋白晶体的准备

3. 结构的能量最小化

4. 对体系的预平衡

5. 无限制的分子动力学模拟

6. RMSD、RMSF、能量变化及蛋白的回旋半径分析

第五天QM+AIMD

理论内容

1. TDDFT计算激发态的介绍

2. 振动熵和零点能的计算

QM(量子力学)计算实操内容-5

1. 分子激发态的计算和结果分析

2. 电化学催化ORR(氧还原反应)过程的计算矫正和台阶图绘制

理论内容

1.不同体系下AIMD建模

2. CP2K电子结构与MD

文献案例分析 实操内容

1.AIMD研究Au/TiO2对CO的催化机理

2.利用DFT和AIMD研究N5H对CO2的催化机理



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1