2024年诺贝尔物理学奖与化学奖双双授予"AI for Science"相关领域,这一里程碑事件为学科发展注入强劲动能。在科学研究第四范式——"AI for Science"时代,基于数据驱动的机器学习力场(ML-FFs)有效弥合了第一性原理电子结构方法与传统经验力场在精度与效率之间的矛盾。近年来该领域呈现爆发式增长态势,Web of Science平台检索显示相关研究成果频繁发表于Nature、Science、Cell等顶尖期刊。
得益于计算硬件的指数级发展,基于ML-FFs实现第一性原理精度的大规模分子模拟已成为现实。机器学习方法不仅拓展了传统分子模拟的时空尺度,更揭示了诸如小分子非对称电子效应等新物理现象,为实验现象提供了更深刻的理论诠释。可以预见,ML-FFs正逐步成为现代计算化学与分子模拟研究的核心工具。
值得注意的是,作为新兴交叉学科领域,其知识体系横跨量子化学、分子模拟与机器学习等多学科领域,存在技术门槛高、开源资源少、学习曲线陡峭等挑战,系统的专业培训显得尤为重要。
机器学习分子动力学
本课程设置科学严谨,涵盖量子化学软件快速入门、机器学习理论精讲、GPUMD/LAMMPS等模拟工具高阶应用,以及ML-FFs模型开发全流程,配套海量代码案例。课程特色包括:首度系统解析国产分子动力学软件GPUMD-NEP,深入剖析生态最完善的DeePMD工具链,独家传授数据效率超群的等变模型(MACE)应用技巧,以及开源即用的通用大模型(MACE-OFF23、MACE-MP0、DPA等)实战指南。
机器学习第一性原理
本课程旨在为学员提供第一性原理与机器学习交叉领域的系统性培训,并安排了较多的上机实验,提供大量相关代码与示例教程,帮助学员熟悉各种深度学习第一性原理计算方法的使用,快速掌握相关理论知识与实操技能。课程将从基础理论出发,逐步深入到高级应用,学员将具备独立开展第一性原理与机器学习交叉研究的能力,能够运用所学知识解决材料科学中的实际问题,并为未来的研究工作奠定坚实的基础。
深度学习材料设计实践
熟练掌握 Python 编程基础及 Pytorch 深度学习框架,能够进行开发环境搭建、变量操作、循环控制等,并通过 Pytorch 构建和训练基础神经网络模型。能够运用 Pymatgen 和 ASE 等工具进行材料结构的表示、生成、操作以及特征提取,同时具备从数据库或网站爬取二维材料数据并预处理的能力。熟练使用 scikit-learn 等机器学习库实现多种机器学习算法(如决策树、随机森林、朴素贝叶斯、支持向量机等),对材料数据进行分类、回归等分析,并能对模型进行训练、评估、优化及性能评估。能够构建、训练和评估生成对抗网络(GAN)和变分自编码器(VAE)等生成模型,用于新材料结构的生成与性能优化。具备构建、训练和评估机器学习模型以预测材料力学性能(如弹性模量)的能力。
01机器学习分子动力学
第一天:理论与实操并行,开启分子动力学探索之旅
第一天的课程内容丰富多样。首先以诺贝尔奖AI元年为切入点,探讨AI与科学研究的深度交叉,阐释科学研究的四范式演进,重点解析从大数据时代到AI4Science时代的发展脉络,包括Google DeepMind、微软研究院、meta FAIR等顶尖团队的AI4Science工作。系统讲解AI4Science时代的分子动力学模拟:涵盖分子模拟基本方法与发展沿革、经验力场与第一性原理方法的差异对比、机器学习力场方法的技术突破。同时剖析机器学习分子动力学在各领域的应用现状与发展趋势,解读相关支撑项目,阐述机器学习分子动力学的特征分类、工作流程,以及数据集构建策略。实践环节覆盖Linux系统与超算平台基础操作(ls/cd/cp/mv等命令及vim编辑器使用)、虚拟环境配置(Anaconda/Mamba命令精讲)、Python集成开发环境应用,以及分子模拟软件实操:包括GPUMD入门(软件特性、NEP力场简介、pyNEP自动化工具应用)、LAMMPS精解(并行原理、输入文件配置、机器学习势函数调用),并指导量子化学软件VASP的快速上手(泛函选择、赝势获取、任务自动化)。
第二天:机器学习力场建模理论与实践**理论模块双线并进
第二天快速构建机器学习知识体系—通过可视化案例解析神经网络通用近似理论,阐释GPU依赖原理,详解神经元、反向传播、损失函数、残差连接等核心概念,对比ANN/CNN/RNN/Transformer网络架构;另一方面聚焦科学领域专用模型—解析AI模型需遵守的物理约束与对称性,剖析局部环境描述方法分类,深入解读HDNNPs、ANI、DeePMD等经典模型的技术特性。实践环节重点突破DeePMD生态:完成离线安装与验证测试、输入文件参数精析、训练/测试全流程操作。通过LAMMPS+DeePMD联用实现高精度分子动力学模拟,掌握分子轨迹后处理技术,并系统演练DPGEN软件的工作流配置(参数文件解析、跨分区任务提交、收敛标准判定)。
第三天:构建机器学习力场全流程
第三天进入高级课程,以二维材料为范例,建立"数据-模型-验证"技术闭环。理论层面:解构机器学习力场科学内核,从势能面数学本质到DFT数据生成范式,剖析NEP模型的GPU加速原理,通过DeePMD/GAP/SchNet对比研究揭示模型选择规律。实践环节打造端到端工程体系:基于Materials Project数据库实现数据清洗与预训练优化,集成M3GNet智能采样与AIMD主动学习技术,突破传统DFT数据局限,最终完成热导率预测与声子态密度等多尺度模拟,并通过独创的"量子精度-微观结构"验证体系确保模型可靠性。
第四天:机器学习力场大模型的开发与应用
第四天聚焦材料模拟终极挑战,构建"预训练-微调-部署"技术生态。理论解析MACE-MP-0、CHGNet等大模型的架构革新——通过图注意力与等变网络实现跨尺度建模,结合电池界面动力学等案例揭示非平衡态预测优势。实践环节打造全栈开发平台:基于ASE框架实现势函数迭代优化,通过LAMMPS多GPU并行完成晶圆级模拟,创新性融合预训练迁移策略,在石墨烯外延生长等场景实现精度效率双优。针对有机体系,运用MACE-OFF23势函数精准预测结构演化规律。
第五天:机器学习力场大模型的开发与应用
作为机器学习力场领域的突破性技术范式,本日课程深度聚焦等变模型(Equivariant Models)这一学术前沿,系统解构其通过严格保持SE(3)物理对称性实现量子精度建模的核心机理,揭示高阶架构在数据效率与泛化能力上的颠覆性优势。课程将结合NequIP等标杆模型,展示几何深度学习如何重构势能面逼近的数学本质。对比NEP模型与传统力场对水分子能量、力的预测差异,确保模型达到实验验证标准,通过真实代码操作与经典案例,掌握从理论到落地的全流程技能,胜任电池材料、纳米器件等领域的尖端模拟需求。实操部分包括DeePMD 软件的进阶使用与补充讲解,包括多 GPU 并行训练,LAMMPS 以多 GPU 并行方式运行机器学习力场模型,使用 Python 代码快速可视化机器学习力场模型在等变与不变设计上的区别,使用多种机器学习的降维方法结合 K-Means 聚类从分子模拟轨迹中以低冗余方式提取多帧结构文件。以及MACE的超参数介绍和使用经验,MACE模型与DeePMD模型的对比,Libtorch与 LAMMPS软件的编译,机器学习力场领域的ChatGPT的使用与分析,对通用大模型进行微调与分析,以及DPA-1和DPA-2的介绍与特点。
专题一、机器学习分子动力学
BEGINNING OF SPRING
《AI赋能MD——机器学习力场驱动的分子动力学模拟》
1. 第一天理论内容
a) 诺贝尔奖的AI元年
i. AI与 SCIENCE的交叉:
b) 科学研究的四范式
i. 从大数据时代到AI4SCIENCE时代
c) AI4SCIENCE时代的分子动力学模拟
i. 分子模拟基本方法与发展历史
ii. 经验力场与第一性原理方法的对比与区别
iii. 机器学习力场方法的兴起
d) 基于机器学习的分子动力学方法在各个领域的应用情况与发展趋势,以及相关支撑项目
e) 机器学习的分子动力学的特点,分类和工作流程
f) 数据集的常见收集方式与建议
g) Linux系统与超算服务器的常规操作
i. ls/ll/cd/cp/mv/cat/pwd/less/tail/mkdir/touch以及vim的常见操作
h) 虚拟环境(Anaconda)的使用
i. conda create/activate/deactivate/install/info/env等命令
i) Python的介绍与基本使用
i. Python的基本数据类型
ii. Pycharm的常见用法与代码调试,以及虚拟环境的配套
j) 分子模拟软件介绍
i. GPUMD的入门与使用
1. 软件发展趋势与方法特点
2. 运行脚本与注意事项
3. NEP力场的简要介绍
4. 使用pyNEP软件和Calorine快速、自动化生成任意有机分子的力场参数文件(同时也适用GROMACS)
ii. LAMMPS的入门与使用
1. 软件发展趋势与特点
2. 大规模并行的原理:域分解算法介绍
3. 输入文件的详细解析与注意事项
4. 相关势函数和晶格常数的获取渠道
5. 分子模拟轨迹的后处理与分析:径向分布函数与扩散系数
6. 机器学习势函数在LAMMPS中的使用
k) 量子化学计算软件的介绍与快速上手
i. 量子化学中常见理论方法的分类与区别,DFT相关泛函的简要介绍
ii. VASP软件的介绍与快速上手:
1. 软件发展趋势与特点
2. 安装与使用,以及赝势文件的介绍与获取
3. 输入文件的字段解释与注意事项
4. 使用Shell实现自动化提交任务与任务后处理
5. 在VASP中计算单点能
l) MS软件的基本介绍与LAMMPS结合使用
i. MSI2LMP工具及PCVV/CVFF力场的概述
ii. 使用LAMMPS执行有机体系的分子模拟
iii. 基于机器学习力场方法,结合LAMMPS执行合金体系,锂电池体系的分子模拟
iv. 使用ASE等软件进行模拟结果的后处理分析与Python高质量科研绘图,包括:能量与力的预测曲线,径向分布函数,键长键角二面角分布等。
v. 科研绘图软件VMD、OVITO的基本使用及编程脚本示例。
2. 第二天理论内容(机器学习力场的模型设计)
a) 机器学习与深度学习的快速入门
i. 常见概念与分类
ii. 机器学习的发展历史以及通用近似理论:
1. 通过交互的可视化案例,理解神经网络的通用近似理论
2. 解释神经网络对GPU的依赖
iii. 神经元,反向梯度下降,损失函数,过/欠拟合等基本概念
iv. ANN, CNN, RNN等经典深度神经网络的基本框架的介绍与特点
v. 相关学习资源的推荐
vi. Pytorch与Tensorflow的发展现状
b) 科学领域的机器学习模型介绍
i. AI模型在势函数开发中需要遵守的几个物理约束/物理对称性
ii. 高效描述局部环境方法的分类与特点
1. 基于核方法或深度神经网络方法
2. 基于描述符或分子图方法
iii. 基于描述符的机器学习力场模型
1. MACE模型详解与发展
a) 机器学习力场的开篇工作
2. 机器学习力场模型Deep Potential
a) DeePMD工作的详解
b) DeePMD的发展和几种描述符的介绍,特点与应用
c) DeePMD的压缩原理与特点
d) DPGEN的工作原理
3. 机器学习力场模型NEP
a) NEP系列工作的详解
b) NEP的发展和几种描述符的介绍,特点与应用
c) NEP相关后处理软件
c) 实操内容
i. DeePMD的离线安装与验证测试
ii. DeePMD输入文件详解:与理论课的模型框架相对应地进行超参数设定的讲解,及使用经验
iii. DeePMD的常见功能,包括训练,重启,冻结,压缩和测试
iv. DeePMD的常见问题与训练过程的分析
v. 综合使用LAMMPS和DeePMD, 执行高精度的分子动力学模拟
vi. 分子模拟的数据后处理与分析
vii. DPGEN软件的安装,介绍与工作流程
viii. DPGEN软件的输入和输出文件:param.json和machine.json文件的参数详解
ix. DPGEN软件跨计算分区的提交任务示例;不同量化级别方法的示例
x. DPGEN软件的常用命令与使用经验,以及不同体系收敛的参考标准
xi. GPUMD&NEP的离线安装与验证测试
xii. GPUMD&NEP输入文件详解:与理论课的模型框架相对应地进行超参数设定的讲解,及使用经验
xiii. GPUMD&NEP的常见功能,包括训练,重启,冻结,压缩和测试
xiv. GPUMD&NEP的常见问题与训练过程的分析
xv. 综合使用LAMMPS和DeePMD, 执行高精度的分子动力学模拟
xvi. 分子模拟的数据后处理与分析
xvii. GPUMD&NEP后处理软件的安装,介绍与工作流程
xviii. GPUMD&NEP软件的常用命令与使用经验,以及不同体系收敛的参考标准
3. 第三天(高级课程 —— 从头构建机器学习力场)
a) 机器学习力场的特性,发展和分类
i. 特性解析:高精度与泛化能力突破
ii. 发展脉络:从浅层网络到深度势能模型
iii. 分类体系:基于描述符/端到端模型的二分法
b) 机器学习力场构建的一般流程,从量子计算到分子动力学的闭环
c) 方法的完备性,效率和系列发展
i. 密度泛函理论的逼近程度
ii. 百万原子体系的实时模拟
iii. 典型机器学习力场的迭代升级
d) 适用于大规模GPU并行框架的NEP模型
e) 主流机器学习力场模型的详解与比较(与传统力场的加速比分析)
f) 验证机器学习力场的准确性
i. 能量/力/应力的一致性检验
ii. 结合动力学过程验证势函数对材料性质结构的预测能力
g) 实操内容(石墨烯等二维材料为案例)
i. 下载收集公开数据集
ii. 公开数据集的评估
iii. 公开数据集的预训练和数据筛选
iv. 使用MACE-MP-0,CHGNET,M3GNET等通用势函数获取初始构型
v. 从materials project收集初始构型
vi. DFT单点计算
vii. 从DFT结果提取数据集(如何考虑色散力)
viii. 验证机器学习力场的准确性
ix. 主动学习技术
x. AIMD+微扰等数据集扩充技术
xi. 数据集精简技术
xii. 机器学习力场在热导率的应用
xiii. 机器学习立场驱动的晶体材料声子性质计算
4. 第四天(高阶应用——机器学习力场大模型的开发与应用)
a) 现有机器学习力场大模型简介与发展
i. 大模型生态:MACE/M3GNet/CH3GNET等架构
ii. 预训练范式
iii. 开源框架:GPUMD-NEP集成方案
b) 机器学习力场大模型使用案例详解
i. 工业级应用:电池材料界面演化模拟
ii. 相变过程的预测验证
iii. 化学反应
c) 构建机器学习力场大模型各类数据集简介
i. 使用ASE在PYTHON环境下实现主动学习和代码详解
d) 实操部分(通用势函数的完全演示案例)
i. 使用ASE在PYTHON环境下实现主动学习和代码详解
ii. ASE+calculator计算各类静态性质
iii. calculator进行高通量计算
iv. MACE-MP-0模型的使用(石墨烯生长,二维材料力学模拟)
v. 通用势函数的MD模拟(包括基于ASE的MD模拟和基于LAMMPS的MD模拟)
vi. 使用预训练模型进行微调
vii. 预训练微调与从头训练的对比
viii. 基于MACE-OFF23,NEP模型的势函数对有机物的模拟MACE模型的超参数介绍和使用经验
5. 第五天(高级课程 —— 等变模型系列,领域热点)
a) 等变模型的概念,特点,分类和应用
b) 等变模型的分类与特点
c) 高阶等变模型的介绍:超高数据利用率与优秀的泛化能力
d) 高阶等变模型与传统模型,经验力场的区别
e) 等变机器学习力场的经典模型
i. NequIP示例模型的详解和代码框架
f) 实操内容
i. DeePMD软件的进阶使用与补充讲解,包括多GPU并行训练
ii. LAMMPS以多GPU并行方式运行机器学习力场模型
iii. 使用Python代码快速可视化机器学习力场模型在等变与不变设计上的区别
iv. 使用机器学习数据降维及结合最远点采样法,从分子模拟轨迹中以低冗余方式提取多帧结构文件。
v. NequIP模型的超参数介绍和使用
vi. 复现多篇文献结果(液态水、Si等体系)
vii. 基于委员会方法的主动学习方案构建钙钛矿 NEP 模型
viii. 以 DP 势函数的数据集为基础展示水的 NEP 模型的构造与评估
部分案例图片:
专题二、机器学习第一性原理
第一天课程:理解第一性原理计算的基本理论框架,包括薛定谔方程、Hohenberg-Kohn定理、Kohn-Sham方程等核心概念。掌握机器学习在材料科学中的应用现状与发展趋势,了解当前领域内的前沿成果与挑战。
第一天上午
理论内容
介绍量子力学在材料科学中的应用及其重要性。
第一性原理计算的基本概念:从量子力学到材料性质的预测。
机器学习的兴起及其在科学研究中的应用。
机器学习在材料设计、性质预测和高通量计算中的应用案例。
当前机器学习技术在第一性原理领域的突破与挑战。
未来发展趋势:从数据驱动到智能设计。
典型案例分析:如催化剂设计、二维材料的高通量筛选等。
实操内容
Python环境搭建:Anaconda的安装与使用。
Jupyter Notebook的使用:代码编写、运行与调试的基本操作。
安装常用机器学习库:NumPy、Pandas、Matplotlib、Scikit-Learn等。
深度学习框架(PyTorch)的安装与环境配置。
安装第一性原理软件
第一天下午
实操内容
Python的基本语法:缩进、注释、变量命名规则。
数据类型详解:整数、浮点数、字符串、布尔值。
序列类型:列表、元组、集合的操作与区别。
映射类型:字典的创建、访问与修改。
条件语句:if-elif-else的使用场景与逻辑判断。
循环语句:for循环与while循环的语法与应用。
循环控制:break、continue、pass语句的作用与使用场景。
自定义函数:函数的定义、参数传递、返回值。
模块的导入与使用:标准库与第三方库的调用。
类与对象的基本概念:封装、继承、多态。
类的定义与实例化:属性与方法的使用。
面向对象的设计思想:如何通过类组织代码结构。
NumPy数组的创建与操作:数组的形状、索引、切片。
数学运算:矩阵运算、统计函数、随机数生成。
示例应用:数据标准化、矩阵变换等。
Pandas:数据分析利器
数据结构:Series与Dataframe的创建与操作。
数据处理:数据清洗、筛选、分组、聚合。
数据读写:CSV、Excel文件的读取与保存。
示例应用:材料数据的预处理与分析。
Matplotlib:数据可视化
基本绘图:折线图、柱状图、散点图的绘制。
第二天课程:熟练掌握第一性原理软件的使用方法,包括输入文件编写、任务提交、结果分析等。学会使用Python及其科学计算库(如NumPy、Pandas、Matplotlib)进行数据分析与处理。掌握机器学习库(如Scikit-Learn、PyTorch)的基本使用方法,能够搭建并训练简单的神经网络模型。
第二天上午
理论内容
讲解第一性原理计算:薛定谔方程、波函数与电子状态、Hohenberg-Kohn定理、Kohn-Sham方程、交换-相关泛函、晶格的周期性、平面波与平面波基组、
介绍VASP软件的基本操作和输入文件编写方法。
详细指导如何编写VASP的输入文件,包括INCAR、KPOINTS、POSCAR等。
演示如何提交VASP计算任务:命令行提交、作业调度系统提交、OSZICAR、OUTCAR
第二天下午
实操内容
使用Python实现批量计算任务的生成与提交。
高效计算流程:并行计算、分布式计算的优化。
结构优化结果分析:能量、晶格参数、原子位置的收敛性。
电子结构、力学性质、热学性质的计算与分析。
使用Matplotlib绘制能带图、态密度图等。
实战1:二氧化碳还原反应(CO₂RR)的催化剂设计、选择与催化剂性能相关的特征(如电子结构、表面性质等)、使用Scikit-Learn搭建线性回归、决策树等模型。通过交叉验证评估模型的预测性能。用机器学习预测二氧化碳还原催化剂的少特征模型
实战2:氧还原反应(ORR)和氧进化反应(OER)在能源存储中的重要性。从第一性原理计算结果中提取材料的电子性质和催化活性指标。基于物理直觉和机器学习算法选择关键特征。DFT和机器学习方法加速具有高ORR和OER催化活性的DMSCs的发现
第三天课程:学习高通量计算策略,掌握自动化脚本编写技巧,能够高效处理大规模计算任务。理解机器学习在材料性质预测中的应用,掌握特征工程、模型训练与验证的基本流程。
第三天上午
实操内容
pymatgen的功能与应用场景:从材料结构到计算文件的生成。
材料项目(Materials Project)数据库的访问与数据提取。
使用pymatgen获取晶体结构:通过材料ID或化学式查询。
批量下载结构数据:自动化脚本编写与数据管理。
批量生成计算文件:POSCAR、INCAR等。
自动化生成VASP输入文件。
编写Python脚本,从Materials Project下载一组材料的结构数据。
分析下载数据的格式与内容,提取关键信息(如晶格参数、原子位置等)。
使用pymatgen的API查询Materials Project数据库。
筛选特定条件下的材料数据:如元素组成、晶体结构类型等。
第三天下午
理论内容
介绍晶体结构与电子结构特点
晶体结构的基本概念:布拉维格子、空间群、对称性。
电子结构计算:能带计算流程、能带图的解读。
态密度分析:电子态密度的物理意义与计算方法。
电荷密度分析:电荷分布与材料性质的关系。
材料计算的特征工程
特征类型:空间特征(晶格参数、原子间距等)、拓扑特征(拓扑绝缘体的特征)、化学特征(元素组成、键合类型等)、物理特征(电子结构、力学性质等)。
统计特征与信息熵:如何从数据中提取统计信息。
领域特定特征的构建与优化:结合物理直觉与机器学习方法。
特征工程在材料计算中的重要性。
当前研究热点:如何通过特征工程提高机器学习模型的性能。
实操内容
实战3:VASP计算TiO2的电子能带结构和密度态、电荷密度、功函数
实战4:VASP和机器学习实现二维材料的高通量计算
第四天课程:掌握卷积神经网络、循环神经网络、图神经网络等深度学习模型的基本原理及其在材料科学中的应用。学会使用机器学习力场(如ML-FFs)结合分子动力学软件(如LAMMPS)进行复杂体系的模拟与分析。
第四天上午
理论内容
神经元的基本结构与功能。
常见激活函数:ReLU、Sigmoid、Tanh等。
前向传播与反向传播的基本原理。
网络结构设计:全连接层、卷积层、循环层。
CNN在图像识别中的应用。
RNN在序列数据处理中的优势。
GNN在材料科学中的应用:图结构数据的处理。
实操内容
PyTorch的基本功能与模块化设计。
构建简单的神经网络模型。
实战5:基于图神经网络的钠离子电池正极材料人工智能驱动设计
第四天下午
理论内容
讲解分子动力学模拟的基本原理
分子动力学的基本概念:牛顿运动方程的数值求解。
温度、压力与化学势的定义与计算:热力学量的统计计算方法。
微观状态与系综选择:NVT、NPT、NVE等系综的区别与应用场景。
时间步长与模拟精度的平衡:选择合适的模拟参数。
实操内容
实战6:如何通过机器学习力场提高分子动力学模拟的效率、力场的构建与训练:从第一性原理数据中训练机器学习力场模型、VASP-MD及机器学习力场计算:力场的构建与训练
实战7:AIMD在复杂体系中的应用与挑战、从头算分子动力学模拟AIMD后处理分析-轨迹分析:径向分布函数、扩散系数等。
第五天课程:通过实战案例,如催化剂设计、二维材料高通量计算等,巩固所学知识,提升解决实际问题的能力。学会使用开源工具(如pymatgen、matminer)获取材料数据,构建数据驱动的机器学习模型。
完成本课程后,学员将具备独立开展第一性原理与机器学习交叉研究的能力,能够运用所学知识解决材料科学中的实际问题,并为未来的研究工作奠定坚实的基础。
第五天上午
理论内容
LAMMPS输入文件的编写及任务提交
指导如何编写LAMMPS的输入脚本,并提交计算任务。
in文件基本语法:结合实例,讲解in文件常用命令
LAMMPS在材料科学中的应用现状与挑战。
当前研究热点:机器学习力场与LAMMPS的结合。
实操内容
实战8:如何通过机器学习势实现VASP与LAMMPS的无缝对接;PyXtal_FF的安装与配置:环境搭建与依赖安装;从VASP数据中训练机器学习势,并在LAMMPS中应用;通过LAMMPS模拟验证机器学习势的准确性。
第五天下午
实操内容
通过案例展示LAMMPS在模拟材料力学性能方面的应用-力学性能模拟:应力-应变曲线的计算:模拟材料的拉伸、压缩过程。弹性模量的计算:通过线性拟合应力-应变曲线得到弹性模量。断裂强度的模拟:分析材料在高应力下的断裂行为。
实战9:从第一性原理计算(如VASP)中提取数据:能量、力、应力等;数据清洗、归一化、划分训练集与测试集;使用机器学习框架(如Scikit-Learn、PyTorch)训练原子势模型;调整模型结构与超参数,提高模型的拟合能力和泛化能力;将训练好的模型导入LAMMPS,进行分子动力学模拟;比较模拟结果与第一性原理计算结果。
实战10:傅里叶定律与热扩散方程。分子动力学中的热导率计算:Green-Kubo公式与非平衡分子动力学方法;使用机器学习势(如MLIP)进行大规模分子动力学模拟;计算材料的热导率:通过模拟结果计算热流密度与温度梯度;编写LAMMPS输入脚本,使用机器学习势进行热导率计算。分析模拟结果,讨论材料的热导率与其微观结构的关系。
案例图片:
专题三、深度学习材料设计
第一天上午
理论内容
机器学习概述 :讲解机器学习的基本概念,包括监督学习、无监督学习和强化学习,以及机器学习在材料科学中的重要性和发展历程。
材料与化学中的常见机器学习方法 :介绍线性回归、逻辑回归、K 近邻方法、神经网络、决策树、集成学习方法、朴素贝叶斯和支持向量机等算法在材料与化学领域的应用场景和优缺点。
材料数据库 :介绍 Material Project、OQMD、AFLOW 等数据库的特点和使用方法。
材料特征工程 :讲解如何从材料数据中提取有用的特征,为后续的机器学习和深度学习模型构建提供高质量的输入。
实操内容
Python 基础 :包括开发环境搭建、变量和数据类型、列表、if 语句、字典、For 和 while 循环等基础知识的学习和练习。
Pytorch 深度学习框架演练 :安装和配置 Pytorch,通过简单的示例代码,学习基础的神经网络模型构建和训练方法。
第一天下午
实操内容
Pymatgen 介绍及结构文件生成 :学习 Pymatgen 库的基本功能,包括材料结构的表示、生成和操作,掌握如何使用 Pymatgen 构建和处理材料结构文件。
Pymatgen 构建机器学习特征 :利用 Pymatgen 提取材料结构的特征信息,为机器学习模型的训练提供数据支持。
ASE(Atomic Simulation Environment)的使用 :介绍 ASE 的基本功能和操作方法,学习如何使用 ASE 进行原子模拟和材料结构分析。
爬虫获取二维数据集 :通过编写爬虫程序,从相关数据库或网站获取二维材料数据集,并进行数据的预处理和整理,为后续的分析和建模提供数据资源。
第二天上午
理论内容
机器学习入门:线性回归 :详细介绍线性回归的原理、数学模型和求解方法,以及 L1 和 L2 正则项的作用和使用场景。逻辑回归 :讲解逻辑回归的原理、概率模型和训练方法,以及如何将其应用于分类问题。K 近邻方法(KNN) :介绍 KNN 分类原理及其在材料科学中的应用,包括距离度量、K 值选择和模型优化等方面的内容。
深度学习入门 :基础概念,包括神经网络、激活函数、损失函数等。神经网络方法的原理 :深入讲解神经网络的基本结构、工作原理和训练过程,包括前向传播、反向传播算法以及常见的神经网络优化技术。
实操内容
线性回归方法的实现与初步应用 :使用 Python 和相关机器学习库(如 scikit-learn)实现线性回归模型,并应用 L1 和 L2 正则项进行模型优化,通过实际案例数据进行训练和预测,掌握线性回归模型的构建和应用流程。
逻辑回归的实现与初步应用 :基于实际的材料分类问题,实现逻辑回归模型,并进行模型训练和评估,学习如何调整模型参数以提高分类性能。
KNN 方法的实现与初步应用 :利用 KNN 算法对材料数据进行分类,通过实验数据验证模型的有效性,并探索不同 K 值和距离度量方法对分类结果的影响。
神经网络实现 :使用深度学习框架(如 Pytorch)构建简单的神经网络模型,进行材料性能预测等任务,学习如何设计网络结构、选择激活函数和优化算法,以及如何训练和评估神经网络模型的性能。
第二天下午
项目实操
利用机器学习设计高体积模量高熵合金 :通过收集高熵合金的相关数据,进行数据预处理和特征提取,选择合适的机器学习算法(如神经网络、决策树等)构建模型,预测高熵合金的体积模量,并根据预测结果指导高熵合金的设计和优化。
训练机器学习模型预测多孔材料的催化性能 :获取多孔材料的结构和催化性能数据,进行数据清洗和特征工程,运用机器学习方法(如线性回归、支持向量机等)训练模型,预测多孔材料的催化活性和选择性等性能指标,分析模型结果与材料结构之间的关系,为多孔材料的性能优化提供理论支持。
穿插讲解内容
A1 机器学习材料与化学应用的典型步骤 :
数据采集和清洗 :介绍如何从实验、数据库或文献中获取材料数据,并进行数据清洗、缺失值处理和异常值检测等操作,确保数据的质量和可用性。
特征选择和模型选择 :讲解特征选择的方法和重要性,以及如何根据问题类型和数据特点选择合适的机器学习模型,包括模型的评估指标和比较方法。
模型训练和测试 :详细阐述模型训练的过程,包括数据划分、参数优化和交叉验证等技术,以及如何使用测试集对模型进行评估和验证,确保模型的泛化能力和预测性能。
模型性能评估和优化 :介绍常见的模型性能评估指标(如准确率、召回率、F1 值、均方误差等)及其计算方法,探讨模型优化的策略和方法,如超参数调优、模型集成等,以提高模型的准确性和稳定性。
第三天上午
理论内容
决策树 :讲解决策树的原理、分裂准则(如信息增益、基尼系数等)和构建过程,以及决策树在材料分类和回归问题中的应用。
集成学习方法 :介绍集成学习的基本原理和方法,包括随机森林、Bosting 方法(如 AdaBoost、Gradient Boosting 等)等,分析集成学习的优势和应用场景,以及如何通过组合多个基学习器来提高模型的性能和泛化能力。
朴素贝叶斯概率 :讲解朴素贝叶斯的原理解析和模型应用,包括贝叶斯定理、条件独立假设以及朴素贝叶斯分类器的训练和预测过程,探讨其在材料文本分类、材料性能预测等领域的应用案例。
支持向量机 :详细介绍支持向量机的分类原理、核函数的选择和作用,以及支持向量机在材料数据分类和回归问题中的应用,包括软间隔和硬间隔的概念及其在处理线性和非线性数据时的策略。
实操内容
决策树的实现和应用 :使用 Python 的机器学习库(如 scikit-learn)实现决策树模型,通过实际的材料数据集进行训练和测试,掌握决策树的参数调整和剪枝操作,以提高模型的准确性和可解释性。
随机森林的实现和应用 :基于随机森林算法构建集成学习模型,对材料数据进行分类和回归分析,比较随机森林与单个决策树模型的性能差异,理解随机森林在处理高维数据和防止过拟合方面的优势。
朴素贝叶斯的实现和应用 :实现朴素贝叶斯分类器,并将其应用于材料相关的文本分类任务或材料性能的预测问题,学习如何处理离散型和连续型特征数据,以及如何评估朴素贝叶斯模型的分类效果。
支持向量机的实现和应用 :使用支持向量机模型对材料数据进行分类和回归建模,学习如何选择合适的核函数(如线性核、多项式核、径向基核等)和调整模型参数(如惩罚参数 C、核函数参数 gamma 等),通过实际案例分析支持向量机在材料科学问题中的应用效果和局限性。
第三天下午
项目实操
使用实验数据训练机器学习模型预测金属有机框架材料中的气体吸附 :收集金属有机框架材料的实验数据,包括材料结构特征、孔隙率、比表面积等信息以及气体吸附性能数据,进行数据预处理和特征工程,选择合适的机器学习模型(如随机森林、支持向量机等)进行训练和优化,预测金属有机框架材料对不同气体的吸附量和选择性,分析模型结果与材料结构之间的关系,为金属有机框架材料的设计和筛选提供指导。
通过机器学习方法筛选新型四元半导体化合物 :获取四元半导体化合物的相关数据,如元素组成、晶体结构、电子性质等,利用机器学习算法(如决策树、朴素贝叶斯等)建立模型,对化合物的性能进行预测和评估,筛选出具有潜在应用价值的新型四元半导体化合物,为新材料的研发提供理论支持和方向。
穿插讲解内容(约 1 小时)
A1 模型性能的评估方法 :
交叉验证 :详细介绍交叉验证的原理和方法,如 k 折交叉验证、留一法交叉验证等,讲解如何通过交叉验证评估估计器的性能,避免过拟合和欠拟合问题,提高模型的可靠性和稳定性。
分类性能评估 :针对分类问题,深入讲解常见的分类性能评估指标,如准确率、召回率、F1 值、ROC 曲线、AUC 值等的计算方法和意义,通过实际案例演示如何综合运用这些指标对分类模型的性能进行全面评估和比较。
回归性能评估 :对于回归问题,介绍常用的回归性能评估指标,如均方误差(MSE)、均方根误差(RMSE)、平均绝对误差(MAE)、决定系数(R²)等,分析这些指标在衡量回归模型预测准确性方面的特点和适用场景,指导学生如何根据实际问题选择合适的回归性能评估指标,并对回归模型进行优化和改进。
第四天上午
理论内容
无监督学习 :介绍无监督学习的概念和常见算法,包括聚类(如 K-Means、层次聚类、DBSCAN 等)和降维(如主成分分析 PCA、t-SNE 等)的方法和原理,以及其在材料科学数据挖掘和特征提取中的应用。
材料与化学数据的特征工程 :重点讲解分子结构表示和独热编码的方法和技巧,以及如何对材料数据进行特征提取和转换,以提高数据的质量和模型的性能。
数据库 :进一步介绍 Pymatgen 在材料数据处理和分析中的高级应用,以及如何利用 Pymatgen 与材料数据库进行交互和数据获取。
实操内容
分子结构的表示与特征提取 :学习如何使用不同的方法(如 SMILES 表示法、分子指纹等)对分子结构进行表示,并通过特征提取技术将分子结构信息转化为可用于机器学习和深度学习模型的数值特征向量,掌握相关的 Python 库(如 RDKit)的使用方法和操作技巧。
聚类、降维等无监督学习方法应用于分子特征处理 :运用聚类和降维算法对分子特征数据进行分析和处理,通过实际案例学习如何选择合适的聚类方法和降维技术,对分子数据进行分组和可视化,挖掘分子数据中的潜在模式和结构信息,为后续的材料设计和性能预测提供依据。
第四天下午
项目实操
在机器学习技术的指导下加速钙钛矿材料的发现 :收集钙钛矿材料的相关数据,包括材料组成、结构参数、光电性能等信息,利用机器学习模型(如神经网络、随机森林等)对钙钛矿材料的性能进行预测和优化,通过高通量筛选和数据驱动的方法,加速钙钛矿材料的发现和设计过程,提高材料研发的效率和成功率。
机器学习对 CO₂ 封存的解释和预测 :获取 CO₂ 封存相关的材料数据(如吸附剂材料的结构和性能、地质封存材料的特性等),应用机器学习方法(如线性回归、支持向量机等)建立模型,对 CO₂ 封存的效率、容量和稳定性等进行预测和分析,深入理解机器学习模型对 CO₂ 封存过程的解释机制,为 CO₂ 封存技术的发展和应用提供理论支持和决策依据。
第五天上午
理论内容
材料生成中的机器学习原理
生成模型概述 :介绍生成模型的基本概念,如概率生成模型和条件生成模型,解释它们如何用于材料结构和性能的生成。生成对抗网络(GAN) :讲解 GAN 的原理,包括生成器和判别器的对抗训练过程,以及如何通过 GAN 生成新材料结构。
变分自编码器(VAE) :介绍 VAE 的原理,包括编码器和解码器的结构,以及如何通过 VAE 进行材料结构的生成和采样。
材料生成的应用案例:新材料设计 :展示如何使用 GAN 和 VAE 等生成模型设计新型材料,如二维材料、晶体结构等。材料性能优化 :讲解如何通过生成模型优化材料性能,如提高材料的导电性、强度等。
实操内容
材料生成模型的实现
构建生成对抗网络(GAN) :通过代码示例,指导学生构建一个简单的 GAN 模型,用于生成材料结构。练和评估生成模型 :指导学生训练 GAN 模型,并使用评估指标(如 inception score、 Fréchet inception distance)评估模型的性能。
材料生成的应用实践
生成新型二维材料结构 :使用训练好的 GAN 模型生成新型二维材料结构,并可视化生成结果。优化材料性能 :通过调整生成模型的参数和训练数据,优化生成材料的性能。
第五天下午
理论内容
材料力学性能预测原理
力学性能与材料结构的关系 :讲解材料力学性能(如弹性模量、屈服强度等)与材料微观结构之间的关系。
机器学习在力学性能预测中的应用 :介绍机器学习方法(如线性回归、支持向量机、神经网络等)如何用于材料力学性能的预测。
力学性能预测模型的评估
评估指标 :介绍常用的评估指标,如均方误差(MSE)、均方根误差(RMSE)、决定系数(R²)等。模型选择和优化 :讲解如何选择合适的机器学习模型,并通过超参数调优等方法优化模型性能。
实操内容(约 1.5 小时)
力学性能预测模型的实现
数据预处理和特征提取 :指导学生对材料力学性能数据进行预处理和特征提取。
构建预测模型 :使用 Python 机器学习库(如 scikit-learn)构建线性回归、支持向量机、神经网络等模型,用于预测材料的力学性能。模型训练和评估 :指导学生训练预测模型,并使用评估指标评估模型的性能。
力学性能预测的应用实践
预测材料的弹性模量 :使用训练好的模型预测材料的弹性模量,并分析预测结果与实验数据之间的差异。优化材料性能 :通过调整模型参数和特征工程,优化预测模型的性能,提高预测精度。
索比光伏网 https://news.solarbe.com/202506/10/390148.html