研究背景

层状三元过渡金属硼化物(MABs) 由于独特的物理性子(如高强度、导电性等),在电催化、电化学、高温陶瓷等领域有广泛的运用前景。
个中,M2AB2在MBenes的合成中起着重要浸染。
然而,目前对M2AB2的研究仍将A位点局限于IIIA和IVA族元素,须要全面探索M2AB2的化学组分空间。

最近,在描述化合物的热力学稳定性时,常用的指标是分解反应到相应竞争相的能量ΔHd,可以通过凸包(convex hull,CH)剖析得到的,但由于须要手工编程和繁芜的数据处理,这种方法繁芜且本钱高。
此外,现有的小规模数据集也限定了一样平常机器学习(machine learning,ML)方法的发挥。

对此,北京航空航天算夜学孙志梅团队基于高通量智能打算平台(ALKEMIE),开拓了一个小数据集的机器学习方法来探索M2AB2的稳定性。
作者构建了3个M2AB2晶体构造数据集,研究不同构造和组分特色对稳定性的影响,研究成果扩展了MAB系列材料,并供应了一种基于小数据集的机器学习方法来预测新化合物。

AI计算材料ACS AMI机械进修扩展过渡金属硼化物家族

结果与谈论

DFT和ML的整体框架如图1所示。
首先,将所有优化好的构造随机分成三个数据集,即演习集(60%)、验证集(10%)和测试集(30%)。
其次,根据数据集天生相应的组成与构造特色;在演习集和验证集中,通过CH剖析得到作为ML目标的ΔHd值。
然后,基于原始特色和目标进行特色选择,选出优化后的特色子集;接着,基于演习集和验证集进行演习过程和实时的模型优化。
末了,得到可靠的模型,并在测试集上进行测试,根据DFT-ML结果评估MAB相的稳定性。

图1. DFT-ML整体框架

为了尽可能多地探索新的M2AB2,作者选择的DFT数据集的化学空间包括M = Sc、Y、Ti、Zr、Hf、V、Nb、Ta、Cr、Mo、W、Mn、Tc、Fe、Ru、Co、Rh、Ni和A = Zn、Cd、Al、Ga、In、Tl、Si、Ge、Sn、Pb、P、As、S,如图2所示。
本文共研究了234个正交晶系和234个六方晶系的M2AB2构造。

考虑到晶体对称性的影响,作者构建了3个DFT数据集:(I)包括234个正交晶系和234个六方晶系的M2AB2构造;(II)仅包含234个六方晶系的M2AB2构造;(III)仅包含234个正交晶系的M2AB2构造。

在特色天生过程中,为了天生高质量的输入矩阵,作者选择了13种组分和构造特色,包括元素性质、原子轨道、价电子轨道等,并利用了各种统计数据,例如均匀值和标准差等来描述这些特色。

对付数据集I,考虑到两种不同晶体对称性的影响,天生了87个组分和构造特色。
对付数据集II和III,由于每个数据集中只有一种晶体,因此产生了78个组分特色。

图2. 候选M2AB2的化学空间

考虑到M2AB2的规模(数据集I、II和III为468、234和234,<103)属于小样本建模,过大的特色数量级(102)可能无法演习出可靠的模型,导致维数灾害和模型性能不佳。
因此,作者利用MOD-selection算法进行特色工程。
利用MOD-selection算法,作者分别在数据集I、II和III的特色数阈值N = 5、10、15和20处得到了4个优化的特色子集。

为了展示特色选择的结果,作者以数据集I中的15个特色的子集为例,如图3所示。
均匀的Mendeleev Number(meanMN)在子集中排名第一,对目标ΔHd的影响占主导地位。
第二个特色 rNfV显示了f价电子对数据集I中ΔHd的主要影响。
除了meanMNrNfV之外,子集中的其他特色对ΔHd的影响相对较小,但对得到可靠的ML模型也做出了贡献。

特色选择完成后,对所有子集进行归一化处理,担保输入矩阵的所有列都在同一量纲,避免数据值的奇异性。
终极,对付三组M2AB2,演习过程的输入数据矩阵由相对付晶体数量的M行(数据集I为M = 326,数据集II和III为M = 164)和对应特色号的N列(N = 5、10、15和20)组成。
因此,在数据集I、II和III中,分别有142、70和70个晶体用于预测过程。

图3. 候选M2AB2的化学空间

为了避免小样本ML方法在演习过程中涌现过拟合或数据泄露的问题,作者基于holdout交叉验证方法剖析了演习集和测试集的统计分布。
统计结果如图4所示。
对付meanMN和均匀电负性(图4a、c),构造特色(c轴的晶格常数,图4b)、目标ΔHd(图4d)等,演习集和测试集的分布基本同等。
此外,ΔHd在演习集和测试集上的取值范围均为-0.05~0.65 eV/atom,符合正态分布。
因此,在数据的统计分布方面可以有效避免过拟合或数据泄露问题。
图4. 均匀Mendeleev Number,晶格常数(c轴),均匀电负性,和ΔHd的频率分布直方图,蓝色和橙色表示演习和测试数据为了减少小样本对模型精度的影响,作者在深度神经网络(deep neural network,DNN)中采取了Batch归一化和Dropout层等一系列方法。
此外,为了得到高精度和高效率的最佳模型,作者创建了一系列具有不同隐蔽层构造的DNNs,并在1000个epoch中选择具有不同特色数阈值(N = 5、10、15和20)的子集对这些网络进行演习。

在15个特色子集上演习的两种隐蔽层构造(200、100和40)的DNN具有最小的均匀绝对偏差(MAE,0.041 eV/atom)和RMSE (0.049 eV/atom),当选为预测数据集I中预测ΔHd的最佳模型。
图5a显示了隐蔽层为200、100和40的模型在验证数据集上的回归性能。
大多数数据点分布良好,这意味着该模型具有良好的回归性能。
为了评估模型的热力学稳定性分类性能,作者利用图5b中演习集和验证集的数据点绘制了一个稠浊矩阵。

在稠浊矩阵中,虚线表示ΔHd(70 meV/atom)的阈值,它将数据点分为四部分(TP,TN,FP,FN)。
紫色点(TP和TN)代表精确识别为热力学亚稳或不稳定相的M2AB2对应的数据,而橙色点(FP和FN)代表缺点分类的M2AB2。
总体分类准确率达到90%,表明该模型具有出色的分类性能。

1000个epoch的演习集和验证集的均方偏差(MSEs)如图5c所示。
演习集和验证集的MSE丢失函数分别收敛于0.0042和0.0024,表明模型得到了充分的拟合。
此外,数据集I、II和III在未知测试集上的表现也进一步验证了模型的可靠性。
图5.(a) DFT打算的ΔHd和预测的ΔHd比较;(b)将ΔHd预测运用于稳定性预测得到的稠浊矩阵;(c)1000个epoch中演习集和验证集的MSE loss

评估ML模型的可阐明性具有主要意义。
一个可阐明的模型可以挑选出上风特色,并拟合出目标与特色之间的关系。
图6显示了ΔHd上一些主要特性的协同效应。
在图6a中,对付数据集I中的稠浊晶体类型模型,c轴的晶格常数可以看作是六方晶系(蓝色,<10 Å)和正交晶系(赤色,>10 Å)的显著特色。

大多数蓝色点低于赤色点,这表明六方晶系的M2AB2一样平常比正交晶系的M2AB2更稳定。
在图6b中,最大Mendeleev Number(A原子的基团数)与ΔHd没有明显的关系。

然而,对付某一种A原子,所有稳定或亚稳态M2AB2(ΔHd < 70 meV/atom)都具有5种类型的未填电子轨道(NUnfill = 5),不稳定M2AB2呈现NUnfill≤5。
也便是说,NUnfill = 5是M2AB2热力学稳定的必要条件。
图6c显示了数据集II的两个主要特色。
当最大Mendeleev Number或A元素类型不变时,特色均匀电负性直接由M元素的电负性决定。
在图6d中,对付数据集III,与数据集I和数据集II比较,Mendeleev Number最大的ΔHd的总体增长趋势更为明显。
图6. 可视化预测ΔHd和主要特色,互补的特色在一定程度上缩小了ΔHd的目标范围,并表现出ΔHd的变革趋势

采取ML和DFT相结合的方法,系统地研究了六方晶系和正交晶系M2AB2在化学空间中的热力学稳定性。
考虑到不同晶体构造对称性的数据集I、II和III演习的三个DNNs,并且每组的演习和测试数据集是随机分开的,六方晶系和正交晶系M2AB2的DFT打算或ML预测结果ΔHd以热图的形式同时展示。
数据集I、数据集II和III的ΔHd热图如图7所示。

一样平常来说,每个热图中网格从左到右的颜色变革(从蓝色到赤色)表明,前面的过渡金属可以稳定六方晶系和正交晶系的M2AB2构造。
这种趋势与作者的ML模型创造的组分特色均匀Mendeleev Number是同等的。
含有过渡金属Tl和Pb的晶体在六方晶系和正交晶系中都相称不稳定。
含Al正交晶系的构造ΔHd值较低(图7b,d),解释正交晶系有利于M2AlB2的稳定性。
此外,数据集I和II中的六方晶系Zr2PbB2(图7a,c)和数据集I和III中的正交晶系Mo2AlB2(图7b,d)的稳定性与之前的DFT打算相对应。

此外,还创造了3个负ΔHd的新M2AB2具有较高的合成可能性。
在数据集I和II中,它们是六方晶系的Nb2PB2,Nb2AsB2和Zr2SB2(图7a,c),这为将MABs扩展到VA和VIA族供应了机会。
图7. 数据集I中六方晶系(a)和正交晶系(b)以及数据集II中六方晶系(c)和数据集III中正交晶系(d)的M2AB2 ΔHd热图

此外,为了评价热力学稳定性相对较低的体系的热稳定性,作者选择了ΔHd值在65~75 meV/atom之间的三种亚稳相,包括六方晶系的V2AsB2和Ta2AsB2以及正交晶系的Hf2CdB2。

然后,作者通过10 ps的AIMD仿照测试了它们在300 K下的热稳定性。
通过力学稳定性和动力学稳定性评估,担保了MAB相的理论存在性。
作者打算了M2AB2的力学性能和声子谱。
用DFTP法打算了M2AB2的刚度常数和声子谱。

末了得到38个六方晶系和19个正交晶系理论稳定的M2AB2。
M2AB2的理论体积模量(K)、剪切模量(G)和杨氏模量(E)分别为76~280 GPa、39~193 GPa和100~454 GPa和68~272 GPa、47~175 GPa和115~404 GPa。
个中,六方晶系的V2PB2(454 GPa)和Nb2PB2(414 GPa)表现出较高的强度,模量值也相对较高,乃至远远大于先前宣布的MABs和MAXs。

总结展望

作者演习了三种不同的ML模型,将DFT和ML相结合来预测ΔHd和相应的M2AB2的热力学稳定性。
与打算的DFT比较,模型的预测精度高(>95%)且具有较低的MSE(~0.003),因此可以作为预测ΔHd的可靠工具。
模型揭示了ΔHd和稳定性之间的定量关系,创造了3个稳定的六方晶系M2AB2,和75个亚稳态M2AB2。
这项事情为小样本ML建模供应了一种方法,以加速化合物的创造,并将MAB系列化合物扩展到VA和VIA族。

文献信息

Yuqi Sun, Guanjie Wang, Kaiqi Li, Liyu Peng, Jian Zhou, Zhimei Sun. Accelerating the Discovery of Transition Metal Borides by Machine Learning on Small Data Sets. ACS Applied Materials & Surfaces 15, 24, 29278-29286 (2023)