单层二维材料数据库(ML2DDB)¶
Zhongwei Liua, b, #, Zhimin Zhangc, #, Xuwei Liuc, #, Mingjia Yaob, Xin Hea, Yuanhui Sunb, , Xin Chenb, , Lijun Zhanga, b, *
a 吉林大学材料科学与工程学院,汽车材料教育部重点实验室,集成光电子学国家重点实验室,中国长春 130012
b 苏州实验室,中国苏州 215123
c 百度公司,中国北京
# 这些作者对本工作贡献相同。
电子邮箱: sunyh@szlab.ac.cn; chenx01@szlab.ac.cn; lijun_zhang@jlu.edu.cn
摘要¶
发现具有定制属性的二维(2D)材料对于满足柔性电子、光电子、催化和储能等领域日益增长的高性能应用需求至关重要。然而,当前的二维材料数据库受限于规模和组成多样性。在本研究中,我们介绍了一种可扩展的主动学习工作流,该工作流将深度神经网络与密度泛函理论(DFT)计算相结合,以高效探索大量候选结构。这些结构是通过物理信息驱动的元素替换策略生成的,从而实现了对稳定二维材料的广泛和系统性发现。通过六轮迭代筛选,我们建立了单层二维材料数据库(ML2DDB),其中包含 242,546 个经 DFT 验证的稳定结构——这一数量比已知最大的二维材料数据库增加了一个数量级。特别是三元和四元化合物的数量增长最为显著。结合该数据库与生成式扩散模型,我们展示了在特定化学和对称性约束下有效的结构生成能力。这项工作实现了二维材料数据扩展与应用的有机闭环,为新材料的发现提供了新的范式。
二维材料数据集¶
我们开发了 ML2DDB,这是一个大规模的二维材料数据库,包含超过 24.2 万个经 DFT 验证的单层结构(𝐸hull𝐷𝐹𝑇 <50 meV/atom),代表了现有数据集 10 倍的增长。主要特点包括:
- 广泛的元素覆盖:涵盖周期表中的 81 种元素(不包括放射性/稀有气体)。
- 增强的多样性:与之前的工作相比,包含 3–4 种不同元素的化合物显著增加。
- 结构丰富性:多样的原型和阴阳离子组合。
- 扩展资源:超过 100 万个候选结构(𝐸hullMLIP <200 meV/atom)可供未来研究使用。
S.U.N. 材料的扩散模型生成¶
生成 S.U.N.(稳定、唯一、新颖)二维材料的能力是扩散模型的前提条件。我们将相对于 ML2DDB 且 𝐸hull𝐷𝐹𝑇 < 100 meV/atom 的生成结构视为稳定结构。唯一性是指生成的结构是否与同一批次生成的任何其他结构匹配,新颖性是指它是否与 ML2DDB 中的任何结构相同。如图 5b 所示,我们对 1024 个结构进行了 DFT 结构优化以评估稳定性属性。结果显示,其中 74.8% 被认为是稳定的(𝐸hull𝐷𝐹𝑇 < 100 meV/atom),这与 MatterGen 的 3D 稳定结构生成成功率相当。当约束条件设置为 𝐸hull??𝐹𝑇 < 0 meV/atom 时,我们的方法实现了 59.6% 的成功率,显著高于 MatterGen(约 13%)。此外,生成结构的均方根位移(RMSD)与 DFT 弛豫结构相比低于 0.26 Å,仍小于氢原子的半径(0.53 Å)。对于唯一结构的生成,当生成一千个结构时,成功率达到 100%。当生成一万个结构时,该比率仅下降 4.4%。对于新结构的生成,当生成结构从一千增长到两千时,比率从 100% 下降到 73.5%。这表明我们的模型具有相对出色的生成全新稳定结构的能力。
结论¶
本研究建立了一个新颖的框架,整合了主动学习工作流与基于条件扩散的结构生成,实现了二维材料数据库前所未有的扩展。主要贡献包括:
- 数据集进展
- 创建了包含超过 242,546 个热力学稳定二维材料(E_hull^DFT <50 meV/atom)的 ML2DDB,超过现有数据库 10 倍以上。
- 三元和四元化合物分别实现了 1100% 和 960% 的增长。
- 生成了超过 100 万个候选结构(𝐸hullMLIP <200 meV/atom)。
- 方法创新
- 开发了在稳定性分类中准确率达到 92.36% 的 MLIP 模型。
- 通过集成扩散模型,实现了相图生成和特定空间群的设计。
- 展示了在非线性光学和铁电材料发现中的适用性。


