纳米人-斯坦福张首晟：机器学习助力新材料发现！

斯坦福张首晟：机器学习助力新材料发现！

丫丫纳米人 2018-07-15

发表截图-.png

第一作者：Quan Zhou、Peizhe Tang、Shenxiu Liu

通讯作者：张首晟

通讯单位：斯坦福大学

研究亮点:

1. 无监督机器（Atom2Vec）可以从已知化合物和材料的庞大数据库中自己学习原子的基本属性。

2. 使用原子向量作为神经网络和其他ML模型的基本输入单元，这些ML模型被设计和训练以预测材料属性，展示了显著的准确性。

在过去的20年中，通过实验探索和数值模拟，在材料科学中积累了前所未有的大量数据。庞大的数据集还需要基于数据的统计方法来实现。因此，出现了一种新的范例，旨在利用人工智能（AI）和机器学习（ML）技术来辅助材料的研究和发现。

尽管到目前为止取得了成功，但这些工作在很大程度上依赖于研究人员明智地选择相关描述，因此，从理论的角度来看，智力程度仍然非常有限。实际上对于机器来说，额外的计算通常是不可避免的，以解释和理解这些以抽象的人类知识形式存在的原子描述符号。

有鉴于此，斯坦福大学的张首晟教授为了创建更高级别的AI并克服实际限制，提出了Atom2Vec，它允许机器从数据中学习他们自己的原子知识。

图1 Atom2Vec从材料数据库中学习原子的工作流程

Atom2Vec仅考虑材料数据库中化合物的存在，而不考虑材料的任何特定属性。这个庞大的数据集以无人监督的方式用于材料科学的学习。由于缺少材料属性标签，Atom2Vec不会偏向于某个方面。因此，只要数据集足够大且具有代表性，所学习的知识原则上可以产生原子完整和通用的描述。

Atom2Vec遵循核心思想，即原子的属性可以从它所处的环境中推断出来，这类似于语言学中的分布假设。在化合物中，每个原子可以被选择作为目标类型，而环境是指所有剩余的原子以及它们相对于目标原子的位置。直观地说，类似的原子倾向于出现在相似的环境中，这使我们的Atom2Vec能够从原子和环境之间的关联中提取知识，然后以矢量形式表示它。

所学习的特征向量不仅很好地捕捉了向量空间中原子的相似性和性质，而且在用于材料科学的ML问题时也显示出它们优于简单经验描述符的优越性。预计其有效性和广泛的适用性可以极大地推动当今材料科学中的数据驱动方法，特别是对于最近提出的深度神经网络方法。

这里有关于特征学习方法的几个方向值得在将来探讨。例如，元素-环境矩阵可以推广到更高阶的张量，其中额外的阶数描绘了组合的不同部分。这样的张量应该包含比矩阵更精细的信息，如何从这个高阶对象中提取特征仍然是一个悬而未决的问题。

此外，更加合理的环境描述对于改进无模型和基于模型的方法都是必要的。必须考虑结构信息，以准确地模拟原子如何结合在一起形成环境或化合物，其中对在递归和基于图形的神经网络上的发展可能有所帮助。

图2通过无模型方法学习主要元素的原子向量

图3对预测ABC2D6形成能量的主要元素原子向量评估

图4通过无模型方法和评估半赫斯勒化合物中学习主要群体之外的官能团和元素的原子向量

总之，该研究从已知现有材料的数据库中引入无监督的原子学习，并通过AI重新发现周期表。研究中的ML模型被设计和训练以预测材料属性，展示了显著的准确性。

参考文献：

Zhou Q, Tang P, Liu S, et al. Learning atoms for materials discovery[J]. Proceedings of the National Academy of Sciences, 2018: 201801181.

DOI: 10.1073/pnas.1801181115

http://www.pnas.org/content/early/2018/06/25/1801181115.short

加载更多

分子机器

2773

版权声明：

1）本文仅代表原作者观点，不代表本平台立场，请批判性阅读！ 2）本文内容若存在版权问题，请联系我们及时处理。 3）除特别说明，本文版权归纳米人工作室所有，翻版必究！