近几年,例如 Materials Genome Initiative 和 Material Project 等的研究机构创造了许多用于新材料制造的打算工具。利用这些工具制造的材料被广泛运用在从航资质料到能源电路等的浩瀚方面。
但是,新材料的研制过程越来越依赖于对付科研履历,直觉,以及研究论文的系统性剖析。
一支由来自美国麻省理工学院(MIT),马萨诸塞大学阿默斯特分校(University of Massachusetts at Amherst),以及加州大学伯克利分校(UCB)的研究团队开展了旨在实现材料研究自动化的科研项目。研究职员研发了一种能够剖析科研论文并从中总结出新材料“配方”的人工智能技能。
麻省理工学院(MIT)材料学与材料工程部(DMSE)的能量学 Atlantic Richfield 助理教授 Elsa Olivetti 表示:“目前,打算材料学的科学家在根据材料特性需求确定研制方向的方面做出了很大进步。这样一来,如何制造这种新材料便成为了材料学研究的瓶颈。”
研究职员希望,这项研究的成果将建立一个从数百万论文中提取的新材料“配方”的数据库。当科学家或工程师准备制造一种新材料时,他们可以将材料名称输入进系统,并输入其他如先驱材料、反应性子、制造过程等的条件,来获取制造配方。
为了实现这样的目标,Olivetti 和她的同事研发了一种新的人工智能系统。这种系统将能够剖析研究论文,推测出包含材料配方的段落,并将这些段落中的关键词进行分类:材料名称、性子数据、实验装置名称、操作环境、材料性子描述等等。
在团队发布在最新一期《材料化学》杂志上的论文中,研究职员展示了利用机器学习的系统能够通过剖析提取的数据来推断不同材料种类的共有特性(如材料制造的温度范围)和单个材料的某个特性(如在不同制造条件下材料的不同物理性状)。
这篇论文的首席作者是 Olivetti,其他作者为:MIT 研究生 Edward Kim,DMSE 博士后 Kevin Huang,UMass Amherst 电脑科学家 Adam Saunders 和 Andrew McCallum,UCB 材料学名誉教授 Gerbrand Ceder。
研究职员利用了有人为参与与无人为参与的机器学习结合演习研究所利用的系统。有人为参与意味着演习系统所用的数据将会首先被人做标注,而系统将会剖析得出数据与标注之间的联系。无人为参与意味着演习数据不会被标注,系统将会学习如何通过相似数据构造来将这些数据进行分类。
由于材料配方的数据提取是一项全新的研究领域,研究领域不存在任何的已标注的数据来供 Olivetti 和她的同事利用。这样一来,她们须要自己标注演习数据(约 100 篇论文)。
根据机器学习领域的标准,这样的演习数据规模很小。为了优化演习数据库,研究团队利用了谷歌研发的 Word2vec 算法。这种算法通过剖析关键词与高下文的联系来将拥有相似高下文的关键词进行归类。例如,如果一篇文章中有“我们将四氯化钛加热到 500 摄氏度”这样的句子,另一篇文章中有“氢氧化钠被加热到 500 摄氏度”这样的句子,Word2vec 算法会将“四氯化钛”和“氢氧化钠”归为一类。
这种算法能够将被运用到单个关键词上的标注同时运用到这个关键词所对应的组中,使研究职员能够大大扩充演习数据规模。这样一来,演习数据库从 100 篇论文扩展到了 640000 篇论文。
由于没有任何标准来衡量新系统处理没有人为标注的数据得到的结果,研究职员只能利用新系统处理人为标记的数据的结果来衡量系统的精准程度。测试结果表明,系统在确定包含新材料配方所在的段落时拥有 99% 的准确度,而在标注段落中关键词时拥有 86% 的准确度。
研究职员希望未来的研究能够提高系统的准确度,并已经开展了一系列帮助系统归类材料配方的机器学习技能。研究职员的终极目标是利用系统来推测出不存在于已发布论文中的全新材料配方。
Olivetti 过去的大部分研究看重于探索划算又环保的制造材料的方法。她希望这样的数据库也能够帮助她过去的研究项目。
加州大学圣巴巴拉分校材料学的 Fred and Linda R. Wudl 教授 Ram Seshadri 表示:“这样的研究具有重大意义。研究的发起人背负着利用人工智能来办理材料制造策略的重任。虽然研究已经展示了机器学习的能力,但要终极证明这样的系统的上风还须要确定实践者是否能够更相信这样的系统而不是自己的直觉来创造出可信的成果。”
此研究得到了美国国家科学基金会,美国海军研究处,美国能源部的,特殊是麻省理工学院能源操持的大力支持。Kim 得到了加拿大自然科学与工程研究理事会的部分支持。