继新闻、诗歌、小说、剧本之后,一贯在“作者”身份上寻求打破的AI又有了全新的考试测验。
这一次,它是从科技出版社施普林格·自然集团“出道”,为广大科学事情者、工程技能研发职员编写了一本247页的学术“书本”——《锂离子电池:机器天生的最新研究综述》(Lithium-Ion Batteries: A Machine-Generated Summary of Current Research)。
AI有可能开启科学出版的新时期吗?
AI“科学作者”出身
打开这本书的封面,读者很随意马虎把关注点落到它的“署名作者”——Beta Writer上。
实在,这位作者的真实身份,是德国法兰克福大学运用打算措辞学(ACoLi)实验室的AI研究职员开拓的一种算法。
大略说,Beta Writer所完成的事情便是用基于相似性的聚类程序将源文档排列成连贯的章节,然后再创建出简洁的论文择要集。
内容包括有关正极和负极材料以及分离器、聚合物电解质、热行为和建模等方面的最新研究信息。
这些源文档是从SpringerLink平台上挑选出来的、锂电池领域2016~2018 年揭橥的经由同行评议的 150 篇威信论文。
如果读者希望进一步查阅引文的原始来源,可以通过书中的超链接一键直达。
之以是要在锂电池领域出版一本研究综述书,施普林格·自然产品数据和元数据管理总监亨宁·什恩伯格在本书的“序言”中这样阐明:仅过去三年,就有超过5.3万篇有关锂电池的论文揭橥,这对想理解这一领域最新研究进展的科学家、技能职员来说是个巨大的寻衅。
用人工智能自动扫描并总结这些研究成果,可以帮助读者加快对某一特定研究领域的文献消化过程,而不是阅读数百篇已揭橥的文章。
这样他们就能把由此节省下来的韶光投入更主要的研究事情中。
实在,这便是信息超载时期,人工智能供应给研究职员一个快速进入一项研究主题的办理方案。
目前,该书以电子版的形式发布在Springer Link上,供读者免费下载。施普林格操持在未来利用该算法出版更多针对不同科研领域的书本。
《锂离子电池:机器天生的最新研究综述》
文本自动天生的寻衅
AI的这次“写作”试验在文本自动天生领域还不是一个多么惊人的成果。
学术文献自动综述的实质就相称于文本自动择要,这类研究在自然措辞处理和机器学习领域一贯都很生动。
由于信息检索技能的发展,它最早的运用需求就来自图书馆。图书馆须要为大量的文献书本天生择要,而自动择要的事情效率会比人工择要的办法高得多,因此,这种研究早在半个多世纪前就开始了。
文本择要技能是通过自动剖析给定的一篇文档,摘取个中的要点信息,终极输出一段短小的择要。
逐渐地,择要从单文档剖析到多文档剖析,直到输出一个择要集。
哈尔滨工业大学打算机学院社司帐算与信息检索研究中央助理研究员冯骁骋先容说,目前主流的文本自动择要紧张有两种办法,一种是抽取式,另一种是天生式。
抽取式的方法比较传统,它是对文档构造单元例如句子、段落等进行评价,并对每个构造单元授予一定权重,然后选择最主要的构造单元组成择要;而天生式文本择要紧张是依赖深度神经网络构造实现的,是基于对整篇文章的理解剖析,直接输出一个结果。
这便是2014年Google Brain团队最早提出的端到端模式。
施普林格的这本综述集更靠近第一种办法。AI研究职员阐明,科学出版物的读者更看重内容的精确性而不是措辞风格,尤其须要 “创造性”的自动化写作和保留出版物原始信息之间的平衡。
因此,他们采取了相对守旧的方法,基于文档聚类和排序、抽取总结、天生择要的改写。
冯骁骋表示,这个过程相称于一个管道体系构造,前一个模块的输出作为下一个模块的输入。“但它的劣势就在于,管道中的缺点传播。”
比如说,输入文档的预处理是一个非常主要的根本步骤,它包括了内部格式转换、书目剖析、词性的措辞注释、词元化、依存句法剖析、语义角色、共指等,以及对高下文敏感的短语的重新表述,如代词回指和话语连接的规范化。
而检测缺点的词语和句子会导致缺点的措辞注释,进而导致缺点的语法,终极产生无意义的句子重组。
由于“噪声”的步步积累,可能使天生的文本内容面孔全非。
因此,冯骁骋认为,目前,只管抽取式择要的方法比较成熟,但文本天生的质量以及内容的流畅度并不尽如人意,在实践中尤其难以精确处理长文本。
值得一提的是,《锂离子电池:机器天生的最新研究综述》终极成文未经任何人为的编辑与润色。
什恩伯格表示,这样做也是为了真实地显现文本自动天生内容确当提高展和剩余边界。
AI的学术判断可信吗?
正如施普林格自己所承认的,让人遗憾的是,该书的语法和句法都还有些拙劣。
不过,想要让AI在学术界真正“有所作为”,还在于它能否供应基于精确科学判断的、有代价的信息。
在文献情报学专家武夷山看来,这本AI“著作”充其量只是一篇超长的研究文章撮要,乃至间隔一篇合格的综述文章还差得很远。
他说,好的综述当然要对既往研究文献进行整理、归纳,但更主要的是它的评述部分。
作者须要对所综述的文献之代价进行合理的剖析和判断,就研究前沿和学术寻衅等议题提出自己的意见,这些内容可能对作为读者的研究职员有一定的启迪和导向意义。这是该 “著作”不具备的。
其余,科研职员对付本领域的研究进展的把握须要“与时俱进”,因此一定要不断浏览最新文献,为了节省阅读韶光而拿出一年乃至更长的韶光等待这样的机器天生长篇综述问世,肯定是不现实的。
这也意味着,这类自动天生的文本若真想发挥浸染,就须要知足用户的韶光哀求。
事实上,《锂离子电池:机器天生的最新研究综述》出版前,有一位中国学者已经连续6年在学术期刊《储能科学与技能》上做了一件同样的事——锂电池百篇论文点评。
中科院物理研究所研究员黄学杰带着他的学生,每两个月从最新揭橥的约2000篇锂电池论文中,人工筛选出100篇进行内容分类、归纳、总结、提炼,并加以评论。
“锂电研究方向非常热门,关注者浩瀚。这些年,环球月均产生的新文献数量在1000篇旁边。”黄学杰见告《中国科学报》,对很多工业界人士而言,能阅读大量英文文献的不多,为了帮助他们相对精准地追踪领域前沿进展,这么做是有必要的。
还有,大量论文的产出也伴随着许多重复性的、注水的内容。他也因此认为,供应基于专业学者判断和评价的综合信息做事是很主要的。
黄学杰表示,他们不以杂志影响因子和作者的有名度作为筛选和判断的标准,而纯挚从论文内容角度选择最有新意和研究潜力的。
要知道,锂电领域早期的主要论文险些都没有涌如今那些所谓的有名杂志上。
科学家对学术内容质量和代价的判断,是目前人工智能、文献检索无法替代的。这是由于机器理解的是规则,但无法理解代价和意义本身。
如此比对,黄学杰认为《锂离子电池:机器天生的最新研究综述》除了文本呈现的问题,比如不同章节内容编排的格式分歧一、信息罗列缺少完全逻辑链条,更主要的毛病还在于内容本身的事实偏差。
比如,书中对付某些锂电材料的先容并不符合现有行业市场的真实评价。且总体而言,书中的结论完备略去了最新研究方向存在的难点和问题。
“这是由于论文写作存在一个非常奇妙的征象,作者总是将自己研究方向上的困难和劣势隐蔽得特殊深,有的乃至刻意回避。机器通过论文择要摘编根本不可能创造这些隐性问题。”黄学杰指出。
学术文章因此科学性为生命的。可见,AI 想要作为“科学作者”的身份展示某一研究领域的“真面孔”,还有很长的学习之路要走。
《中国科学报》 (2019-06-14 第5版 文化 原题《一本AI写作的科研综述你读吗》)