当地韶光2023年11月21日,据《科学》(Science)杂志宣布,人工智能(AI)有望帮助科研职员消化大量论文,但面临技能和法律障碍。

约瑟夫·吉迪奥蒂斯(Iosif Gidiotis)今年开始攻读瑞典皇家理工学院(KTH Royal Institute of Technology)教诲技能博士学位,获悉AI驱动的新工具可以帮助“消化”文献,很感兴趣。

在环球科学领域,去年共揭橥了近300万篇论文。
在论文数量激增的情形下,AI研究助理“听起来很棒”。

吉迪奥蒂斯希望AI能够找到与其研究问题更干系的论文,并总结出亮点。
然而事情并不如他想象中顺利。
当他考试测验利用一种名为Elicit的AI工具时,他创造只有部分干系,而且Elicit的择要不足准确,无法知足他的需求。
“得到Elicit的结果后,你的直觉是要自己阅读原文来验证摘假如否精确,以是它并不能节省韶光。

科学AI有望资助消化海量论文仍面临技能和司法障碍

Elicit“表示”,它正在连续为25万普通用户改进算法。
在一项调查中,该工具均匀每周为人们节省90分钟的阅读和搜索韶光。
据悉,Elicit由一家非营利性研究组织创建于2021年,旨在帮助科学家浏览文献。

“这些平台呈爆炸式增长。
”安德里亚·基亚雷利(Andrea Chiarelli)说,她在研究咨询公司(Research Consulting)的出版事情中关注AI工具,然而,这些工具的天生系统随意马虎产生虚假内容,并且许多搜索到的论文都须要付费。

基亚雷利表示:“很难预测哪些AI工具会占上风,而且有一定程度的炒作,但它们显示出巨大的前景。

与引发环球关注的 ChatGPT(OpenAI研发的一款谈天机器人程序)和其他大措辞模型 (LLM) 一样,一些新工具在大量文本样本上进行“演习”,学习识别单词关系,这些关联使算法能够对搜索结果求和。
它们还根据论文中的高下文识别干系内容,相较于仅利用关键字查询,会产生更广泛的结果。

从头开始培训大措辞模型对大部分组织来说太过昂贵,因此Elicit和其他AI工具利用开源的大措辞模型,而在其用于“演习”的文本中,许多是非科学的。

有些AI工具走得更远。
例如,Elicit 按观点组织论文,查询“过多咖啡因”,可以涌现关于“减少嗜睡”和“危害运动表现”的单独论文集。
高等版本每月收费10美元,还可利用额外的内部编程来提高准确性。

另一个名为 Scim 的工具有助于将读者的目光吸引到论文最干系的部分。
该工具是非营利性组织——艾伦AI研究所(Allen Institute for AI)创建的语义阅读器(Semantic Reader)工具的一项功能,它像一个自动墨迹荧光笔,用户可以对其进行自定义,运用于有关新颖性、目标和其他主题的陈述。

“它供应了一篇论文是否值得阅读的快速诊断和分类,这非常有代价。
”美国密歇根大学(University of Michigan)的信息科学家艾达(Eytan Adar)说,他试用过早期版本。
还有一些工具可以注释择要,许可用户自己判断准确性。

为了只管即便避免产生缺点的相应,艾伦研究所(Allen Institute)利用受过科学论文“演习”的大措辞模型来操作语义阅读器,但这种方法的有效性很难衡量。
美国麻省理工学院(Massachusetts Institute of Technology)的打算机科学家迈克尔·卡宾(Michael Carbin)说:“这些都是边缘的技能难题。

艾伦研究所语义学者(Semantic Scholar)论文库的首席科学家韦尔德(Dan Weld)的说:“目前,我们拥有的最佳标准是让受过良好教诲的人来不雅观察AI输出并仔细剖析它。

该研究所已经网络了300多名付费研究生和数千名志愿测试职员的反馈。
质量考验显示,将Scim运用于非打算机科学论文会产生故障,因此该研究所目前仅为大约55万篇打算机科学论文供应Scim。

其他研究职员强调,只有当开拓职员和用户能够访问论文全文,为搜索结果和内容剖析供应信息时,AI工具才能发挥潜力。
澳大利亚皇家墨尔本理工大学(Royal Melbourne Institute of Technology,RMIT)打算措辞学家卡琳·弗斯普尔(Karin Verspoor)说:“如果我们不能访问文本,那么我们对这些文本中所捕获的知识的意见就很有限。

环球最大的科学出版商爱思唯尔(Elsevier)也将其AI工具限定在论文择要上。
今年8月,这家商业公司在其Scopus数据库中首次推出了AI赞助搜索功能,该数据库列出了9300万篇研究出版物,成为最大的研究出版库之一。
为了相应查询,其算法会识别最干系的择要,并利用 ChatGPT来供应整体择要。

Scopus AI还按观点对择要进行分组。
目前,用户的反馈是:这种方法足以“帮助跨学科领域的研究职员快速理解特定主题” 。

艾伦研究所采纳了不同的方法:它与50多家出版商会谈达成协议,许可其开拓职员对付费论文的全文进行数据挖掘。
韦尔德说,险些所有的出版商都免费供应访问权限,由于AI为他们带来流量。
即便如此,根据容许限定,Semantic Reader用户只能访问Semantic Scholar的6000万篇全文论文中的800万篇全文。

实现大规模的数据挖掘还须要让更多的作者和出版商采取非PDF格式,以帮助机器有效地消化论文的内容。
美国白宫2022年的一项指令哀求,由联邦资金制作的文件必须是机器可读的,但各机构尚未提出细节。

只管面临寻衅,打算机科学家已经在寻求开拓更繁芜的AI,以从文献中网络更丰富的信息。
他们希望网络线索以加强药物创造并不断更新系统评价。
例如,由美国国防高等研究操持局(Defense Advanced Research Projects Agency)支持的研究探索了一种能够自动天生科学假设的系统。

目前,利用AI工具的科学家须要保持合理的疑惑态度,美国马萨诸塞大学阿默斯特分校(University of Massachusetts Amherst)交互式信息访问系统研究者哈米德·扎马尼(Hamed Zamani)说:“LLM肯定会变得更好。
但现在,它们有很多局限性。
它们供应了缺点的信息。
科学家们该当非常清楚这一点,并仔细检讨它们的输出。