编辑:克雷格、三石

整理:三石

【新智元导读】在生物医学领域的论文中,AI已经搜索出9%的高度重复图像,0.59%的论文被认为存在敲诈嫌疑。
因图像造假撤回的医学论文,一年韶光可能摧残浪费蹂躏靠近10亿美元的研发本钱。

“打击论文造假,掩护科研正义”。
这不是一句喊口号的话。

论文造假被AI抓机械进修检测4千多论文造假年损失达10亿美元

今年6月,斯坦福大学微生物学家剖析了2009-2016年揭橥在分子与细胞生物学(MCB)上的960篇论文,创造个中59篇(6.1%)含有“不适当的”重复图像,约有2%值得再去进行图像证伪。

不过,斯坦福大学微生物学家的事情完备依赖手动,五位研究职员靠十只手从近1000篇论文里总结出了这一成果。

现在,AI的参与让论文中的可疑图像被创造的概率大大提升,一个显著的成果是,在生物医学领域的论文中,AI已经搜索出9%的图像是高度重复的,0.59%的论文被认为存在敲诈嫌疑。

用AI打击论文图像造假,仍有4000多篇医学“问题论文”

利用AI来打击论文图像造假的事情是由纽约雪城大学(Syracuse University)机器学习研究员开拓算法,他们剖析了PubMed Open Access子集(PMOS)中截止到2015年发布的所有数据,包含了760036篇文章、超过200万的数据。

研究职员构建了一个pipeline,以自动检测不适宜图像重用候选工具,在初步检测之后,删除了可能只是文本的图像或表示为图像的方程式,留下了大约200万张图片。

接着,研究职员创造每张图像均匀有大约1K高熵关键点,这产生了大的相似度检测问题,研究职员利用近似最近邻算法来办理这个问题。
之后,机器学习算法来估计是否显示生物图像。

检测复制-移动重用。
A.癌变细胞和缩小部分的原始例子。
B.关键点(高熵区域)的打算C.最近邻匹配。
D

末了,利用人工来评估不当重用。

算法检测图像区域重用,同时对旋转、裁剪、调度大小和比拟度变革具有鲁棒性。
总的来说,这项研究得出一个结论:在PubMed Open Access上,大约有0.59%的文章会被同等认为是具有欺骗性的。
也便是说,在760036篇文章里面,大约有4484篇文章涉嫌造假。

论文图像修改可能导致一年丢失10亿美元

学术研究论文中的图像造假的祸害十分普遍。

两个星期前,Science联合撤稿不雅观察发布了一个“撤稿”报告,许多数字令人震荡:过去10年里学术期刊撤回的论文数量增加了10倍,撤稿率最高的国家中国排第7,撤稿最多的10位作者中,中国占了两人。

Top 10撤稿作者(数据来自Science)

在撤稿不雅观察的数据库中,有18000份研究论文被撤回(最早可追溯到20世纪70年代),个中,317篇被撤回论文进行了图像修改,约占整体论文的1.7%。

宾夕法尼亚大学生物工程副教授Arjun Raj早在2012年就指出,均匀一篇生物医学研究论文背后的科学本钱约为30万美元至50万美元。
而柳叶刀宣布称,美国研究职员在当年揭橥了近152000篇论文。

这样推算,纵然每篇论文本钱30万美元,美国研究职员在2012年揭橥的所有生物医学科学论文的本钱也将靠近500亿美元。

如果2%的论文由于图像假造须要撤回,美国可能会在2012年摧残浪费蹂躏靠近10亿美元。
随着环球科学产量每九年翻一番,照此打算,自2012年以来,因撤稿产生的负利润率可能会更大。

图像修改向来如此糟糕吗?

有些研究职员认为,这么多年来,论文图像修改问题一贯在恶化。

来自美国研究诚信办公室(the United States Office of Research Integrity,ORI)的数据表明,在Photoshop发布后,他们所处理的涉及图像处理的案件比例有所增加。

技能在打击论文造假的过程中,一贯是一场“猫鼠游戏”。
AI除了检测图像区域重用,也成为对抗Photoshop的利器。

今年9月,Scientific Reports揭橥了一篇论文,文章指出,基于植物Rhus toxicondendron (毒性常春藤)的稀释度非常高的顺势疗法,至少与减轻疼痛的药物(加巴喷丁)一样有效。

不过,很快这篇先容顺势疗法的论文,被生物学家Enrico Bucci利用的一款软件标记出来缺点:在两种不同的实验中,所建议的药物浓度差别很大,而其图表却惊人地同等。

后来,论文作者回应称,他的的团队在准备手稿时犯了一些无意的缺点,导致重复的图像和重复的数据。

作者表示,文本和数字之间的差异是错别字的结果。
该小组将哀求Scientific Reports更新该文章并进行更正。
但也表示,“这不会以任何办法改变科学结论”。

AI间隔自动打击论文造假还有多远?

然而,纵然基于软件的方法已经被广泛谈论了近十年,利用此类运用程序的公司还是很少用软件发布他们的结果。

基于软件的方法仍旧须要人为的监督支持。
检测图像处理软件的开拓有可能增加扫描图像期刊的数量。
然而,须要把稳的是,软件的利用并不能肃清对人为干预的需求。
软件的输出必须由人来评估。

一个领域是软件开拓有可能对大型文章数据库的图像复制检测产生巨大影响,利用视觉检讨技能不可能进行这种大规模的比较。

AI来检测论文图像造假在未来可能有两种形式。
一是,公司可以为期刊编辑供应定制的运用程序,然后编辑可以利用这些运用程序对即将揭橥的论文进行剖析,这可能类似于反抄袭软件的事情办法。

而另一种方法是,图像完全性剖析公司将自己的人力和打算机资源分配给期刊进行图像完全性检讨。

随着自动化的图像剖析软件演化为一个企业,那些造假的研究职员可能会创造他们的计量很难再“瞒天过海”。
然后,大概会涌现另一个更为繁芜的工具,使得造假的图像更难以被创造,这场“猫鼠游戏”更能还将连续。

参考资料:

https://thenextweb.com/science/2018/11/06/meet-the-people-busting-scientists-who-fake-images-in-research-papers/

https://www.nature.com/articles/d41586-018-06967-0

https://www.biorxiv.org/content/biorxiv/early/2018/02/23/269415.full.pdf