Nature：学术造假者瑟瑟发抖，论文图像查重AI技术重拳出击！

2020 年 7 月 23 日 AI科技评论

作者 | 青暮

编辑 | 丛末

来自纽约雪城大学的机器学习研究人员Daniel Acuna开发了一款论文图像查重软件，他用这款软件检查了3500篇论文的21,000张图像，在4小时内查出大约400张疑似重复的图像，这项技术或许将为学术造假乱象的解决带来曙光。近日，Nature还对相关事件进行了报道。

由于利益诱惑和成本低廉，学术造假屡禁不止。在国内，学术造假的最终结果几乎都是不了了之。

根据中国科学技术信息研究所的报告，中国发表SCI论文数量已居世界第二，紧追美国。截止2020年6月22日，全世界共有23425篇SCI撤稿，其中中国10303篇，占比44%。

此外，每年中国SCI论文撤稿占所有撤稿的比例也持续上升，2019年达到30%，2020年目前为止已达到33%。今年，中国已有317篇SCI论文撤稿，相对的，美国有215篇SCI论文撤稿。近三年来，剽窃和错误是中国SCI论文撤稿的首要原因。

其中剽窃主要是指文字抄袭，目前的查重系统只能查重文字，不能查重图像。而错误则主要是指图像错误，包括经过PS然后重复使用的图像。

学术论文造假手段常用的有四种：1、重复用图；2、编造数据，用ps涂抹修图；3、花钱买论文；4、伪造审稿人。其中第一种和第二种最常用，造假成本最低，以重复用图进行学术造假的案例屡见不鲜。

2020年5月，素有“打假斗士”之称的Elisabeth Bik博士，举报中国8篇论文 “不同作者、不同大学所属医院、不同癌种、不同蛋白表达，结果却一模一样”。

2020年6月，学术打假网站PubPeer上有人质疑清华大学医学院院长董晨24篇文章有些实验图像存在问题。举报者表示：在这24篇论文里，出现了部分实验图像在不同项目中重复出现，但标记数值不同；两幅实验图像相似度极高；不同指标的直方图完全一致的情况。基于之后董晨的回复，有知乎网友分析：他实际上委婉默认了有造假的地方，只是在造假程序或者数量上有不同的意见。

近日，网传Pubpeer 曝出北京大学常务副校长、中国工程院院士詹启敏的 25 篇论文涉嫌学术造假。这25篇论文被怀疑将相同图像修改后应用于不同实验甚至不同论文中。

可见，图像查重对于论文审查是非常重要的一环，而纯粹靠人工审查则相当费时费力，Daniel Acuna开发的这款软件无疑是一大利器。

工作初衷：为疫情防治贡献一份力

由于担心关于COVID-19的研究论文可能存在过多的草率工作，纽约雪城大学信息研究学院的助理教授Daniel Acuna 开发了一个能够对论文中的图像进行查重的程序，据悉，现在这项程序已被应用在全球的新冠病毒相关论文的预印本上。

对于开发这项程序的初衷，Daniel Acuna 表示：“我无法阻止疫情，只能以自己的方式做出贡献。”

该算法可一次筛选成千上万张论文以匹配图像，翻转、调整大小或旋转的图像也可以进行匹配。

这些重复图像可能是无意的失误，也可能是不当行为的结果。原本这项工作通常由专家人工检查，或用软件检查少量论文中的图像。

但需要注意的是，目前这项程序仍处于试验阶段，正在接受期刊和研究机构的测试。

查重结果存有争议

到目前为止，这项工作取得了一定程度的成功，但也引起了一些争议。

今年6月，Daniel Acuna从bioRxiv和medRxiv服务器上下载了3500个预印本，用他的软件查重了21,000张图像。在4小时内，该软件就查出了大约400张可能重复的图像。不过大多数结果都没有问题，他选择了24篇包含可疑重复图像的论文。

7月，他在自己的网站上发布了这些内容，并在PubPeer上公开。

这件事随后引起了轰动。一些论文作者回应说，Daniel Acuna的软件确实查出了重复的图像，他们将纠正错误，不过也有一些错误已经在同行评审版本中得到纠正。

芬兰赫尔辛基大学的病毒学家Giuseppe Ballistreri 对于这项技术，也持肯定态度，他表示，“如果该工具被证明是准确的，则应默认在PubMed中应用。”PubMed 是一个免费的搜索引擎，提供生物医学方面的论文搜索以及摘要。

另一方面，也有其他人指出，这些重复不是错误。Elisabeth BikBik以其在科学出版物中检测照片操纵的工作而闻名，她表示，希望Daniel Acuna首先向她咨询匹配结果。她进一步在PubPeer写道，该软件“ 仍然需要人工监督，以确保它不会错误地将适当的重复图像标记为不适当”。

对于 Elisabeth BikBik 的观点，Daniel Acuna 表示同意：软件标记的内容始终需要人来审核，并且尚无法根据上下文了解所获取的内容是否有问题。

更有一些研究人员指出，Daniel Acuna的软件完全弄错了，而且标记了相似但不匹配的图像。例如，北卡罗来纳州达勒姆市杜克大学的Priyamvada Acharya要求Daniel Acuna删除他的一篇论文的匹配结果，该论文包含同一分子的相似视角图。

随后，Daniel Acuna从他的网站上删除了大约三分之一的检查结果，并将该网站的列表设置为私人访问。如此，只有从他那里获得访问密钥的作者才能看到他的检查结果。

总体而言，这项研究论文的自动筛选技术远非完美，而且“仍然需要专家来解释和理解”。此外，德国海德堡的图像分析师 Jana Christopher 也指出了该技术的另一局限性：自动图像检查算法仍然过于专注于查找重复项，并且还不能应对所有图像处理手段。

再接再厉

除了技术上的不完美性，Daniel Acuna 本人还指出了影响软件的准确性的一个外在因素：PDF文件格式会破坏自动提取图像的能力。例如，今年5月，Elisabeth Bik在推特上叙述了关于Nature的一篇COVID-19 论文的图像复制问题，该图像也出现在2月份的预印本中，但Daniel Acuna的软件由于论文是PDF格式而没有检查到。

目前为止，关于新冠病毒的研究产生了无数的论文，许多研究人员担心出现低质量的研究和错误，甚至欺诈。有科学家发出警告：“质量低劣的研究将泛滥成灾”。

接下来，Daniel Acuna 打算继续进行论文重复图像的自动检查，而之后首先要做的事情，就是将查重结果告知作者，只有在他们不回应的情况下才公开结果。

对于学术界低质论文泛滥成灾的现象，Daniel Acuna 也发出了告诫： “ 我希望那些正在动歪脑筋的论文作者们意识到，有人正在对论文图像进行查重。 ”

参考内容： https://www.nature.com/articles/d41586-020-02161-3

招聘

AI 科技评论希望能够招聘科技编辑/记者