1分钟就能查出整篇论文的图片误用：这个AI是有些火眼金睛在身上的

会员服务 ·

1分钟就能查出整篇论文的图片误用：这个AI是有些火眼金睛在身上的

2021 年 12 月 24 日 机器之心

机器之心报道

编辑：蛋酱

那些篡改后的论文图片，或许骗得了人类的两只眼睛，但却骗不了 AI。

先看一张论文图，两个红框内的图像，有何相似之处？

对于人类来说，两只眼睛实在很难迅速分辨，但 AI 就能在极短的时间内指出数百个相似特征：

蓝线为相似特征。

旋转、过滤、翻转、拉伸…… 像这样的篡改手段，AI 一眼就能看出来，哪怕是检查完整篇论文里所有图片，也只需要一两分钟。

再来 6 张不同的子图像，你能找出重复的地方吗？

AI 标出了 3 个重复（红框所示）。蓝线表示图像中相似特征的位置，线相交的地方表示图像发生了旋转。1 和 2 是旋转了 180 度，3 旋转了 90 度。

这个 AI，是有些火眼金睛在身上的。

走进「全自动时代」

为了避免发表的论文中带有被篡改过的图像，许多期刊都会聘请专门的人员来检查这些提交上来的手稿图片，当然这个过程也是在软件的协助之下。现在，这个过程似乎开始变得完全「自动化」了。

从 2021 年 1 月起，美国癌症协会（AACR）开始采用一款叫做「Proofig」的 AI 软件，检查那些经过同行评审后临时接收的文稿，这款软件能够自动提醒编辑哪些图像有哪些重复的部分。

《Nature》杂志发现，过去一年里，至少有四家出版商开始采用 AI 软件，在稿件发表之前发现图片中重复的部分，不管这种「重复」是出于抄袭的目的，或者只是不恰当的美化方法。

2016 年，一项分析了大约 20000 篇生物医学论文的研究表明，多达 4% 的论文可能都存在图像重复问题。实际上，这个问题比论文更正和撤回等问题更严重、更广泛，每年大概只有大约 1% 的论文得到更正，被撤回的论文就更少了。

此前，当软件被用来标记图像问题时，仍然需要一位专业编辑来决定如何处理。例如，如果数据集被特意展示了两次，文中也有解释，那么重复的图像就不算是问题；又比如，一些重复可能是手稿组装过程中简单的复制和粘贴错误，并不是欺诈，这种情况只能通过编辑和作者之间的沟通来解决。

专家表示，随着人工智能软件变得足够有效且成本低廉，一系列的图像自动检查工具可能会在未来几年席卷科学出版行业。

研究者一直在开发图像检查相关的 AI 技术。2020 年，出版商成立了一个工作组，专门为图像问题筛选的软件制定了标准，又在今年发布了编辑如何处理篡改图像的指导方针。开发此类软件的公司不只「Proofig」一家，但它是第一家公开了自己客户名字的公司，除了 AACR 之外，美国临床调查学会今年 7 月份也开始使用 Proofig，SAGE Publishing 在 10 月份的五份生命科学期刊中也采用了该软件。

Proofig 软件从论文中提取图像，并将它们成对地进行比较找出共同特征，包括部分重复。一般的论文在一两分钟内就能完成检查，还能顺便查出一些其他小问题，比如将高分辨率原始数据压缩成较小文件时可能出现的压缩伪影。

这一切工作，都能在几分钟之内完成，你要做的就是上传 PDF，确认图片都被选中了，等待一会儿，下载 PDF 报告即可。

图像检查的成本远高于抄袭检查每篇论文不到 1 美元的成本。Proofig 与出版商签订的合同中，费用是根据论文中的图像数量收取的，但这也取决于手稿的数量，相当于每篇论文的收费「大概几十美元，而不是几百美元」。

「计算机视觉比人类视觉更有优势，」公司创始人 Dror Kolodkin-Gal 表示。「计算机不仅不会感到疲倦，运行速度也会更快，而且它也不会受到大小、位置、方向、重叠、部分复制和这些因素组合的影响。」

软件发现的问题比此前编辑手动检查的问题要多，但是编辑对于 Proofig 输出结果的把控仍然必不可少。

与此同时，位于瑞士洛桑的出版商 Frontiers 也开发了自己的图像检查软件，成为 AIRA 自动检查系统的一部分。自 2020 年 8 月以来，这家出版商内部的研究诚信团队一直在使用 AIRA 对所有提交的手稿进行图像检查。在被选中标记的论文中，大多数没有问题，只有大约 10% 需要该团队再跟进。

除了重复问题之外，检测图像处理也很重要，例如删除或裁剪了图像的一部分，以及其他 PS 痕迹。Frontiers 的软件是人工视觉筛选的有用补充，但它可能无法完全替代当前形式。

仍有出版商保持谨慎

尚未采用 AI 图像检查工具的出版商提到了成本和可靠性问题，其中一些出版商正在开发自己的 AI，包括 PLOS 和爱思唯尔等大型出版商。

2020 年 4 月，Wiley 面向临时接收的手稿推出了图像筛查服务，目前已用于 120 多种期刊，但还是由软件辅助的手动筛查。Springer Nature 表示，它正在评估一些外部工具，同时也在整理数据以训练自己的软件，该软件将「人工智能和人类结合互补来识别有问题的图像」。

像 EMBO Press 这样的出版商仍然主要使用手动筛查方法，因为他们还不相信商业产品的成本效益比，除此之外，还有另外一层担心：欺诈者可能会了解该软件的工作原理，并使用 AI 制作人类和软件都无法检测到的虚假图像。

尽管还没有证据表明此类图像已经出现在研究论文中，但去年发布在 bioRxiv 上的一份预印本表明，制作与真实数据无法区分的生物图像伪造版本是有可能的，比如蛋白质印迹。