论文图片误用？AI：这条路已被我堵死了

会员服务 ·

论文图片误用？AI：这条路已被我堵死了

2021 年 12 月 22 日 量子位

博雯发自凹非寺
量子位报道 | 公众号 QbitAI

现在的AI已经开始参与论文打假了！

就像是这样，经过旋转、拉伸和缩放之后的图片，人眼或许无法辨认，但AI能看到数百个相似的特征：

△蓝色线条表示相似特征

即使通过高超的“图像处理手段”把一张完整图像中的局部画面挪到自己的图像里，也能一眼分辨：

对于AI来说，这可能是秒认的活儿，甚至就算是一篇图像繁杂的完整论文，也不过花费一两分钟。

但对于人眼可就没那么简单了，比如知名学术打假人Elisabeth Bik为了寻找不同论文中使用相同图片展示各自不同的实验结果的例子，曾花费了整整2年时间。

而对于出版商们来说，刊登又撤稿中间的损失就更大了……

因此，最近几年，AI打假员愈发频繁地被引入了论文审查，尤其是图像问题中。

比如，自今年1月份开始，世界上最大、最古老的癌症研究专业协会，美国癌症协会（AACR）就已经开始使用AI软件来评审旗下期刊文章里的图片造假或重复问题了。

官方网站上也已经写明：提交手稿中的所有图像都需要通过AI软件进行筛选。

不仅是AACR，世界第五大出版商SAGE、老牌经典医学期刊JCI、 JCI Insight都已经用上了这种方法。

自动图像校对

这些期刊和出版商们所使用的是一个由以色列公司Proofig开发的同名软件。

Proofig软件基于AI技术和图像处理技术，面向各种科学文稿中的图像，包括所有类型的显微镜照片（光学、电学、共聚焦）、载玻片、蛋白免疫印迹（Western blot）、生物体内和体外图像、植物图像等等。

软件会从论文中识别图像，然后提取它们共同的特征进行比较。

这些“共同的特征”包括对图像整体的缩放或旋转、部分重复或重叠、还有一些方位上的不同。

除此之外，软件也能额外检测到一些问题，比如高分辨率的原始数据被压缩到更小的文件中时，可能出现的压缩失真或压缩伪影（Compression artifact）情况。

一篇普通的论文通常在2分钟以内可以检查完毕，最多不超过10分钟。

对于很多出版商来说，一篇已刊登的科学文稿里如果出现图像剽窃这种学术不端的现象，那么从调查、撤稿到后续的法律费用，平均每篇文章可能要损失百万美元。

因此，很多出版商都乐意引入性价比较高的AI来和人工审查组一起工作。

AACR的一位期刊运营总监就表示：

很多作者也很高兴能在出版前注意到一些“无意中的”图像复制错误。

而对于我们来说，严谨的数据是我们期刊的一个显著的标志，因此，这（Proofig）绝对是值得投入的时间和金钱。

出版商们联合起来

其实，科学文稿中的图像重复或剽窃的现象已经是屡见不鲜了。

2016年，Nature上就有一篇文章对约2万篇生物医学论文进行人工分析后发现，其中4%的论文都可能包含上述问题。

而通常每年只有1%的文稿得到更正，因此撤回的文章就更少了。

因此，去年5月份，一些出版商联合起来成立了一个为解决论文中图像问题的小组，其中包括荷兰出版业巨头爱思唯尔（Elsevier）、Wiley、Springer Nature和Taylor & Francis。

爱思唯尔表示，小组最终的目标是“创造一个能够帮助我们自动识别图像变化的环境。”

还有很多出版商试图自己解决问题，比如瑞士出版商Frontiers开发了自己的论文图像检查软件，作为自动检查系统AIRA的一部分。

Frontiers内部的一位发言人表示，软件自2020年8月投入使用，标记的大多数论文都没有问题，只有大约10%的论文需要人工检查小组的跟踪处理。

而有些尚未引入AI手段的出版商也展现出了对这种方法的怀疑：

在可靠性上，AI检查还没有大规模地投入使用。比如爱思唯尔的软件目前的进度还是“正在测试中“，只对部分期刊开放使用。

在成本上，AI软件偶尔的“误杀”依旧需要人工参与，甚至会引起其他的纠纷。

不过有人从另一个角度提出了问题：

如果所有的论文都是开放存取的，那么图像误用/重复问题将更容易得到审查，训练AI也会更有效率。

参考链接：
[1]https://www.nature.com/articles/d41586-021-03807-6
[2]https://www.nature.com/articles/nature.2016.19802

— 完 —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容，未经账号授权，禁止随意转载。

「智能汽车」交流群招募中！

欢迎关注智能汽车、自动驾驶的小伙伴们加入社群，与行业大咖交流、切磋，不错过智能汽车行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

论文

关注 0

论文（Paper）是专知网站核心资料文档，包括全球顶级期刊、顶级会议论文，及全球顶尖高校博士硕士学位论文。重点关注中国计算机学会推荐的国际学术会议和期刊，CCF-A、B、C三类。通过人机协作方式，汇编、挖掘后呈现于专知网站。

【CVPR2022】GaTector：凝视对象预测的统一框架

专知会员服务

10+阅读 · 2022年3月24日

AAAI 2022接收论文列表发布，1349篇论文都在这了！

专知会员服务

146+阅读 · 2022年1月11日

CVPR 2021｜无需干净图像的自监督图像降噪

专知会员服务

39+阅读 · 2021年3月29日

【NeurIPS 2020-Hinton论文】大型自监督模型是强有力的半监督学习器

专知会员服务

25+阅读 · 2020年11月4日

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

因续订费用过高，中科院被传停用知网数据库，科技类期刊和硕博论文无法下载

机器之心

0+阅读 · 2022年4月17日

1分钟就能查出整篇论文的图片误用：这个AI是有些火眼金睛在身上的

机器之心

0+阅读 · 2021年12月24日

AI已经参与论文打假了！

CVer

0+阅读 · 2021年12月23日

图片也查重？期刊用AI审论文防造假，旋转/翻转/拉伸都不行

THU数据派

0+阅读 · 2021年12月22日

CVPR最新医学影像AI论文：利用学习图像变换进行数据增强

AI掘金志

36+阅读 · 2019年3月4日

化学图的谱及相关性质

国家自然科学基金

0+阅读 · 2015年12月31日

面向RGB-D视频的人体动作识别研究

国家自然科学基金

0+阅读 · 2012年12月31日

高分辨率极化SAR图像场景分类研究

国家自然科学基金

0+阅读 · 2012年12月31日

高分辨率卫星影像云自动提取的机器视觉方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

视角无关的动作识别与行为建模方法研究

国家自然科学基金

0+阅读 · 2010年12月31日

The 2020 Census Disclosure Avoidance System TopDown Algorithm

Arxiv

0+阅读 · 2022年4月19日

Minimizing Control for Credit Assignment with Strong Feedback

Arxiv

0+阅读 · 2022年4月14日

Aleatoric and Epistemic Uncertainty in Machine Learning: An Introduction to Concepts and Methods

Arxiv

15+阅读 · 2020年4月3日

Explainable Recommendation: A Survey and New Perspectives

Arxiv

66+阅读 · 2019年8月15日

Deep learning for time series classification: a review

Arxiv

12+阅读 · 2019年3月14日

VIP会员