让论文造假者裸奔的反抄袭图像识别系统

2018 年 2 月 24 日 科学网 孙学军

欢迎点击「科学网」↑关注我们!


对文字抄袭早就有了自动化技术,而且也被广泛使用,但是对图片的重复使用则很难进行辨别,尤其是使用者一般会对图片进行PS,实在是防不胜防。但是借助最新的图像识别系统,科学家建立了新的图片识别方法,能对经过故意编辑使用的图进行辨认,让许多人工无法辨别的重复用图无法继续骗人,这几乎必然地会发现千万篇论文被曝光于天下,许多人开始无法入眠了。根据初步研究,大约0.6%的论文存在图片造假的可能,那么每年250万篇学术论文会大约1.4万篇存在图像造假的。

https://www.nature.com/articles/d41586-018-02421-3

最新论文是发表在2月22日的论文预印本服务器BioRxiv上,纽约雪城大学Daniel Acuna(库尼亚)机器学习团队通过使用一种算法来处理成千上万的生物医学论文,可以识别出重复使用的图片。如果杂志编辑也采用类似方法,将会让许多论文因为这个问题被阻断在发表的过程。

目前作者并没有公开算法,不过研究小组已经和西北大学诚信办公室主任Lauran Qualkenbush进行过交流,他们考虑使用这个技术。另外和美国研究人员协会诚信副主席进行了沟通,有可能年内进行应用测试。

2015年初,库尼亚和两个同事使用一种算法,从PubMed数据库开放的760000篇文章中提取到超过260万份图像数据,数据包括显微细胞和组织和凝胶印迹。然后放大这些图片中最具有特征的部位,这些部位都是颜色和灰度变化最明显的部分,利用这部分信息制作每一个图像的数字指纹。将图片中标记箭头或流程图组件去除,团队获得了200万份左右图像。为避免比较所有图像,他们用论文第一和通讯作者为限制条件,对这些图像资料进行了对照分析,他们的方法能识别出经过旋转、调整大小、对比度或颜色等编辑的重复图像。然后手工验证3750的被标记图像的分析结果,这些图像被认为存在复制的可能性。根据他们的研究结果,数据库中大约1.5%的论文包含可疑的图像,0.6%的论文将包含造假图像。

转载本文请联系原作者获取授权,同时请注明本文来自孙学军科学网博客。
链接地址:http://blog.sciencenet.cn/blog-41174-1100988.html

关注我们

微信号:sciencenet-cas (←长按复制) 或长按下方二维码

登录查看更多
1

相关内容

从图像中提取出有意义、有实用价值的信息。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
基于深度学习的多标签生成研究进展
专知会员服务
141+阅读 · 2020年4月25日
零样本图像识别综述论文
专知会员服务
57+阅读 · 2020年4月4日
知识图谱更新技术研究及其应用,复旦大学硕士论文
专知会员服务
103+阅读 · 2019年11月4日
基于TensorFlow和Keras的图像识别
Python程序员
16+阅读 · 2019年6月24日
Nature 一周论文导读 | 2019 年 5 月 30 日
科研圈
15+阅读 · 2019年6月9日
Nature 一周论文导读 | 2019 年 2 月 28 日
科研圈
13+阅读 · 2019年3月10日
实战 | 图像矫正技术
计算机视觉life
5+阅读 · 2019年2月28日
【学界】毫秒级图像去噪!英伟达、MIT新AI系统完美去水印
GAN生成式对抗网络
8+阅读 · 2018年7月17日
AI综述专栏 | 步态识别的深度学习综述
人工智能前沿讲习班
29+阅读 · 2018年6月27日
【学界】继图像识别后,图像标注系统也被对抗样本攻陷!
GAN生成式对抗网络
6+阅读 · 2017年12月11日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Arxiv
10+阅读 · 2018年2月4日
VIP会员
相关资讯
基于TensorFlow和Keras的图像识别
Python程序员
16+阅读 · 2019年6月24日
Nature 一周论文导读 | 2019 年 5 月 30 日
科研圈
15+阅读 · 2019年6月9日
Nature 一周论文导读 | 2019 年 2 月 28 日
科研圈
13+阅读 · 2019年3月10日
实战 | 图像矫正技术
计算机视觉life
5+阅读 · 2019年2月28日
【学界】毫秒级图像去噪!英伟达、MIT新AI系统完美去水印
GAN生成式对抗网络
8+阅读 · 2018年7月17日
AI综述专栏 | 步态识别的深度学习综述
人工智能前沿讲习班
29+阅读 · 2018年6月27日
【学界】继图像识别后,图像标注系统也被对抗样本攻陷!
GAN生成式对抗网络
6+阅读 · 2017年12月11日
Top
微信扫码咨询专知VIP会员