论文中了顶会,却被曝抄袭前导师小组论文,多处原文及公式完全一致丨Reddit高热

2020 年 12 月 7 日 量子位
萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI

论文中了机器学习顶会,却被举报抄袭。

这是一篇收录在ICML 2020的论文,被贴在Reddit上后,事件迅速发酵:

论文来自加拿大约克大学 (York University),题为「PoKED: A Semi-Supervised System for Word Sense Disambiguation」,研究方向是NLP中的词义消歧。

但它的核心方法、公式、网络结构图,却与另外3篇论文中的部分文本及图例如出一辙,其中两篇同样来自顶会。

而在仔细查看之后不难发现,这3篇论文都来自同一个教授,也是作者之前所在的导师小组。

这到底是怎么回事?

多处原文相似,2篇来自顶会

这篇被抄袭的论文,主要介绍了一个名为PoKED (Position-wise Orthogonal Knowledge-Enhanced Disambiguator)的网络结构。

但举报人发现,这一结构却几乎全部抄袭自3篇论文。

第一篇被抄袭的论文,来自顶会ACL 2019(这篇论文曾经投过EMNLP 2018,未被接收)

抄袭的画风是这样的,左边是ICML 2020的论文,右边是ACL 2019的论文:

除了换一种表达方式以外,内容基本如出一辙。

据举报者的PDF显示,抄袭的篇幅基本涵盖了论文第三章的核心方法 (论文解决核心问题所用的网络架构)部分,公式和图片也高度接近。

第二篇被抄袭的论文来自ACML 2017,在一个细节模型上高度相似。

最后一篇论文目前也已经发表在arXiv上,网络结构几乎一样。

而这些被抄袭的论文,全部来自作者的前导师小组。

此外,论文作者似乎不止在这一篇论文中进行了抄袭。

目前就职于OpenAI的Lilian Weng也发推表示,自己的博客同样被这位作者的另一篇论文抄袭。

抄袭对象来自前导师小组

3篇论文涉及的导师Hui Jiang,目前是加拿大约克大学的一名教授,而这些论文的其他作者,也基本都来自这个导师的小组。

从Hui Jiang教授的主页来看,第一篇ACL 2019的一作Chao Wang,目前仍然是Hui Jiang小组的一名在读博士生。

第二篇ACML 2017的一作Hengyue Pan,是一名已经毕业的博士生;至于第三篇arXiv论文,二作Mingbin Xu也同样来自Hui Jiang小组。

被举报抄袭的论文作者Feng Wei,曾经也是Hui Jiang的一名学生,只是目前在主页上的信息已经显示为“dropped”,日期是19年4月。

然而Feng Wei的这篇ICML 2020论文信息显示,他目前仍然在加拿大约克大学就读,也许导师换成了Uyen Trang Nguyen教授。

虽然论文介绍PPT上的作者有2位,但这篇论文在最终投稿到ICML 2020的时候,却只有Feng Wei自己的名字。

目前,ICML主席表示已介入调查。

Reddit版块主持人已留存帖子

这件事在Reddit上迅速发酵后,Machine Learning版块的主持人programmerChilli已经出面,并给出了解决方案:

目前,为防止出现意外,这条帖子已经被锁定。如果事情无法通过正当渠道解决,这条帖子也能保留作为证据。

此外,Chilli自己也表示:

同意调查,但先别急着深究作者的过错。请给博士一些同理心,因为陈姓华人博士生就是一个案例。

Chilli所指的,是去年一起佛罗里达大学的博士自杀的案件。这名博士生,在短时间内中了一篇ISCA顶会论文,然而在修改时发现论文问题太多,但教授却一直不给撤稿,最后只能无奈自杀。

但其他网友也有不同的意见。

例如这次的举报者,对于抄袭本身愤愤不平,认为没必要为抄袭编造一个“想象”的理由出来。

但对于举报者将抄袭这种事情曝光在Reddit的机器学习论坛上,也有不少人表示反对。

这些网友认为,举报就应该找官方的渠道,将这种没有坐实的信息贴出来,是在浪费大家的时间。

对于这件事情,你怎么看?

论文对比PDF(包含所有完整版论文):
https://www.docdroid.net/9Y8ZZd7/plagiarism-pdf

参考链接:
https://www.reddit.com/r/MachineLearning/comments/k7nza3/d_a_plagiarism_in_icml_2020/ 
https://icml.cc/media/Slides/icml/2020/virtual(no-parent)-16-13-00UTC-6075-poked_a_semi-s.pdf 
https://mp.weixin.qq.com/s/qRIONaOUSnsf6UAKyHmR1A 
https://icml.cc/virtual/2020/poster/6075 
http://proceedings.mlr.press/v119/wei20a.html 
https://wiki.eecs.yorku.ca/user/hj/students:start 
http://www.cse.yorku.ca/~utn/students.html 
https://lilianweng.github.io/lil-log/2017/10/15/learning-word-embedding.html

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

量子位年度智能商业大会启幕,大咖已就位!

12月16日,李开复博士、谭建荣院士、清华唐杰教授,以及来自小米美团百度华为爱奇艺小冰亚信浪潮容联澎思地平线G7等知名AI大厂的大咖嘉宾将齐聚MEET2021大会,期待关注AI的朋友报名参会、共探新形势下智能产业发展之路。

早鸟票限时优惠,扫码锁定席位吧~


量子位 QbitAI · 头条号签约作者


վ'ᴗ' ի 追踪AI技术和产品新动态


一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~


登录查看更多
0

相关内容

AAAI 2021论文接收列表放出! 1692篇论文都在这儿了!
专知会员服务
72+阅读 · 2021年1月3日
ICLR 2021 评审出炉!来看看得分最高的50篇论文是什么!
专知会员服务
40+阅读 · 2020年11月13日
专知会员服务
113+阅读 · 2020年10月8日
专知会员服务
42+阅读 · 2020年7月7日
还在修改博士论文?这份《博士论文写作技巧》为你指南
49篇ICLR2020高分「图机器学习GML」接受论文及代码
专知会员服务
60+阅读 · 2020年1月18日
模式国重实验室21篇论文入选CVPR 2020
专知
30+阅读 · 2020年3月8日
Reddit最火!55页博士笔记总结ICLR 2019大会干货
新智元
29+阅读 · 2019年5月11日
2018自然语言处理与机器学习论文发表统计
哈工大SCIR
3+阅读 · 2019年1月11日
Arxiv
0+阅读 · 2021年2月12日
Arxiv
27+阅读 · 2020年6月19日
A Graph Auto-Encoder for Attributed Network Embedding
VIP会员
相关VIP内容
AAAI 2021论文接收列表放出! 1692篇论文都在这儿了!
专知会员服务
72+阅读 · 2021年1月3日
ICLR 2021 评审出炉!来看看得分最高的50篇论文是什么!
专知会员服务
40+阅读 · 2020年11月13日
专知会员服务
113+阅读 · 2020年10月8日
专知会员服务
42+阅读 · 2020年7月7日
还在修改博士论文?这份《博士论文写作技巧》为你指南
49篇ICLR2020高分「图机器学习GML」接受论文及代码
专知会员服务
60+阅读 · 2020年1月18日
Top
微信扫码咨询专知VIP会员