论文中了顶会，却被曝抄袭前导师小组论文，多处原文及公式完全一致丨Reddit高热

会员服务 ·

论文中了顶会，却被曝抄袭前导师小组论文，多处原文及公式完全一致丨Reddit高热

2020 年 12 月 7 日 量子位

萧箫发自凹非寺
量子位报道 | 公众号 QbitAI

论文中了机器学习顶会，却被举报抄袭。

这是一篇收录在ICML 2020的论文，被贴在Reddit上后，事件迅速发酵：

论文来自加拿大约克大学 （York University），题为「PoKED: A Semi-Supervised System for Word Sense Disambiguation」，研究方向是NLP中的词义消歧。

但它的核心方法、公式、网络结构图，却与另外3篇论文中的部分文本及图例如出一辙，其中两篇同样来自顶会。

而在仔细查看之后不难发现，这3篇论文都来自同一个教授，也是作者之前所在的导师小组。

这到底是怎么回事？

多处原文相似，2篇来自顶会

这篇被抄袭的论文，主要介绍了一个名为PoKED （Position-wise Orthogonal Knowledge-Enhanced Disambiguator）的网络结构。

但举报人发现，这一结构却几乎全部抄袭自3篇论文。

第一篇被抄袭的论文，来自顶会ACL 2019（这篇论文曾经投过EMNLP 2018，未被接收）。

抄袭的画风是这样的，左边是ICML 2020的论文，右边是ACL 2019的论文：

除了换一种表达方式以外，内容基本如出一辙。

据举报者的PDF显示，抄袭的篇幅基本涵盖了论文第三章的核心方法 （论文解决核心问题所用的网络架构）部分，公式和图片也高度接近。

第二篇被抄袭的论文来自ACML 2017，在一个细节模型上高度相似。

最后一篇论文目前也已经发表在arXiv上，网络结构几乎一样。

而这些被抄袭的论文，全部来自作者的前导师小组。

此外，论文作者似乎不止在这一篇论文中进行了抄袭。

目前就职于OpenAI的Lilian Weng也发推表示，自己的博客同样被这位作者的另一篇论文抄袭。

抄袭对象来自前导师小组

3篇论文涉及的导师Hui Jiang，目前是加拿大约克大学的一名教授，而这些论文的其他作者，也基本都来自这个导师的小组。

从Hui Jiang教授的主页来看，第一篇ACL 2019的一作Chao Wang，目前仍然是Hui Jiang小组的一名在读博士生。

第二篇ACML 2017的一作Hengyue Pan，是一名已经毕业的博士生；至于第三篇arXiv论文，二作Mingbin Xu也同样来自Hui Jiang小组。

被举报抄袭的论文作者Feng Wei，曾经也是Hui Jiang的一名学生，只是目前在主页上的信息已经显示为“dropped”，日期是19年4月。

然而Feng Wei的这篇ICML 2020论文信息显示，他目前仍然在加拿大约克大学就读，也许导师换成了Uyen Trang Nguyen教授。

虽然论文介绍PPT上的作者有2位，但这篇论文在最终投稿到ICML 2020的时候，却只有Feng Wei自己的名字。

目前，ICML主席表示已介入调查。

Reddit版块主持人已留存帖子

这件事在Reddit上迅速发酵后，Machine Learning版块的主持人programmerChilli已经出面，并给出了解决方案：

目前，为防止出现意外，这条帖子已经被锁定。如果事情无法通过正当渠道解决，这条帖子也能保留作为证据。

此外，Chilli自己也表示：

同意调查，但先别急着深究作者的过错。请给博士一些同理心，因为陈姓华人博士生就是一个案例。

Chilli所指的，是去年一起佛罗里达大学的博士自杀的案件。这名博士生，在短时间内中了一篇ISCA顶会论文，然而在修改时发现论文问题太多，但教授却一直不给撤稿，最后只能无奈自杀。

但其他网友也有不同的意见。

例如这次的举报者，对于抄袭本身愤愤不平，认为没必要为抄袭编造一个“想象”的理由出来。

但对于举报者将抄袭这种事情曝光在Reddit的机器学习论坛上，也有不少人表示反对。

这些网友认为，举报就应该找官方的渠道，将这种没有坐实的信息贴出来，是在浪费大家的时间。

对于这件事情，你怎么看？

论文对比PDF（包含所有完整版论文）：
https://www.docdroid.net/9Y8ZZd7/plagiarism-pdf

参考链接：
https://www.reddit.com/r/MachineLearning/comments/k7nza3/d_a_plagiarism_in_icml_2020/
https://icml.cc/media/Slides/icml/2020/virtual(no-parent)-16-13-00UTC-6075-poked_a_semi-s.pdf
https://mp.weixin.qq.com/s/qRIONaOUSnsf6UAKyHmR1A
https://icml.cc/virtual/2020/poster/6075
http://proceedings.mlr.press/v119/wei20a.html
https://wiki.eecs.yorku.ca/user/hj/students:start
http://www.cse.yorku.ca/~utn/students.html
https://lilianweng.github.io/lil-log/2017/10/15/learning-word-embedding.html