近日,南开大学媒体计算实验室一篇 ICCV2019 论文被指摘要涉嫌抄袭,引发热议。
这篇论文标题是Scoot: A Perceptual Metric for Facial Sketches(Scoot:面部素描的感知指标),第一作者是南开大学计算机科学与技术学院的范登平,合作作者包括来自厦门大学、英国卡迪夫大学的研究人员,南开大学计算机系主任程明明教授是列在第五位的作者。
论文地址:https://arxiv.org/abs/1908.08433v1
被抄袭的论文是CVPR 2018的一篇论文The Unreasonable Effectiveness of Deep Features as a Perceptual Metric(深层特征作为感知度量的不合理效用)。作者是来自UC Berkeley、OpenAI和Adobe Research的Richard Zhang等人。
论文地址:https://arxiv.org/abs/1801.03924
粗略阅读,可以发现两篇论文研究的核心内容大相径庭,论文除摘要外的其余部分,包括创新点、实验论证等都和CVPR 2018的论文明显不同,且论文已经开源代码。该论文针对人脸素描合成,提出一种感知度量,称为Scoot(Structure Co-Occurrence Texture),并证明“空间结构” 和 “共现纹理” 是人脸素描合成中两种普遍适用的感知特征。
有问题的是摘要部分:
Scoot论文的摘要:
CVPR 2018论文的摘要:
用Word简单对比如下:
可以看出,南开大学的论文摘要借鉴了CVPR 2018论文摘要中的大部分句式,只对部分关键词做了改动,或用同义词替换。
目前,这篇论文的摘要已经被修改:
这种看似风险巨大、得不偿失的行为是如何发生的,这种程度的“句式借鉴”算不算抄袭,我们应该从中得到什么启发?南开大学程明明教授第一时间在知乎做出回答,其诚恳态度受到赞扬。
事件在知乎上曝光之后,南开大学计算机系主任程明明教授第一时间发表回应。
根据程明明教授的回答,IEEE官方对该事件的认定是:
我们从IEEE代表那里得到了关于这些问题的反馈,他们向我们证实了这篇ICCV论文和CVPR 2018论文之间的相似性并未接近他们对抄袭的定义(两篇论文之间的相似度评分仅为3%)。因此,我们无法采取任何正式行动。不过,出于礼貌,我们将与作者取得联系,并温和地要求他们修改相关段落。不幸的是,由于截稿日期已经过去了几个星期,因此不能保证这些修改会进入他们论文的最终版本。
程明明教授在回答中说:
收到邮件第一时间(2019-09-04 09:28)我将 2 篇论文发给全组学生,并再次提醒所有学生需要引以为戒。这件事情上,我们所有作者确实不够严谨,有明确责任。其中第一作者在撰写初稿过程中,在摘要里如此高相似度的去写研究背景,连我自己都很震惊。
本文 follow CVPR 2018 和其他几个工作去解决了一个不一样的问题(在论文中对 cvpr 2018 论文和其他相关论文也进行了多次引用)。论文中的创新点和实验部分(已开源代码)和 CVPR 2018 论文有明显的不同。由于我前期注意力主要集中在创新点和实验论证方面,对研究背景介绍这块只是排除语法错误,所以非常遗憾没在前期发现这个问题。作为通讯作者,确实是我的责任。在此郑重道歉!
作者:程明明 链接:https://www.zhihu.com/question/344291855/answer/813176343 来源:知乎
由此来看,该事件可以说大部分原因是作者的疏忽,程明明说:“由于英文能力有限,他很多英文表达喜欢仿照别人写。这次是仿照过程中由于疏忽和写作时间跨度太长,导致把被模仿的那几句混入论文主体中去了。”
这种事情太难避免,毕竟导师脑子里没有装着查重系统,而且真正查重显示的相似度也没有暴露出问题。
知乎评论中也有人表示,CS专业学生很多英语水平不高,写作靠参考模板,借鉴句子结构,或许从根本上提高英语水平才是解决之道。
知乎用户“工业设计李存”评论道:
看了下,其实作者没有刻意去抄袭的意思,只是借鉴了一些句子结构。 主要还是因为我们中国学者在语言方面的劣势。 其实挺吃亏的: 很多时候阅读论文,同样一件事,native speaker 通过冠以高级词汇,和地道的表达,就能给人以强烈的赞同感,反之,如果用我们 chinglish 的低级词汇去表达,就达不到这样的效果。 这种语言劣势在社会科学领域体现的尤为明显。
一定意义上来说,词汇的丰富度决定了表达的深度。自己在写论文时候的痛苦感,很多时候是因为英语的局限性造成的。思路才思泉涌,可是落笔到英语表达上就常常卡壳。别无他法,在英语还是国际最具有统治力语言的今天,我们科研人员只能去适应。
期望中文成为主流语言的那一天早日到来。
至于有人指出,为什么不撤稿表明态度和决心,顺道杀鸡儆猴,清清实验室科研风气?
程明明表示,“事情发展到这里,再撤稿,怕被人反过来说做贼心虚。最近很多事情,让我很难判断该怎么应对了。……既然 IEEE 有结论和建议了,我决定还是应该尊重 IEEE 建议。”
学术论文抄袭不容易认定,一般在给出引用的情况下,只要没有大面积一字不漏的复制粘贴,基本不会认定为抄袭。
IEEE 将抄袭界定为重新使用他人原先的想法、过程、结果或文字,而不明确注明原作者或出处。IEEE制定了比较明确的抄袭等级判定和纠正措施,并将抄袭行为归为五个级别:
Level 1:在未援引出处及归功于原作者的情况下,逐字逐句地抄袭他人的整篇文章,或文章的大部分(超过 50%), 或抄袭自己之前发表过的作品。
Level 2:在未援引出处的情况下,大量抄袭 (20-50%) 他人的作品,或抄袭自己之前发表过的作品。
Level 3: 在未援引出处的情况下,所抄袭的段落、句子或插图等独立元素构成文章的明显篇幅(高达 20%)。
Level 4: 在未援引出处的情况下,成段或成篇改写出自其他来源的资料。
Level 5: 虽有援引出处,却逐字逐句抄袭他人文章的大部分,但却不对此进行明确标示,如加引号或缩排。
国外大部分学校也有明确抄袭标准和相应处理机制,但在国内,高校大都有针对学位(毕业)论文的“抄袭、剽窃等学术不端行为的处理办法”,强调惩罚处理,却缺乏明确的对抄袭的定义。这也是我们应该借鉴的地方。
知乎问题链接:
https://www.zhihu.com/question/344291855