会员服务 ·

实锤举报！复旦硕士被爆「英译中」9年前顶会论文（附对比）

2021 年 10 月 23 日 新智元

新智元报道

来源：知乎

编辑：好困小咸鱼

【新智元导读】近日，又有一起学术不端行为被网友举报，作者竟是复旦大学重点实验室的研究生？相比于此前内容的一比一复刻，这次则是对9年前顶会论文来了一个「英译中」。

最近几个月，学术不端行为频发。

先有发了12篇顶会的港科大准博士ICCV论文涉嫌剽窃，后是北理工硕士论文和NeurIPS投稿相似度近100%。

这次又上演了一波教科书般的「英译中」。

而作者，竟然来自复旦的重点实验室！

其中涉及到的论文分别为：

于2017年发表在期刊《计算机应用与软件》上的《基于正则表达式构建学习的网页信息抽取方法》。

于2008年发表在自然语言处理顶会EMNLP上《Regular Expression Learning for Information Extraction》。

教科书般的「英译中」

下面，我们将会为大家演示，如何「翻译」一篇英语文献并在之后进行发表。

https://aclanthology.org/D08-1003.pdf

http://www.shcas.net/jsjyup/pdf/2017/2/基于正则表达式构建学习的网页信息抽取方法.pdf

摘要

通看全文，中文论文的行文逻辑和英文原版几乎完全一致。

首先，让我们从摘要看起。

英文论文

「正则表达式」是「信息抽取」的「常用方法」。「高质量且复杂的正则表达式」需要「人工成本」，为此，提出「...算法」。

左：英文译文；右：中文论文

引言

引言部分更夸张一些，几乎所有的关键词都被直接挪用了过去。

至少在之前的摘要部分还是做了相当一部分「原创」的。

英文论文

左：英文译文；右：中文论文

问题描述

如果说之前只是语言上的相似，那么接下来在第二章「2 The Regex Learning Problem （正则学习问题）」和「2 问题描述」中，内容重复之多，可以说就是「一字不差」地照搬了。

首先，在问题的定义和变量的设置上，都是构造「正负」例子匹配结果的两个集合。

英文论文

左：英文译文；右：中文论文

在问题的阐述中，都提到了一个假设和三个定义，且关键处内容高度相似，仅仅更换了个别字母的使用。

英文论文

左：英文译文；右：中文论文

原作者提出的算法「ReLIE 」和中文稿的「正则表达式构建学习算法」从算法的变量定义，到执行的语法结构也完全一样。

左：英文论文；右：中文论文

实验分析

实验结果也是大差不差，下图左边原文在四个任务（SoftwareName、CourseNumber、 URL 和 PhoneNumber ）上进行正则表达式的抽取，右边中文论文也在四个任务（电话号码、课程代码、超链接任务和公司名称）上抽取，实验所用的任务名称完全一样，实验图的走势也高度接近。

左：英文论文；右：中文论文

此外，文中还有多处公式雷同。

比如，对目标函数的定义（中文论文第二个公式貌似还是错的。。。）：

左：英文论文；右：中文论文

时间复杂度的计算公式：

左：英文论文；右：中文论文

就连实验的数据汇总表的格式也是一样的。

左：英文论文；右：中文论文

出于对科研的敬畏

事件被多方曝光之后引来了不小的热度。

而网上的传言也越来越离谱，从一个CS教授为什么会看中文水刊，到这是要锤复旦的阴谋论。

为此，在昨晚，事件的第一发现者再次发文表示，自己举报完全是出于对科研的敬畏，并附上了发给原作者举报抄袭的邮件截图。

此外，也贴出了自己在2021年10月20日下午6点发的朋友圈。

（节选）

该网友表示，自己就是一名在国内读大学的大四本科生，目前在公司实习，因为业务上涉及使用正则表达式筛选数据。

最开始在Google Scholar上找到了IBM的那篇工作，但是感觉有些晦涩难懂，于是就决定去中文网站搜索一下相关的信息，然后就找到了这篇疑似抄袭的论文。经过和引文论文的对比，发现果然是一模一样的。

此外，网友表示，复旦大学是我国最好的大学之一，为科技、社会的发展，做出了不可估量的贡献。自己非常尊敬复旦大学每一位认真科研、学习的老师和同学。

虽然自己并不是全职做科研的博士或者教授，但作为一个了解过科研艰辛的人，不能容许别人肆意窃取这样的成果。

这位网友相信，即便这件事在中文学术上是微不足道的，但如果大家也能在发现抄袭之后就随手进行曝光和举报，我们的学术环境一定会越来越好。

网友力挺

一早起来，知乎这一问题下面已经有了好多人的评论。他们都表示了对这个造假发现者和举报者的支持：

「唉，要是每个同行都像你这样求真务实就好了。」

「做的对，向你致敬。净化学术氛围，人人有责。」

最近的多起学术不端行为，给学术研究者一个大大的提醒，那就是科研工作者一定要求真，求实，对学术诚信要有敬畏之心，绝不能踏过红线，不要有侥幸心理，否则就是自毁前程。每位科研工作者在做好自己的工作时，也要懂得尊重他人的学术成果。

同时，科研工作者既是论文的产出者，也要做学术诚信的监督者，这样，才能推动学术发展欣欣向荣。

参考资料：

https://www.zhihu.com/question/493606496/answer/2183263738

https://aclanthology.org/D08-1003/

http://www.shcas.net/jsjyup/pdf/2017/2/基于正则表达式构建学习的网页信息抽取方法.pdf

登录查看更多

相关内容

正则表达式

关注 856

正则表达式（Regular Expression，一般简写为RegEx或者RegExp），也译为正规表示法、常规表示法，台湾译「规则运算式」，在计算机科学中，是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串。

AAAI 2022接收论文列表发布，1349篇论文都在这了！

专知会员服务

146+阅读 · 2022年1月11日

ICML2021论文奖项出炉！谷歌大脑等获杰出论文奖，4篇论文获得杰出论文荣誉提名奖

专知会员服务

25+阅读 · 2021年7月20日

「因果推理」概述论文，13页pdf

专知会员服务

101+阅读 · 2021年3月20日

近期必读的五篇 NeurIPS 2020【元学习】相关论文

专知会员服务

28+阅读 · 2020年12月15日

近期必读的七篇NeurIPS 2020【对比学习】相关论文和代码

专知会员服务

66+阅读 · 2020年10月20日

NeurIPS 2020接收论文列表发布，1900篇论文都在这了！

专知会员服务

114+阅读 · 2020年10月8日

最新必读的六篇「知识图谱表示学习KGRL」2020顶会论文和代码

专知会员服务

67+阅读 · 2020年7月17日

49篇ICLR2020高分「图机器学习GML」接受论文及代码

专知会员服务

62+阅读 · 2020年1月18日

基于深度学习的行人重识别研究进展，自动化学报

专知会员服务

39+阅读 · 2019年12月5日

知识图谱更新技术研究及其应用，复旦大学硕士论文

专知会员服务

106+阅读 · 2019年11月4日

借助OCR和正则表达式，复旦博士用130行代码核查核酸报告，800份只需要2分钟！

大数据文摘

1+阅读 · 2022年4月11日

小学生们在B站讲算法，网友：我只会阿巴阿巴

极市平台

0+阅读 · 2022年3月28日

南大硕士毕业生举报同组同学抄袭，被举报者回应了

机器之心

0+阅读 · 2022年1月10日

两篇毕业论文致谢同一个女朋友？哈哈哈哈！

CVer

0+阅读 · 2021年12月21日

已删除

CVer

3+阅读 · 2021年12月15日

已删除

机器之心

2+阅读 · 2021年12月14日

开局一段扯，数据全靠编？真被一篇“神论文”气到了

夕小瑶的卖萌屋

0+阅读 · 2021年12月12日

100%抄袭！ICLR 2022投稿竟公然剽窃两篇顶会，程序主席放「实锤」严词拒稿

新智元

0+阅读 · 2021年11月3日

Ornstein-Uhlenbeck 型过程多变点检验及两样本检验问题

国家自然科学基金

1+阅读 · 2015年12月31日

向量组合学习框架下基于依存混合树的中文语义解析研究

国家自然科学基金

3+阅读 · 2014年12月31日

家蚕基因组中未知转座子的注释及比较基因组学研究

国家自然科学基金

0+阅读 · 2014年12月31日

单样本下复杂光照人脸特征提取关键技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

MRKβ与p-MSK1介导NFκB信号通路在神经炎症引起的神经元损伤中的作用及其机制

国家自然科学基金

0+阅读 · 2013年12月31日

控制方向未知的随机非线性系统的神经网络自适应控制

国家自然科学基金

2+阅读 · 2013年12月31日

欠驱动微型无人艇的航迹跟踪方法研究

国家自然科学基金

4+阅读 · 2013年12月31日

基于数据驱动的中文自然语言生成关键技术研究

国家自然科学基金

7+阅读 · 2012年12月31日

融合深层语义理解的网络水军发帖自动检测技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于图的统计机器翻译方法研究

国家自然科学基金

2+阅读 · 2010年12月31日

Likelihood-Free Frequentist Inference: Confidence Sets with Correct Conditional Coverage

Arxiv

0+阅读 · 2022年4月19日

A Survey on Deep Hashing Methods

Arxiv

1+阅读 · 2022年4月19日

Quantum Bayesian Statistical Inference

Arxiv

1+阅读 · 2022年4月19日

MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for Video Summarization

Arxiv

0+阅读 · 2022年4月19日

2D Human Pose Estimation: A Survey

Arxiv

0+阅读 · 2022年4月15日

Scene Graph Generation: A Comprehensive Survey

Arxiv

26+阅读 · 2022年1月3日

Sequence Level Contrastive Learning for Text Summarization

Arxiv

14+阅读 · 2021年9月24日

A Survey on Neural Recommendation: From Collaborative Filtering to Content and Context Enriched Recommendation

Arxiv

25+阅读 · 2021年4月27日

Self-supervised Learning: Generative or Contrastive

Arxiv

19+阅读 · 2020年7月21日

Pre-trained Models for Natural Language Processing: A Survey

Arxiv

113+阅读 · 2020年3月18日

VIP会员