又一篇CVPR 2022论文被指抄袭,平安保险研究者控诉IBM苏黎世团队

2022 年 6 月 28 日 机器之心
机器之心报道

编辑:张倩

「他们并不是照抄文本,而是剽窃想法。」

昨天,有人在 reddit 上发帖称,IBM 苏黎世研究中心剽窃了自己的论文,而且还被 CVPR 2022 接收了。

这位发帖者写道:

我叫 Xianbiao Qi,是一位有十多年研究经验的计算机视觉研究者。我写这个博客是为了投诉一个严重的案例:IBM 苏黎世研究中心的员工蓄意剽窃我们的论文。他们并不是照抄文本,而是剽窃想法。


Qi 提到的疑似被抄袭的论文题为「PingAn-VCGroup's Solution for ICDAR 2021 Competition on Scientific Literature Parsing Task B: Table Recognition to HTML(平安 VCGroup 为 ICDAR 2021 科学文献解析竞赛任务 B 提供的解决方案:HTML 表格识别)」,作者来自平安保险和平安科技,上传 arXiv 的时间是 2021 年 5 月份,2021 年 7 月份公布了代码,2021 年 9 月发布了 Tablemaster 预训练模型,2021 年 11 月发布了 tablemaster_mmocr docker 环境。论文中提到的竞赛是 2021 年 4 月结束的,由 IBM 的另一个团队主办。


论文链接:https://arxiv.org/pdf/2105.01848.pdf

如论文标题所述,这篇文章为 ICDAR 2021 科学文献解析竞赛任务 B(HTML 表格识别)提供了一套解决方案。具体来说,他们将表格内容识别分为四个子任务:表格结构识别、文本行检测、文本行识别和框分配。表格结构识别算法是基于一种鲁棒的图像文本识别算法 MASTER 定制的。PSENet 用于检测表图像中的每个文本行。文本行识别模型也建立在 MASTER 之上。最后,在框分配阶段,他们将 PSENet 检测到的文本框与通过表结构预测重构的结构项相关联,并将文本行的可识别内容填充到对应项中。


被指抄袭的 IBM 论文题为「TableFormer: Table Structure Understanding with Transformers(TableFormer:用 Transformer 理解表结构)」,上传 arXiv 的时间是 2022 年 3 月份,提交给 CVPR 的时间未知。


论文链接:https://arxiv.org/pdf/2203.01017.pdf


在这篇论文中,IBM 的研究人员提出了一种新的表结构识别模型,它从两个方面改进了最新的端到端深度学习模型(即来自 PubTabNet 的 encoder-dual-decoder)。首先,他们引入了一种新的目标检测解码器用于表格单元格。通过这种方式,他们可以直接从 PDF 源中获取编程式 PDF 的表格单元格内容,从而避免了定制 OCR 解码器的训练。这种架构上的改变带来了更精确的表格内容提取。其次,他们将 LSTM 解码器替换为基于 transformer 的解码器。

Qi 表示,IBM 的这篇论文剽窃了他们的方法论、预处理、后处理、可视效果、推理、系统级解决方案、代码、预训练模型等内容,但「为了不被抓住」,他们没有引用 Qi 等人的论文。


接下来,Qi 用十几张图展示了他认为 IBM 存在抄袭的地方。

Qi 展示的疑似抄袭点 1:方法论。他认为,IBM 的研究者抄袭了他们的想法,并重写了「贡献」部分,而且根据他们的图重新画了结构图。

Qi 展示的疑似抄袭点 2:预处理。

Qi 展示的疑似抄袭点 3:后处理。

Qi 展示的疑似抄袭点 4:推理加速方法

Qi 展示的疑似抄袭点 5:技巧。

Qi 展示的疑似抄袭点 6:文本行检测和文本行识别。

Qi 展示的疑似抄袭点 7:系统级解决方案。

Qi 展示的疑似抄袭点 8:可视效果。

Qi 展示的疑似抄袭点 9:误导读者。

在看了 Qi 给出的示例后,有人认为这些都是非常有力的证据,IBM 团队很难证明自己的论文是原创的,Qi 应该向 CVPR 程序委员会投诉。


不过,也有人认为,这些证据不够有力:「两个小组研究的是同一个问题,使用的是相同的公开数据,他们的解决方案也有相似之处。但这并不意味着一方照搬另一方。例如「疑似抄袭点 1」中所展示的内容就不是那么接近」。


目前,我们还没有在帖子下方看到 IBM 论文作者的回应。

不过,值得一提的是,这并不是今年 CVPR 曝出的唯一一件疑似抄袭事件。几天前,一位网友在 YouTube 上爆料说,首尔大学的一篇论文抄袭了十几篇其他论文,目前该论文作者已经出来道歉并撤稿。

或许,顶会论文在查重上面需要多下点功夫了。

参考链接:https://www.reddit.com/r/MachineLearning/comments/vlpnuw/d_ibm_zurich_research_plagiarised_our_paper_and/


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

登录查看更多
1

相关内容

CVPR2022论文列表出炉!2067篇论文都在这了!
专知会员服务
53+阅读 · 2022年6月6日
人大最新《基于Transformer 的视频语言预训练》综述论文
专知会员服务
45+阅读 · 2021年9月27日
ICCV2021接受论文!
专知会员服务
26+阅读 · 2021年7月23日
专知会员服务
31+阅读 · 2021年6月12日
必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码
专知会员服务
32+阅读 · 2020年1月10日
智源承认论文抄袭,相关责任人已离职!
夕小瑶的卖萌屋
0+阅读 · 2022年7月18日
百余大佬署名AI论文被爆抄袭!智源现已致歉
极市平台
0+阅读 · 2022年4月14日
Github大盘点!2021年最惊艳的38篇AI论文
THU数据派
1+阅读 · 2021年12月30日
CVPR 2020 论文大盘点-动作检测与动作分割篇
计算机视觉life
12+阅读 · 2020年7月27日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年8月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
A New Aligned Simple German Corpus
Arxiv
0+阅读 · 2022年9月2日
Exploring Visual Relationship for Image Captioning
Arxiv
14+阅读 · 2018年9月19日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年8月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员