CVPR18论文竟然“造假”？双盲评审代码也要核查！

会员服务 ·

CVPR18论文竟然“造假”？双盲评审代码也要核查！

2018 年 9 月 29 日 新智元

新智元 AI World 2018 世界人工智能峰会

全程回顾

新智元于9月20日在北京国家会议中心举办AI WORLD 2018世界人工智能峰会，邀请机器学习教父、CMU教授 Tom Mitchell，迈克思·泰格马克，周志华，陶大程，陈怡然等AI领袖一起关注机器智能与人类命运。

爱奇艺

上午：https://www.iqiyi.com/v_19rr54cusk.html

下午：https://www.iqiyi.com/v_19rr54hels.html

新浪：http://video.sina.com.cn/l/p/1724373.html

新智元报道

来源：Reddit、Github

编辑：闻菲

【新智元导读】一等一的顶会CVPR接收的论文竟然出错？这条消息在今天的Reddit炸了锅。根据论文作者公开的代码，实验无法复现，同行评议过程也再次遭到质疑，该不该连代码也一起审核？网友向大家征求意见：这篇论文该不该被撤稿？

震撼！AI WORLD 2018世界人工智能峰会开场视频

CVPR，计算机视觉乃至人工智能领域顶会中的顶会，“THE顶会”，接收的论文竟然名不副实？

你说该不该撤稿？

今天，一条这样的消息在Reddit炸了锅。

事情是这样的，有人试着去复现了CVPR 2018的一篇论文——CMU和密歇根州立大学的《Perturbative Neural Networks》，发现得不到作者在论文中所描述的结果，他认为这表明论文作者计算有误，因此其结果无效，于是就在Reddit发帖（在他大前天向作者发邮件但没有收到回复后）问众网友：

“我觉得这篇论文该被撤稿。你们觉得呢？”

“THE顶会”CVPR的同行评议竟然出错？！

一石激起千层浪。

因为这可不是随便哪篇上传到arXiv的预印版，而是经过了CVPR双盲评审的论文啊。连CVPR这样一等一的顶会都出错了，这还怎么得了？

具体看，《Perturbative Neural Networks》的作者在文中写道，如今计算机视觉的成功大多是由于卷积神经网络（CNN），而他们提出了一个简单有效的模块，叫做“干扰层”（perturbation layer），作为卷积层的替代。干扰层不使用传统意义上的卷积，而是将其响应计算为一个线性加权和，这个和是由增加的噪音干扰输入的非线性激活组成的。

PNN论文作者通过实验和分析，表明干扰层可以有效地替代标准的卷积层，然后他们将干扰层组成深度神经网络——干扰神经网络（PNN），并在一系列视觉数据集（MNIST，CIFAR-10，PASCAL VOC和ImageNet）上与标准CNN进行比较，得出结论PNN的表现跟CNN一样好。

但“p1esk”，也就是在Reddit发言认为该撤稿的那个人就不同意了，他认为将3X3卷积换成1X1再在输入中增加一些干扰，实际上并没有什么意义。他的测试结果是这样的：

P1esk 复现的结果，发现PNN精度根本就没有到90%，只有85%左右

当然，p1esk 也给出了他详细的实现过程，具体可以去看Github页面（见文末）。

论文该不该撤？都是公开代码惹的祸

好，回到最开始讨论的是否该撤稿问题上来。

网友的意见大致可以分为三类：

不用撤，既然作者都把代码公开了，显然是无心之过，只要将错误改过来就好了；
撤！有错误当然撤，不仅如此，以后还应该规定所有论文提交时都必须公开代码，不仅论文要评审，连代码也要一并审核；
先把撤稿的事放在一边：（双盲）评审过程本身并不涉及代码的审核，就好像生物学领域的论文不会在审稿期间去重复实验，也无法做到一一核查代码，原本就是论文发表后，由其他同行来复现，由此判断其结论是否经得起科学论证。

你有没有发现，讨论的重点实质上已经从“撤稿”转移到了“公开代码”上面。

p1esk 为何能发现PNN论文结果与作者描述得不一致？因为PNN论文的作者将代码公开了。如果不公开，连发现这个不一致的机会都没有。

因此，也有人评论，说不定这就是某些论文不公开代码的原因呢。

这种想法得到了不少赞同，不少人表示，对啊对啊，这比那些说了会公布代码但却一直不公布的人要好多了。

而代码公开，实际上一直是深度学习领域的老大难问题。

有的产业研究机构不太希望公开代码，因为涉及到专利或产品。

深度学习是如今研究复现率最低的领域之一，正如南京大学计算机系主任、人工智能学院院长周志华教授在AI WORLD 2018世界人工智能峰会发表的演讲中提到的那样：

“常用神经网络的朋友知道，现在深度神经网络有很多问题。大家经常说的一件事情就是要花大量的精力调整参数，参数实在太多了。

“不仅如此，这还会带来另外一个严重的问题：哪怕我告诉你同样的算法、用同样的数据，如果不告诉你参数是怎么调的，可能就没有办法得到同样的结果。”

作者回应：正在检查，误差太大会主动撤稿

现在，Reddit这条讨论里被赞最多的回复，来自PNN论文的作者。

你好，我是这篇论文的第一作者。我们在大约3周前注意到了这个问题，现在正在调查中。我很感谢Michael对PNN论文的实现，并将他发现的问题告诉给了我们。我们希望彻底分析问题，并且得到100%确定的结果，之后再给出进一步的回复。

我们可视化工具中平滑函数的默认设置有误，这是我们疏忽了，现在已经修复。我们正在重新运行所有的实验。我们会用最新的结果更新我们的arXiv的论文和Github库。如果分析表明我们的结果确实跟提交CVPR的版本中相差很多，我们会撤回这篇论文。

话虽如此，根据我的初步评估，如果他在实现的时候正确选择#filters、噪音水平和优化方法，我眼下能够在CIFAR-10上达到大约90％~91％的精度，而不是他选上述参数得到的85％~86％。但是，不做进一步检查，我不想说更多。

大部分网友都认为这是一个合理的回复。

那既然作者都这样说了，围观人等就散去吧？

你是不是忘了，最根本的代码公开还没有得到结论呢！

如果深度学习和人工智能真的要成为一门科学，那么就必须符合科研的标准。如今，代码开源以及复现实验的呼声越来越高，这也是领域健康发展的证明。

重视论文可重复性，让深度学习成为一门科学

ICLR在去年举办了一个“研究复现挑战赛”，今天刚刚公布了第二届的消息。在这个复现挑战赛中，参赛者从2019年ICLR提交的论文中任意选择一篇，然后尝试复现论文中描述的实验。目标是评估实验是否可重复，并确定你的发现是否支持该论文的结论。