CVPR 高引论文往往无缘 Best paper，「最佳」一定「高引」吗？

2019 年 9 月 20 日 AI科技评论

本文来自公众号学术头条，AI科技评论获授权转载，如需转载请联系原公众号。

我们对60多个顶级国际会议的最佳论文和高引论文进行了分析，惊讶的发现只有10%的最佳论文最后成了真正的高引论文。是评奖委员会选错了吗？不同研究领域的最佳论文和高引论文又有什么特点呢？数据表明SIGGRAPH、SIGSPATIAL以及硬件等会议更“靠谱”（MAP值普遍大于0.5）；也有很多会，比如人工智能会议NIPS、CHI、CVPR、KDD、AAAI、ACL、IJCAI等会议的高引论文往往无缘最佳论文。来查查你的会议表现吧：https://aminer.cn/bestpaper

奖项是计算机领域每个学术会议的重头戏，每个会议的最佳论文奖可谓是学术界的顶级奖项之一。一篇最佳论文的评选标准往往包括论文的原创性、创新性、深度、质量、技术得分、领域内的潜在影响力等各种标准，被评选为最佳论文也就意味着得到了大会评审人和组织方的最大认可。

如果说最佳论文是会议组织方与同行评审给出的最优奖励，那么论文的引用次数则可以看作是大众研究者给予的客观评价。

引用次数一般被用作衡量一篇论文重要性的粗略指标，一篇高引论文好比高居“山顶”。那么高引论文与最佳论文有直接的关系吗？最佳论文的引用量是否就一定高呢？

这是一个值得探讨的问题，因为它可以映射出学术评价的众生相。

我们通过MAP（Mean Average Precision），一种评价会议评选最佳论文准确度的指标，计算出该会议年度的MAP得分，客观地反映了高引论文与最佳论文的关系。

其中#bestpapers表示前n篇引用量最高的论文中包含最佳论文的个数，n为从1到3。

按照MAP多年的平均值来看，FPGA的MAP均值为0.3704，说明了该会议多年来评选出的最佳论文引用量排行都居于高位。作为FPGA领域最具影响力、历史最悠久的学术会议，FPGA国际大会始终引领着整个FPGA工业界的技术创新。

在有数据显示的1996至2018年的18年间，FPGA 1999的MAP值为1.0，该年度评选出的5篇最佳论文全部排在当年论文引用量的前六位；FPGA 2000的 MAP值为0.8889，该年度评选出的3篇最佳论文全部位于当年论文引用量的前十位。

按照MAP每一年的数值来看，CVPR 2016 的MAP得分为0.6111。最佳论文得主《Deep Residual Learning for Image Recognition》一文，正位居于CVPR近五年来高引论文榜首，该文的引用量高达26356次。

出自FAIR “AI天才”何恺明的《Deep Residual Learning for Image Recognition》，最早发表于2015年，在当年ImageNet 大规模视觉识别挑战赛（ILSVRC）中击败谷歌、英特尔荣获第一，成为举世闻名的152层深度残差网络ResNet-152；2016年该文再次获得CVPR最佳论文奖。

这篇论文中提出的ResNets目前已经成为计算机视觉领域的流行架构，同时也被用于机器翻译、语音合成、语音识别和AlphaGo的研发。

可以看出，该文的优秀程度从获奖次数还是引用次数上都得到了充分体现，而它的影响力自然不言而喻。

ICML2018的MAP分值也为0.6111。最佳论文《Obfuscated Gradients Give a False Sense of Security：Circumventing Defenses to Adversarial Examples》，目前的引用量为426，在2018年ICML发表论文中引用量排于首位。

在这篇论文中，研究人员发现，针对对抗性样本的防御通常使用混淆梯度，这造成了一种虚假的安全感，实际上这种防御很容易被绕过。该研究描述了三种防御混淆梯度的方法，并展示了哪些技术可以绕过防御，这些发现可以帮助那些依赖混淆梯度来防御的组织强化他们当前的方法。在该文中，作者还评估了ICLR 2018接受的9篇论文，并测试了它们面对对抗样本的稳健性。实验结果证实，在8篇有关对抗样本的防御机制的论文中，有7篇的防御机制都抵挡不住论文提出的新型攻击技术，防御水平有限。

KDD 2012的MAP值为 0.2778。当年的最佳论文获得者《Searching and mining trillions of time series subsequences under dynamic time warping》，目前的累计引用量为622，在2012年KDD发表的论文引用量排行中位居第二。

该文主要为了解决time series问题中子序列相似度搜索里面的计算瓶颈问题。作者指出在本文完成之前，尚未有任何time series的子序列搜索研究能够拓展到trillion级别的数据，并且传统的time series子序列问题都是用较为易于计算的欧式距离算法来检测相似度，而本文则提出一个反直觉的论点：在大型数据集上，使用DTW算法实际上要比简单的ED（欧氏距离）算法来的要快速，并且在比之前所有实验里用到的数据加起来还大的数据集上验证了自己的观点。

ICRA2012 MAP得分是0.2778。最佳论文《SeqSLAM：Visual route-based navigation for sunny summer days and stormy winter nights》累计引用量为507，位居ICRA2012发表论文引用量排行第二。

SeqSLAM由澳大利亚IEEE fellow Michael Milford与Gordon Fraser Wyeth提出，是当时第一个在极端环境变化下还能实现基于视觉的定位系统。SeqSLAM的提出具有里程碑式的意义，不论是从思路还是验证结果，或是从论文引用量还是后续顶会都有对于这个系统的继续研究。

AAAI2004 MAP分值为0.1111。《Learning and inferring transportation routines》荣获当年最佳论文，该文的累计引用量为964，在AAAI 2004发表论文引用量排行第三。

最佳论文因其重要的研究价值和较大名气，往往会成为众多研究者的重点关注对象。从以上数据可以看出，最佳论文的引用次数相对较高，它与论文引用次数看似成正相关。

下面的例子则正好相反，最佳论文未必都是引用量最高的论文。

在2009年至2015年的七年间，NeurIPS的MAP平均值为0.0873。除了NeurIPS2011的MAP值为0.6111，最佳论文《Efficient Inference in Fully Connected CRFs with Gaussian Edge Potentials》高居当年的论文引用量排行榜首，引用量为1503次；其他6年的MAP值均为0，从我们目前的评价算法来看，也就意味着当年会议评选出的最佳论文准确度为零。

NeurIPS2012发表的《ImageNet Classification with Deep Convolutional Neural Networks》一文，作者Alex Krizhevsky是神经网络之父Hinton的学生，自2012年发表至今累计引用量高达44218次，实属经典之作。而当年被评为最佳论文的《Discriminative Learning of Sum-Product Networks》与《Structure estimation for discrete graphical models：Generalized covariance matrices and their inverses》，他们的引用量均只有一百多。

《ImageNet Classification with Deep Convolutional Neural Networks》中提出的大名鼎鼎的AlexNet，在2012年的ImageNet比赛中荣获冠军，其官方提供的数据模型，准确率达到57.1%，top 1-5 达到80.2% ，与传统方法相比，AlexNet 体现出了极大的优势，可以说是近年来深度学习浪潮的开山之作。也正是在那年之后，更多更深的神经网络被提出，比如优秀的vgg、GoogleLeNet等。

自然语言处理的顶会ACL，在有数据统计的18年里，ACL的MAP平均值为 0.0463。其中ACL 2003年的MAP值为0.6111，ACL 2002年与2005年的MAP值均为0.1111；其他15年中ACL的MAP值均为0。

其中，位于ACL 2001年高引论文榜首的《BLEU：a method for automatic evaluation of machine translation》一文，引用量高达9433次，而当年的最佳论文《Fast decoding and optimal decoding for machine translation》、《Immediate-head parsing for language models》分别为320与390。

再来看看ICCV ，在有数据显示的1998年至2015年的九年里，ICCV的MAP平均值为0.0123。除了2003年最佳论文获得者《Detecting Pedestrians Using Patterns of Motion and Appearance》排在当年的论文引用量第三位，引用量为2715次，其他8年里ICCV的MAP值均为0。

其中，发表于1999年的《Object Recognition from Local Scale-Invariant Features 》一文，引用量高达17307次。荣获ICCV最佳论文的《Euclidean Reconstruction and Reprojection Up to Subgroups》与《A Theory of Space Carving Object Recognition from Local Scale-Invariant Features》，他们的引用量均不到一百。

对于最佳论文来说，为什么这些科研突破都收获了会议的最高奖励，却无法跻身高引论文榜首？还有很多会议都存在这种情况，高居“山顶”的论文往往都不是最佳论文。也许很难明白这其中的原因究竟是什么？但这并不代表最佳论文的质量或者是影响力就差。

据《自然》杂志所作的一项报告解释了一部分原因。比如，许多关于研究方法的论文“成为了一种标准引用，好让其他科学家明白作者在做的是什么样的研究”；另一种就是很多真正的基础性发现（比如爱因斯坦的狭义相对论）很快进入了课本或者被当作耳熟能详的术语，不需要添加引用就能直接纳入正文，因此造成了他们的引用次数低于其应得水平。

另外，引用次数中也充满了其他干扰因素。比如，论文引用的总量增加了，但发表时间早的论文有更多的时间来累积引用量。某些领域的学者更倾向于频繁地引用他人的研究成果，某些领域则不然。而且，并非所有领域发表的论文数量都是一样的。

虽然以引用次数评价一篇论文质量的高低还存在种种不足，但这种 “排名”依然有其价值，至少这些高引论文经受起了“时间和群众的考验”。他们从庞大的学术文献中脱颖而出，他们所提出的方法结论往往都具有里程碑的意义，在其所在的领域都存在巨大的潜在影响力，为后来的研究者提供了学习参考的典范。

同时，它至少可以提醒我们科学知识的本质：为了取得激动人心的科学进步，研究人员依赖于相对默默无闻的论文来描述他们的实验方法、数据和成果。