在作者将论文提交至投稿系统后,程序委员会主席(PC Chair)会根据以下标准将论文分配到不同的轨道(track)中:首先,作者在投稿时会选择论文涉及的研究领域,并为这些研究领域分配优先级。系统会根据作者选择的研究领域自动为论文分配 track。此外,还会判断作者提交的论文是否被重复提交至其它会议。实际上,许多知名学术会议之间会共享一个论文提交名单,用于检测论文是否被重复提交至多个会议。甚至,如果作者将论文提交至会议 B 的日期是某月 10 号,而该论文被会议 A 拒稿或撤回的日期是当月 11 日,也是不符合提交规范的。系统还会检查作者填写的利益冲突(conflict of interests)情况,这是为了避免领域主席或相关利益者审阅与自己有关的文章。
审稿结果通知下发之后,会进入 Camera Ready 阶段,一般是20天左右。此时,作者需要根据审稿人的意见对论文进行修改(例如,重新组织论文中混乱的部分)。这一修改过程对于提升论文质量十分有用,审稿人从读者的视角对论文内容的组织提出了意见,作者往往需要接受这类意见。然而,有时审稿人还会要求作者补充一些实验。此时,作者需要理性判断,尽量补充必要的实验。当然,文章中的语法错误是需要及时纠正的。一般来说,论文中提出的方法不能有太大的变动,作者只能修改论文中的瑕疵,而不能将原来的方法修改为新的方法。值得注意的是,有的作者对 Camera Ready 环节并不是特别重视,其实是十分可惜的。对于每一名作者而言,从开始创作论文到最后在学术会议上作报告其实是一个很辛苦的过程,往往需要花费数月的时间。发表论文的目的就是将思路呈献给读者,通过文章与大家交流作者对某种方法的尝试,而论文质量对于最终这种交流的效果至关重要。正所谓「见论文即见其人」,发表论文的过程就是不断塑造作者个人学术形象的过程。
图 6:论文评审的理想情况在论文评审过程中,作者往往希望审稿人仔细阅读论文并进行反复的推敲。正常情况下,审稿人应该对每篇论文阅读三遍:第一遍了解论文的大体思想;第二遍对论文算法细节进行仔细阅读;第三遍需要审稿人组织全文行文思路,按照自己的理解撰写审稿意见,审稿意见需要总结论文实验分析的内容、作者根据实验得到的结论、论文提出的方法的优缺点等,并且提出审稿人不理解的问题、指出文中存在的错误。理想情况下,作者希望即使论文内容本身有些模糊,审稿人也能够领会论文的含义,根据上下文的蛛丝马迹推测出论文每一段的意思。甚至有的作者还尝试在论文中埋入一些「梗」,希望审稿人能发现他们。然而,很不幸,实际的审稿情况并非如此!图 7:论文评审的实际情况实际上,审稿人往往有三种类型:高校教师、企业或研究机构的研究人员、学生审稿人,他们的工作往往都非常繁忙。首先,高校教师每年可能要审阅数十篇论文,他们基本上没有时间按照上述理想状况来审阅论文。也有一些高校教师会让自己的高年级学生帮忙审阅论文,他们会根据学生的审稿意见再查看文章的细节,判断学生对文章创新性、正确性等方面的把握是否正确。第二,对于没有学生的企业或研究机构的科研人员来说,他们的工作十分繁忙,有时会根据论文的质量来判断每篇论文花费的时间。审稿对于他们来说是一种「义务劳动」,为的是推动学术社区的发展。最后,学生审稿人通常会非常仔细地审稿。尤其是对于实验部分而言,由于学生自己做过很多实验,他们非常清楚这篇论文的实验配置是否正确,应该做什么实验。因此,老师在将审稿任务分配给学生时,往往会找研究方向对口的学生审稿。当然,学生最后撰写的评审意见可能也带有一定的主观性,这时就需要老师把关。图 8:评审标准在审稿时,系统往往会要求审稿人提交「评审表格」(review form),我们根据评审表格的内容提炼出了如图 8 所示的一系列论文评审标准:(1)正确性。首先,作者需要确保论文研究的问题是确实存在的,论文介绍的现有方法的缺陷是值得研究的。此外,作者引出新方法的理论需要经得起推敲。如果文中提出的方法涉及较多的数学推导,那么数学证明需要十分严谨。此外,作者应该确保论文中的操作流程正确。例如,训练集中不能包含测试集的内容,处理训练集和测试集的数据的方法应该保持一致,对文中提出方法进行测试的设置应该与对比基线使用的设置保持一致,报告的实验结果应该是模型收敛后的结果。总而言之,作者需要确保论文中的叙述与现实情况相符。(2)创新性。创新性关注于文章是否研究了新的问题、是否提出了新的方法,或者实验是否在新的数据集上进行。对于综述性的文章来说,审稿人还会判断作者是否从一个较高层次的角度,通过新的视角切入,梳理整个研究领域的发展脉络。(3)重要性。审稿人会判断文中研究的问题是否具有重要意义,文中的研究过程涉及的工作量是否足够。此外,审稿人还会判断论文中介绍的工作将来是否会产生一定的影响力的、该方法是否能够复用的。如果文中提出的方法具有较强的泛化能力,就会体现出较高的重要性。(4)简明性。从写作上说,论文的行文组织应该合理,文字叙述应该条理清晰,不能存在明显的歧义。对于复杂的方法,文章的描述应该深入浅出。(5)实验是否充分。作者应该在文中提供自己实现的相关的对比基线,还应该进行充分的「消融分析实验」(ablation study)。文中提出的方法可能包含多个要素,作者需要通过实验说明没有冗余的要素,并且分析每个要素对最终结果的影响程度。此外,作者还应该分析各个要素之间的相互作用(例如,互斥现象)。作者应该通过充分的实验印证文中所有提出的论点,提供充分的实验依据。(6)资源的影响力。资源包括代码、数据集,甚至是评估方法。面对各种各样新的应用场景,研究人员往往苦于没有针对性的数据集。如果作者能在论文中提供一个新的数据集,就会产生一定的资源影响力;此外,以同声传译为例,许多研究者会在论文中给出一种评估延迟的方法,尽管这种评估方法还不足以单独支撑起一篇论文,但是也可以在一定程度上提升论文的影响力。(7)引用。对参考文献的引用以及对相关工作的描述也是十分重要的。文章提出的新方法需要与相关工作有足够大的区别。审稿人主要会帮作者检查列出的参考文献是否完备,是否能让读者对论文中研究有比较完整的认识。描述相关工作还有一个作用,即说明文章的创新之处。如果作者在文中用到了前人提出的方法,需要在相关方法后加上引用,这是对前人劳动成果的尊重,也可以用于明确区分出作者在本文中新加入的工作。(8)可复现性。近年来,审稿人对文章的可复现性越来越重视。审稿人会单独核查论文中提出的数据集是否是公开的,他人是否能够得到该数据集并复现实验。如果作者在文中使用了一些现有的模型,作者需要给出详细的参数配置,方便他人复现实验。对于作者新提出的方法,审稿人会查看该方法的实现代码是否已经公开。当然,审稿人往往也并没有时间亲自复现实验,因此可复现性并不太容易判断。(9)学术伦理。作者进行的研究实应该是正能量的,让世界变得更加美好,而不应该是引起各种犯罪,不能对社会产生危害。图 9:约定俗成的评审标准除了被列举在「评审表格」中的评审标准,还有一些评审标准是审稿人约定俗成的:(1)论文提出的方法是当前最佳的结果。审稿人往往期望提出的方法的性能优于现有方法。但这种情况也并非是绝对的,如果文中提出的方法与现有方法性能相当,但是模型更为简单或运行速度更快,也是具有科学价值的。新方法达到目前最佳的效果并不是论文被录用的充分条件(例如,通过调整 Drop out 率实现最佳效果),也不是必要条件,但是如果模型确实达到了最佳效果,在一定程度上也可以加大论文被录用的概率。(2)研究问题是否足够困难。论文中描述的研究工作应该具有一定的意义。此外,审稿人也会关注论文中使用的数据集是否过于简单。论文中提出的方法在一个很简单的数据集上可以得到提升,但并不代表这种方法在现实中复杂的数据集上也能得到性能提升,实验结果无法反映出新方法真实的性能。(3)文中提出的方法是否出人意料。对于作者提出的研究问题而言,如果研究者们公认该问题是值得研究的,但是作者提出的方法是大多数人都能想到的常规做法,论文就不会为审稿人带来太大惊喜,论文很难获得高分。相反,如果针对文中提出的研究问题,作者的研究视角会让审稿人或读者眼前一亮,发现新方法的玄妙之处,就会大大提升文章被录用的概率。此外,如果文中得到的结论与人们的直觉不同,能够颠覆人们以往的一些认识,也会引起审稿人和读者的阅读兴趣。(4)工作是否真实。作者验证新方法的场景应该是真实的。例如,现在许多研究者进行强化学习研究的环境是虚拟的,这种虚拟环境有时与现实场景出入较大。如果审稿人认为文中的结论不能代表在现实场景下的真实状况,也有可能拒绝接收论文。图 10:Eric Jang 的评审标准然而,除了上述的常见评审标准之外,每个审稿人也可能有自己各不相同的标准。如图 10 所示,谷歌科学家 Eric Jang 个人的审稿标准是这样的:首先,他认为对于一篇论文来说,最重要的是要正确性和创新性。第二,如果论文提出的方法并没有达到目前最佳的性能(SOTA),作者也应该分析该方法没有达到 SOTA 的原因。如果论文提出的方法是合理的、仍然具有进一步提升的潜力,也是具有发表价值的。如今,很多我们经常使用的方法在发表之时其实也没有达到当时 SOTA 的性能。第三,如果论文提出了新的算法,我们期望这种新算法优于现有方法,否则需要分析其弱于现有方法的原因。最后,如果文中提出了某些论点,作者需要在实验部分对此进行验证。图 11:Julian Togelius 的审稿标准NeurIPS 领域主席 Julia Douglas 也对外发布了自己的审稿标准。在他看来,论文可能由于以下原因被拒稿:(1)作者使用了错误的对比测试方法,包括错误的对比基线、数据集、评估标准等。(2)不充分的分析实验。(3)遗漏引用相关的工作。此外,他认为所有的工作都是有瑕疵的。正如前文所述,如果论文提出的新方法足够吸引人,研究思路足够「出人意料」,那么就「瑕不掩瑜」。最后,Julian 认为现在大多数的文章太过保守,存在「Bulletproof」的现象,而这些文章四平八稳,稍显无聊。现在许多审稿人会带着一种先入为主的心态,去寻找论文中存在的瑕疵。除非论文足够引人入胜,给审稿人带来了较大的心理冲击,否则审稿人会因为这些瑕疵对论文拒稿。我们希望一篇好的论文既能够做到「Bulletproof」也能够引人入胜。