足够困难的问题:某些审稿人会因为评估方法的数据集(比如 MNIST)过于简单而拒绝论文。「足够困难」是一个不断变动的目标,其中隐含着一个预期:该领域会不断开发出更好的方法,因此评估标准也应该变得更困难,这样才能推动领域的发展,解决之前无法解决的问题。同样,在简单基准上的 SOTA 方法并不一定就是更困难基准上的 SOTA,而更困难的基准往往更接近真实应用。幸好我被引用最多的论文写于 MNIST 数据集尚可接受的时代。 是否「出人意料」:即便某篇论文确实给出了成功的结果,审稿人可能还是会说这个结果「并不意外」或「显而易见」。举个例子,将标准的目标识别技术应用于某个新数据集的论文可能会被认为「过于简单和直接」,尤其考虑到现在该领域的专家普遍认为目标识别问题基本已得到解决(这并非事实,但评估基准还未反映出这一点)。 我真的很喜欢违背直觉的论文,而且我个人也在努力写能给人惊喜的论文。 在这方面,我个人最喜欢的一些论文根本没有实现 SOTA 或提出新算法:
Approximating CNNs with Bag-of-local-Features models works surprisingly well on ImageNet,有关该论文的介绍可参阅《过往 Net,皆为调参?一篇 BagNet 论文引发学界震动》(这是本文的作者 Eric Jang 写的一篇分析解读)。
Understanding Deep Learning Requires Rethinking Generalization. 可参阅《要理解深度学习,必须突破常规视角去理解优化》
A Metric Learning Reality Check
Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations
是否真实:这与「足够困难的问题」紧密相关。某些审稿人认为游戏是研究强化学习的优良试验场,但其它一些审稿人(通常来自典型的机器人研究社区)则认为 Mujoco Ant 和真正的四足机器人是完全不同的问题,在前一领域的算法比较并不能为后者的同类型实验提供任何见解。 你的研究是否符合良好的 AI 道德伦理?某些审稿人认为开发机器学习技术的目的是构建一个更好的社会,所以他们不会支持那些与他们的 AI 道德伦理观相悖的论文。今年,向 NeurIPS 提交论文时需要填写「Broader Impact(更广泛的影响)」称述,这说明该领域正在更为严肃地对待这一问题。举个例子,如果你提交一篇仅靠人脸识别来推断犯罪可能性的论文或一篇执行自动武器瞄准的论文,我相信不管你开发了怎样的方法,这篇论文都很可能被拒。 不同的审稿人在以上问题的优先级方面都有各自的看法,而且其中很多标准都非常主观(比如对问题的品味、道德伦理、简洁性)。对于以上的每一条标准,都有可能找出反例(但可能满足其它标准),而且其中一些反例还有很高的引用量或对机器学习领域有很大的影响。 Eric Jang的标准 我还想分享一下我在审议论文时的标准。在涉及到建议接收或拒绝时,我最关心的标准是正确性和新信息。即便我认为你的论文很无趣,在 10 年内都不可能成为一个活跃的研究领域,但只要你的论文能帮我了解我认为之前还没有过的新东西,我就会投支持票。 更具体地举几个例子: