NeurIPS 2019 获奖论文出炉，微软华人学者Lin Xiao 获经典论文奖

2019 年 12 月 9 日 AI科技评论

作者 | AI 科技评论编辑部

编辑 | 唐里

作为最久负盛名的机器学习顶会之一，今年 NeurIPS 2019 在召开之前就消息不断：在今年论文审稿期间，NeurIPS 2019 程序委员会主席专门发布声明称， 1 9 篇论文因一稿多投被拒收，一时造成热议；而在会议近一个月前，多位黑人参会者们申请加拿大签证被拒的消息引起了AI学者们纷纷为其发声并对近年来签证问题的讨论展开了激烈讨论，为本次大会的召开埋下了一丝令人忧心的伏笔。

另一方面，无论是论文投稿期间一度导致 NeurIPS 服务器宕机，还是今年大会“别出心裁”地采取抽彩票的方式决定谁能获得参会门票，都暗示着今年大会的盛况不减甚至会更超出往年。

自昨日开始，12月8日至14日为期7 日的NeurIPS 2019 便已如火如荼地在加拿大温哥华举行。据大会官方统计，今年参会总人数超过 13000 人，与去年不到 9000 人的参会人数相比，翻了半番。温哥华在今年这个冒着冷气的冬季里，一时迎来如此庞大的参会人群，温度估计都“升了好几度”。

Photo by James Kelloway

虽然正会还未正式开始，但 NeurIPS 官方在几个小时前已早早地公布了今年备受瞩目的「杰出论文奖」（Outstanding Paper Award）、「经典论文奖」（Test of Time Award）以及今年增设的「杰出新方向论文奖」（Outstanding New Directions Paper Award）的奖项结果。

从获奖论文清单中，我们可以看出，除了经典论文奖是由来自微软研究院的 Lin Xiao获得外，其他奖项中都没有出现华人身影。

一、最佳论文

按照惯例，今年NeurIPS 2019最佳论文组委会从会议接收的Oral 论文中挑选出了最值得关注的论文并授予杰出论文奖项。据官方介绍，今年的论文奖项评选规则如下：

具备持久影响的潜力——论文聚焦于某个主流而非边缘化的研究领域，人们在未来的几十年时间里依旧会关注它。

有观点 ——提供了新的（并且希望是深的）见解，而不仅仅是在性能上提高几个百分点。
创造性/让人出乎意料/令人惊奇 ——以创造性的新视角去看待问题，并且得出了真正让读者惊喜的结果。
变革性 ——将从根本上改变未来人类思考问题的方式。
严谨性 ——无懈可击的细致和严谨。
优雅 ——论文漂亮、工整、流畅并经过很好地润色。
现实性 ——不过分强调重要性。
科学性——能够证伪。
可重复性 ——结果能够真正可重复、代码可用并且能够在多种机器上运行、数据可用以及能够提供详细的证实。

与此同时，组委会在评选论文时，还应该关注论文是否存在以下几点问题（并避免选择存在这些问题的论文）：

低效 ——需要以消耗大量资源为前提才能够脱颖而出的工作（主要依赖于消耗大量资源在排行榜上获得了更高的排名）
时髦 ——采用某个方法是因为此方法比较热门，但其实还可以采用其他更加高效的方法。
过于复杂 ——论文中加入了本不需要的复杂性。

以上这些因素，或许值得每一位想要拿得国际顶会最佳论文奖的研究者/机构，去思考和借鉴。

与此同时，今年最佳论文组委会还专门增加了「杰出新方向论文奖」（Outstanding New Directions Paper Award）奖项，以此表彰在「针对未来研究开设出了创新路径」方面表现出色的研究者。

遵循上述原则，组委会提交了一份包含三篇论文的短名单以及另一份包含8篇论文的备选名单，之后再由组委会成员独自对备选名单中的8篇论文进行评估并给出排名结果，接着互相交流这些结果。同时针对每篇论文，组委会成员还会额外寻求专家的意见（并在决策中将这些意见考虑进去）。

最终组委会成员彼此达成一致意见，并经过简短的讨论后决定获奖名单。以下是各个最佳论文奖项的简要介绍——

1、最佳论文奖

论文标题： Distribution-Independent PAC Learning of Halfspaces with Massart Noise

中文翻译：有Massart噪声时的不依赖分布的半空间的PAC学习

下载地址：https://papers.nips.cc/paper/8722-distribution-independent-pac-learning-of-halfspaces-with-massart-noise

这篇论文研究了在训练数据中有未知的、有界的标签噪声的情况下，如何为二分类问题学习线性阈值函数。论文中推导了一个在这种情境下非常高效的学习算法，解决了一个基础的、长期存在的开放性问题：在有Massart噪声的情况下高效地学习半空间；这也是机器学习的核心问题之一，这篇论文带来了巨大的进步。

论文中的一个简单的例子说明了方法的效果。在此之前，只有1% Massart噪声就会让弱学习无效（达到49%的错误率）。论文中展示了如何高效地让错误水平上限仅仅等于Massart噪声水平+ε （算法的运行时间为（1/ε）的多项式，正如预期）。算法的实现方法很精密，达到这样的结果也有一定的技术挑战。最终的结果是，能够高效地在（1/ε）的多项式运行时间内让错误水平上限为Massart噪声水平+ε 。

2、杰出新方向论文奖

论文标题： Uniform convergence may be unable to explain generalization in deep learning

中文翻译：一致收敛性可能无法解释深度学习中的泛化性

下载地址： https://papers.nips.cc/paper/9336-uniform-convergence-may-be-unable-to-explain-generalization-in-deep-learning

这篇论文展示了一些基本负面的结果，表明对深度学习算法表现的许多现有的（基于范数的）泛化边界描述方法并不能达到声称的效果。论文中认为，当这些泛化边界描述方法继续依赖双面的一致收敛性的时候，就无法达到宣称的效果。虽然这篇论文并没能解决（也没打算解决）深度神经网络中的泛化性问题，它的效果是为整个领域指出这个问题需要尝试别的方法。

3、杰出论文荣誉提名奖

论文标题： Nonparametric Density Estimation & Convergence Rates for GANs under Besov IPM Losses

中文翻译：在Besov IPM损失下研究GANs的非参数化密度估计和收敛速度

下载地址： https://papers.nips.cc/paper/9109-nonparametric-density-estimation-convergence-rates-for-gans-under-besov-ipm-losses

这篇论文通过严谨的理论方式表明，GANs在密度估计任务中可以比线性方法有更好的表现（以收敛速度来评价）。利用了此前小波收缩方面的成果，这篇论文让我们对GANs的表征能力有了新的认识。具体来说，作者们在一大类函数（Besov空间的）的一大类损失下（我们称作“积分可能性指标”），为非参数化的密度估计推导了最大最小收敛速度。审稿人们觉得这篇论文会对研究非参数化估计以及研究GANs的研究人员们有很大的影响。

论文标题： Fast and Accurate Least-Mean-Squares Solvers

中文翻译：又快又准确的最小均方解算器

下载地址： https://papers.nips.cc/paper/9040-fast-and-accurate-least-mean-squares-solvers

最小均方解算器（Least Mean-Square solver）是许多机器学习算法的核心组件，从线性回归、Lasso回归到奇点值分解和Elastic网络，都会用到最小均方解算器。这篇文章展示了如何把最小均方解算器的计算复杂度降低一到两个数量级，而且既没有精度损失、还能提升数学稳定性。他们的方法依赖于Caratheodory理论，提出一组核心的点集（对于d维空间，需要d^2+1个点）就足以刻画凸壳中的所有n个点。论文的创新性在于，他们提出了一个“分割并解决”（divide-and-conquer）算法，能用可接受的计算复杂度提取出这组核心点集（计算复杂度O(nd + d5 log n)，前提是d<<n）。

审稿人们认为论文中提出的方法非常重要，需要使用最小均方解算器的研究人员们可以轻松地实现这个方法，以对现有的算法带来明显改进；这个方法也可以为其它的算法起到借鉴作用，实践-科研的递归循环，天然地就拥有良好的泛化能力。

4、杰出新方向论文荣誉提名奖

论文标题： Putting An End to End-to-End: Gradient-Isolated Learning of Representations

中文翻译：端到端：表示的梯度隔离学习

下载地址： https://papers.nips.cc/paper/8568-putting-an-end-to-end-to-end-gradient-isolated-learning-of-representations

这篇论文重新研究了神经网络的逐层构建问题，他们使用了从van Oord et al. (2018)得到启发的自监督条件，尤其是当前输入和空间或时间上临近的输入的表征之间的共同信息。审稿人们注意到，这种感知网络中的自组织现象能够为算法角度和认识角度的交叉部分提供思考的素材（算法角度，端到端优化有巨大的存储空间开销和计算能力问题，有没有方法绕过；认知角度，能否更多地利用“慢特征”的想法，向着“模仿生物大脑”的学习过程前进）。

论文标题： Scene Representation Networks: Continuous 3D-Structure-Aware Neural Scene Representations

中文翻译：场景表示网络：连续的3D-结构感知神经场景表示

下载地址： https://papers.nips.cc/paper/8396-scene-representation-networks-continuous-3d-structure-aware-neural-scene-representations

这篇文章介绍了 CV 中两种广泛方法的综合：多视图几何（ multiple view geometric ）和深层表示（ deep representations ）。

具体来说，这篇文章做出了三点贡献：1）每个像素的神经渲染器，可以以3D感知的方式实现无分辨率的场景渲染；2）可微分的光线行进算法（ ray-marching algorithm ），解决了沿着相机投射的光线寻找表面相交的难题；3）潜在场景表示（latent scene representation），使用自动编码器和超网络来回归场景表示网络的参数。

二、经典论文奖

与之前一样，NeurIPS的委员会从10年前发表在NeurIPS上的论文中选择一篇对社区产生“重大且持久影响”的论文作为“经典论文奖”（Test of Time Award）。

“经典论文奖”的委员会成员包括Amir Globerson, Antoine Bordes, Francis Bach 和 Iain Murray。检验奖的选取过程是，首先选出 18 篇自发表以来引用次数最多的文章，然后再去看哪些文章即使在现在仍然具有影响力（即在现在的工作中仍然具有指导、参考和借鉴的意义），当然委员会还会考虑论文是否被如今大多数社区所使用。

综上这些因素，几位委员会成员在今年选出了

论文标题： Dual Averaging Method for Regularized Stochastic Learning and Online Optimization

中文翻译：正则随机学习和在线优化的双重平均法

论文链接： https://papers.nips.cc/paper/3882-dual-averaging-method-for-regularized-stochastic-learning-and-online-optimization