ICLR2019七大争议论文：是评审不公，还是论文真不行

会员服务 ·

ICLR2019七大争议论文：是评审不公，还是论文真不行

2018 年 11 月 22 日 新智元

新智元报道

来源：Twitter; OpenReview

编辑：文强，肖琴

【新智元导读】深度学习顶会 ICLR 2019 组委会贴出本届评审最具争议论文，俗话说“天才与疯子之间只有一线之隔”，用随机网络蒸馏优化奖励函数，看待RNN语言模型的新理论视角……这些研究是超前还是滞后？欢迎留下你的评论。

由 LeCun 和 Bengio 等人联合发起的深度学习顶会 ICLR，今年你投稿了吗？

不管投没投稿，深度学习顶会的趋势是一定要关注的。因论文评审全公开而颇受好评的ICLR，今年组委会特意延后了截稿时间，选出几篇最具争议的论文贴出来供业界讨论。

究竟该得1分还是9分？是埋没的金子还是路边的石头？一起来看。

衡量网络层的“非线性”

题目：Detecting Memorization in ReLU Networks

地址：https://openreview.net/forum?id=HJeB0sC9Fm

得分：9，4，5

置信度：5，4，4

摘要：我们提出一个关于网络层的“非线性”的新概念，该概念是基于input batch与线性系统的接近程度，反映在在激活矩阵的非负等级之上。

我们通过对激活矩阵应用非负分解来测量这种非线性。

考虑到类似样本的batches，我们发现深层的高非线性表示记忆。此外，通过逐层分析，我们发现记忆机制由不同的阶段组成。我们在几个图像和音频数据集上训练的完全连接卷积神经网络上进行实验。结果表明，作为记忆的一个指标，我们的技术可用于执行早期停止。

关键词：记忆，泛化，ReLU，非负矩阵分解

TL; DR：我们使用ReLU激活矩阵的非负等级作为复杂性度量，并表明它与良好的泛化相关联。

评审人1：

本文介绍了一种新的基于NMF的检测方法，旨在区分记忆网络和泛化网络。作者通过大量数据集对这种方法进行评估，并与PCA和随机消融进行比较，发现NMF优于后两种方法。最后，文章证明NMF与泛化误差密切相关，可用于early stopping。

总体上，这是一篇非常优秀的论文。写作清晰，重点突出，实验细致严谨。对先前工作的讨论也很完整的。如何在DNN中检测记忆是一个非常有趣的问题，这是朝着这个目标迈出的很好的一步。因此，它可能会产生重大影响。

评分：9：被录取论文的前15%，强烈接收

置信度：5：审稿人完全确定评估是正确的，对相关文献非常熟悉

评审人2：bad clustering == memorization?

这篇论文提出了一种新的分析神经网络层的鲁棒性的方法，通过测量属于同一类的样本的激活模式中的“非线性”水平，并将其与“记忆”和泛化水平相关联。

更具体地说，论文认为一个良好的表示将一个类中的所有样本聚在一起，因此，在更高的层上，来自同一个类的样本的激活模式几乎是相同的。在这种情况下，激活矩阵将有一个小的非负等级。然后，使用一种近似算法（非负矩阵分解）来计算鲁棒性，并评估鲁棒性（通过用低秩非负激活矩阵来替换激活矩阵）。实验表明，在随机标签上训练的网络不如在真实标签上训练的网络鲁棒。

虽然这个概念很有趣，但是我发现论文中的论点有点模糊，算法的实用性可能会受到计算复杂度的影响，论文没有讨论这个问题。

首先，这篇论文缺乏一个清晰的对“记忆”概念的定义。虽然人们普遍认为随机标签上的学习可以被称为“记忆”，但论文似乎将其定义为同一类的网络聚类点的好坏。为了使这一概念得到证明，需要解决更多问题（略）。

评分：4

置信度：4

评审人3：很有意思的工作，但还不完整

本文的贡献在于提出了一种定量的记忆测量方法，该方法基于这样的假设：一个“泛化”深度网络的深层激活应该与类内变化保持不变。该度量对应的是一个batch的激活矩阵能否被低秩分解来近似。论文提出了一种近似非负矩阵分解方法，并将其与PCA进行了比较。

这篇论文的结构和写作方式使其易于阅读。据我所知，这项工作所提出的衡量记忆的方式是全新的。然而，所提出的方法的新见解和/或实用性似乎非常有限。同时，论文也存在许多问题（略）。

总结：

本文用一种新颖的方法提出了一个有趣的观察。然而，实验部分存在问题，关于实验的讨论以及观察对于训练更好的模型和/或提供额外的见解的有用性也存疑。考虑到这些，我认为这篇论文是一篇非常好的研讨会论文，但是需要做更多的工作才能让ICLR会议录取。我愿意与作者和其他评论者进行讨论。

评分：5

置信度：4

无监督的多文档摘要生成模型

题目：Unsupervised Neural Multi-Document Abstractive Summarization of Reviews

链接：https://openreview.net/forum?id=rylhToC5YQ

得分：3，5，9

置信度：4，4，4

摘要：已有研究采用 neural sequence transduction 方法，结合大量成对的文档摘要实例数据集，对生成摘要方法进行了研究。然而，这样的数据集是罕见的，利用这些数据集训练的模型没有推广到其他领域。最近，只使用不成对的例子学习序列到序列的映射方面取得了一些进展。在我们的工作中，我们考虑只提供文档(产品或商品评论)而不提供摘要的设置，并提出一个端到端的神经模型架构来执行无监督的生成摘要。我们提出的模型由一个经过训练的自动编码器组成，这样输入评论的表示的平均值就可以解码成一个合理的摘要评论。我们研究了所提出的架构的变体，并进行了消融研究，以显示特定组件的重要性。我们通过指标和人工评估表明，生成的摘要具有高度抽象性、流畅性和相关性，并且代表了输入评论的平均情绪。

关键词：无监督学习，摘要总结，评论，文本生成

TL;DR：我们提出了一种端到端的神经模型，用于无监督的多文档摘要生成，并将其应用于商业和产品评论。

评审人1：评估方法和措施有问题，不应采用

本文提出了一种多文档摘要生成的方法。该模型有两个主要组件，一个部分是autoencoder，用来帮助学习编码文档表示，可以用来重构原始文档，第二个组件用于摘要步骤，旨在确保摘要与原始文档相似。

本文最大的问题在于其评估方法。我真的不知道这三种评估方法中有哪一种是真正能衡量的，而且没有人类受试者的评估来支持它们。

评级的准确性似乎取决于所使用的CLF的选择，充其量只能说明总结是否传达了与原始评论相同的平均意见。

与原始文档的单词重叠似乎并不能很好地衡量抽象系统的质量，因为可以很容易地得到具有低重叠的抽象摘要。用它来比较提取系统和抽象系统当然是不合适的。

使用log likelihood作为衡量流畅性和语法性的衡量标准存在许多众所周知的问题，例如长度偏差和词语频率。

这些评估措施似乎还会与评估摘要的长度相互作用，系统可以通过博弈的方式进行评估。

一篇评价指标不佳的论文可能会开创一个先例，对整个研究领域造成损害。出于这个原因，我不建议接收。

评分: 3

置信度：4

评审人2：有前途的无监督方法，但明显存在问题

本文研究了多文档摘要在没有成对文档的情况下进行摘要生成的问题，采用了一种无监督的方法。主模型由一对锁定的自编码器和解码器构成。对模型进行了训练和优化。

通过与一些简单的基线模型的比较，作者能够证明该设计的潜力。通过消融研究论证了几种模型构件的必要性。这篇论文结构比较好，也比较完整。本文的主题与ICLR非常吻合。本文提供了一些关于没有（监督）配对数据集的情况下，多文档摘要学习模型的新颖想法。但存在几个明显的问题。

总结而言，这个模型似乎建立在一个隐含的假设之上，即多文档的输出摘要应该与单个输入文档足够相似。在许多情况下，这可能不是真的，这会影响方法是否能够推广。文档输入可以涵盖主题的不同方面(输入文档之间的异质性，包括主题、观点等)，或者它们的写作风格或长度可能与摘要非常不同。在这种情况下，评估指标可能不能很好地工作。也许对输入进行一些预分类或聚类，然后对每个输入进行总结会有帮助。

评分：5

置信度：4

评审人3：在抽象式无监督多文档摘要的基础上开创了新的工作

这篇投稿提供了一个真正新颖、创造性的、有用的方法来实现无监督的抽象多文档摘要，这是一个相当令人印象深刻的工作。

在没有ground-truth摘要的情况下，替代指标看起来非常有用，并且可以被重用到其他问题。特别是，将review/summary score的预测作为一个总的度量标准是非常好的想法。

模型变体和实验清楚地证明了所提出模型在各个方面的有用性。

评分：9

置信度：4

将CNN滤波器与神经元匹配

题目：A rotation-equivariant convolutional neural network model of primary visual cortex

链接：https://openreview.net/forum?id=H1fU8iAqKX

得分：3，8，7

置信度：4，3，4

摘要：经典模型将初级视觉皮层（V1）描述为定向选择的线性-非线性（linear-nonlinear，LN）或能量模型的滤波器组，但这些模型无法准确预测对自然刺激的神经反应。最近的研究表明，卷积神经网络（CNNs）可以被训练以更准确地预测V1的活动，但是仍然不清楚V1神经元除了方向选择性和相位不变性外，还提取哪些特征。

这篇论文致力于通过将神经元分类为执行类似计算的组来系统地研究V1计算。我们提出了一个基于rotation-equivariant卷积神经网络的通用特征识别框架，该框架能够自动提取多个不同方向的特征，而不依赖于单个神经元的方向选择。

我们使用双光子成像将这种rotation-equivariant CNN用于6000个神经元，对小鼠初级视觉皮层中记录的自然图像进行响应。我们证明rotation-equivariant网络不仅优于具有相同数量的特征映射的常规CNN，而且还揭示了V1神经元共享的许多共同特征。我们的研究结果是迈向研究V1中非线性计算的强大新工具的第一步。

关键词：rotation equivariance，equivariance，初级视觉皮层，V1，神经科学，系统识别

TL; DR：V1的rotation-equivariant CNN模型，优于先前的模型并且提示V1神经元的功能分组。

评审争议：是将 CNN 滤波器与神经元匹配的有趣工作，对 V1 建模提出了有趣的贡献，但rotation equivariance是否增加了神经科学的洞察力？

信息瓶颈

题目：Caveats for information bottleneck in deterministic scenarios

链接：https://openreview.net/forum?id=rke4HiAcY7

得分：8，6，2

置信度：4，4，4

摘要：信息瓶颈（Information bottleneck, IB）是一种从一个随机变量X中提取信息的方法，该信息与预测另一个随机变量Y有关。为此，IB识别出一个的中间“瓶颈”变量T。T具有低互信息I(X;T)和高互信息 I(Y;T)。'IB曲线'表示给定 I(X;T)达到最大I(Y;T)的瓶颈变量集合。在某些情况下，Y是一个确定性函数X，包括许多监督分类场景，其中输出类Y是输入X的确定性函数。

当在Y是X的确定性函数的任何情况下使用IB时，我们证明了一些警告（caveats）：（ 1）通过不同的β值优化IB Lagrangian，不能恢复IB曲线; （2）在IB曲线的所有点上存在“无趣的”平凡解; （3）对于实现低错误率的多层分类器，与最近的提议相反，不同层不能在压缩和预测之间表现出严格的权衡。

我们还证明，当Y是远离X的确定性函数的小扰动时，这些问题以近似的方式出现。为了解决问题（1），我们提出了一种函数，与IB Lagrangian不同，该函数可以在所有情况下恢复IB曲线。我们在MNIST数据集上演示了这些问题。

TL; DR：当输出是输入的一个确定函数时，信息瓶颈会以令人惊讶的方式出现。

关键词：信息瓶颈，监督学习，深度学习，信息论

评审争议：这项工作有趣地阐明了用于学习确定性规则的信息瓶颈（IB）方法的几种反直觉行为。然而，我们注意到噪声在监督学习中应用的必要性。

随机网络蒸馏探索

题目：Exploration by random network distillation

链接：https://openreview.net/forum?id=H1lJJnR5Ym

得分：4，7，10，9

置信度：4，4，4，5

摘要：我们提出了一个用于深度强化学习的探索激励（exploration bonus），该方法易于实现，所增加的计算开支可以忽略不计。这个激励（bonus）是一个神经网络对其观察特征进行预测时所得的误差，这个观察特征由另一个固定的随机初始化的神经网络给出。我们还提出了一种能够将内在奖励（rewards）和外在奖励灵活结合的方法。我们发现，随机网络蒸馏（RND）激励，再加上灵活结合内外在的奖励，能够在几个很难通关的Atari游戏中取得重大进展。我们在《蒙特祖玛的复仇》上取得了当前最好的结果（state of the art performance）。据我们所知，这还是首次有算法在不从演示中学习，也无法获取游戏基本状态的情况下，玩《蒙特祖玛的复仇》并且超越普通人类玩家，偶尔还能通过第一关。这表明用相对简单并且能很好扩展的方法就足以解决具有挑战性的探索问题。

关键词：强化学习，探索，好奇心

TL; DR：引入了一个简单的探索激励，并在第三难通关的Atari游戏中取得了当前最好结果。

评审争议：对于稀疏奖励强化学习任务来说一个简单而意外有效的内在动力（motivation），方法非常创新且富有前景；但将这篇文章与Bellemare等人的A3C agent相比较不公平；随机网络蒸馏激励真的比现有策略都好用吗？

Backpropamine：训练具有可微分神经调节可塑性的自我修饰神经网络

题目：Backpropamine: training self-modifying neural networks with differentiable neuromodulated plasticity

链接：https://openreview.net/forum?id=r1lrAiA5Ym

得分：4，5，9

置信度：4，4，4

摘要：动物大脑中令人赞叹的终身学习，主要是通过突触连接的可塑变化实现的。重要的是，这些变化不是被动的，而是经由神经调节（neuromodulation）主动发生的，神经调节本身处于大脑的控制之下。由此产生的大脑自我修饰能力（self-modifying ability）在动物的学习和适应中起着重要的作用，并且是生物强化学习的主要基础。在这篇论文中，我们首次演示了使用梯度下降方法，训练这种具有神经调节可塑性的人工神经网络。在此前关于可微分Hebbian可塑性研究的基础上，我们提出了神经调节可塑性的微分方程。我们证明了神经调节可塑性能够让神经网络在强化学习和监督学习任务中取得更好的结果。在一项任务中，一个具有数百万参数的神经调节可塑LSTM，在基准语言建模任务上优于标准LSTM。我们得出结论认为，可微分的神经调节可塑性为训练神经网络提供了一个强大的新框架。

关键词：元学习，强化学习，可塑性，神经调节，Hebbian学习，递归神经网络

TL; DR：我们可以训练神经网络令其具备修改自身连接的能力，并以此提高它们在完成困难任务时的在线学习性能。

评审意见：思路很有趣，论证也清晰，但结果并不支持论点

RNN语言模型中的变分平滑

题目：Variational Smoothing in Recurrent Neural Network Language Models

链接：https://openreview.net/forum?id=SygQvs0cFQ

得分：7，6，2

置信度：4，4，5

摘要：我们提出了一种看待RNN语言模型中数据噪音（Xie等人，2017）的新理论视角。我们证明了数据噪音的每个变体都是具有特定变分分布的贝叶斯递归神经网络实例（即各种高斯函数的混合，其权重取决于从语料库得到的统计值，例如单字组分布）。我们由此提出了一种更具规则的（more principled）时间预测方法，并在变分框架下对数据噪音法（data noising）进行了改善。例如，我们提出了使用绑定输入和输出嵌入矩阵的变分平滑和逐元变分平滑方法。我们通过实验在两个基准语言建模数据集上验证了我们的假设，并且证明了新方法优于现有的数据噪音方法。

评审争议：有趣的论文，但缺乏与现有工作的比较，结果也远非当前最佳

【加入社群】

新智元 AI 技术 + 产业社群招募中，欢迎对 AI 技术 + 产业落地感兴趣的同学，加小助手微信号：aiera2015_2 入群；通过审核后我们将邀请进群，加入社群后务必修改群备注（姓名 - 公司 - 职位；专业群审核较严，敬请谅解）。