千万不要错过！ICLR-2018精品论文解析

会员服务 ·

千万不要错过！ICLR-2018精品论文解析

2018 年 3 月 7 日 深度学习与NLP lqfarmer

ICLR 2018年的接收的论文已经release出来很久了，链接：https://chillee.github.io/OpenReviewExplorer/index.html

最近整理了其中一些论文的摘要和官方评价做了翻译整理和分类，涉及分布式训练、模型压缩、模型训练优化、生成式模型等，分享给大家，感兴趣的可以看看，了解下学术界前沿的研究热点。

分布式训练

Deep Gradient Compression: Reducing the Communication Bandwidth for Distributed Training

摘要：大规模分布式训练需要大量的通信带宽用于梯度交换，这限制了多节点训练的可扩展性，并且需要昂贵的高带宽网络基础设施。在移动设备上进行分布式训练(联合学习，federated learning)时，情况会变得更糟，这种情况会导致延迟更高、吞吐量更低以及间歇性连接不良等问题。本文发现分布式SGD中99.9 %的梯度交换是冗余的，并提出了深度梯度压缩( DGC )来大大降低通信带宽。为了在压缩过程中保持精度，DGC采用了四种方法:动量修正、局部梯度裁剪、动量因子掩蔽和预热训练。在cifar 10、ImageNet、Penn Treebank和Librispeech语料库等多个数据集上，我们将深度梯度压缩应用于图像分类、语音识别和语言建模。在这些场景中，深度梯度压缩实现了从270到600倍的梯度压缩比而不损失精度，将ResNet-50的梯度大小从97MB减少到0.35 MB，将深度语音的梯度大小从480 MB减少到0.74 MB。深度梯度压缩实现了在廉价的商用1Gbps以太网上的大规模分布式训练，并有助于移动设备上的分布式训练。

ICLR官方评价：本文提出了一种面向大规模分布式联合训练的深度网络混合训练系统。这一问题引起了广泛的兴趣，这些方法有可能产生重大影响，对这项工作的积极和有趣的讨论证明了这一点。起初有人质疑这项研究的原创性，但似乎作者现在增加了额外的参考和比较。
评审人对论文本身的清晰度意见不一。有人指出，“总的来说很清楚”，但另一个人认为它过于密集、杂乱无章，需要更清楚的解释。评审人员还担心，这些方法有点启发式，可以从更多细节中获益。论坛上也有很多关于这些细节的问题，这些问题应该会在下一个版本中得到解决。这项工作的主要亮点是实验结果，评审人称之为“彻底”，并指出它们令人信服。

模型压缩

Model compression via distillation and quantization

摘要：深层神经网络( DNNs )在解决图像分类、翻译和强化学习等问题上不断取得重大进展。受到相当关注的领域的一个方面是在诸如移动或嵌入式设备等资源受限环境中高效地运行深度学习模型。本文针对这一问题，提出了两种新的压缩方法，将较大的教师网络的权重量化和抽取联合应用到较小的学生网络中。我们提出的第一种方法称为量化抽取（quantized distillation），在训练过程中利用抽取，将抽取损失(相对于教师网络表示)结合到学生网络的训练中，该学生网络的权重被量化到有限的一组水平。第二种方法是可微量化，通过随机梯度下降发优化量化点的位置，以更好地拟合教师网络模型的行为。通过卷积和递归结构的实验验证了这两种方法的有效性。实验结果表明，量化后的浅层学生网络可以达到与全精度教师网络模型相似的精度水平，同时实现了数量级的压缩和深度网络推理呈线性加速。总之，我们的结果使资源受限环境的DNNs能够利用在功能更强大的设备上开发的体系结构和准确性改进。

ICLR官方评价：该论文提出了一种新的量化方法。该方法相当简单，并总结在算法1中。更有趣的是，分析表明量化与加高斯噪声(附录B )之间的关系—激励量化作为正则化。
该论文具有经验和理论结果的合理混合，激励了一种易于实现的算法。所有三名审查人员都建议接受。

Apprentice: Using Knowledge Distillation Techniques To Improve Low-Precision Network Accuracy

摘要：深度学习网络在图像分类和目标检测等计算机视觉工作应用方面已经取得了最优的精度。然而，性能系统通常涉及具有许多参数的大模型。一旦训练完毕，这种性能最好的模型的一个具有挑战性的方面是在资源受限的推理系统上进行部署-这些模型(通常是较深的网络或较宽网络或两者都具备)是计算和内存密集型的。低精度数值计算和使用知识抽取的模型压缩是降低这些需要部署的模型的计算要求和内存占用的常用技术。本文对这两种技术的结合进行了研究，结果表明利用知识抽取技术可以显著提高低精度网络的性能。我们将我们的方法称为学徒（Apprentice），并在ImageNet数据集上使用三进制精度和4位精度来显示最先进的精度。我们研究了三种方案，在这三种方案中，人们可以将知识抽取技术应用于训练和部署pipeline的各个阶段。

    ICLR官方评价：本文将低精度计算与不同的teacher-student知识抽取方法相结合。实验结果良好，实验分析良好。写得很清楚。其主要贡献在于不同形式的teacher-student知识抽取方法与低精度quantization方法相结合。
专业人士:
    -良好的实际贡献
    -好的实验
    -很好的分析
    -写得好
缺点:
    -创意有限

Alternating Multi-bit Quantization for Recurrent Neural Networks

摘要：递归神经网络在许多应用中取得了良好的性能。但是，在资源有限的便携式设备上，模型通常太大而无法部署。对于服务器上具有大规模并发请求的应用程序，reference期间的延迟对于昂贵的计算资源也可能非常关键。在本工作中，我们通过将网络的权重和activation量化为多个二进制码{ -1，+1}，来解决这些问题。我们把量化表述为一个优化问题。在量化系数固定的情况下，通过二进制搜索树可以有效地导出二进制码，然后采用交替最小化方法。我们在语言模型上测试了两个著名的rnn模型的量化，即长短期记忆单元( LSTM )和门限递归单元( GRU )。与全精度计数器部分相比，通过2位量化，在CPU上实现了约16x的内存节省和约6x的实际推理加速，精度损失较小。通过3位量化，我们可以获得几乎没有损失的精度，甚至超过原来的模型，节省了约10.5倍的内存和约3倍的实际推理加速。这两个结果都以较大的倍数击败了现有的量化工作。我们将交替量化扩展到图像分类任务。在RNNs和前馈神经网络中，该方法也取得了良好的性能。

ICLR官方评价：评审人员一致认为，这篇文章值得在ICLR上发表。请回答评审人员的反馈，并在附录中详细讨论如何计算潜在的加速率。我加快了不同设备的速率。

Variational Network Quantization

摘要：本文将剪枝和少比特量化神经网络的构造问题归结为一个变分推理问题。为此，引入了一种量化先验，该先验导致多模态稀疏的权值后验分布，并导出了该先验的可微Kullback - Leibler散度近似。经过变分网络量化训练后，权重可以被确定性量化值代替，相关任务精度损失很小或可以忽略(包括通过将权重设置为0进行修剪)。该方法不需要在量化之后进行微调。给出了LeNet - 5 ( MNIST )和Densent ( CIFAR - 10 )的三值量化结果。

ICLR官方评价：本文提出了一种变分贝叶斯方法来量化神经网络权值，并在现在日益流行的深度学习领域中提出了有趣而有用的步骤。

模型优化

On the Convergence of Adam and Beyond

摘要：最近提出的几种随机优化方法已经成功地用于训练深层网络，例如RMSProp、Adam、Adadelta、Nadam，这些方法基于梯度进行更新，梯度更新的幅度由过去梯度平方的指数移动平均值控制。在许多应用中，例如针对具有大输出空间的学习任务，经验上观察到这些算法未能收敛到最优解(或非凸场景下的临界点)。我们证明了这种失败的原因之一是算法中使用的指数移动平均。本文给出了一个Adam不收敛于最优解的简单凸优化场景的例子，并通过前面对Adam算法的分析，准确的描述了这个问题。我们的分析表明，可以通过赋予这类算法过去梯度的“长期记忆”来解决收敛问题，并提出了Adam算法的新变型，这种新变型不仅解决了收敛问题，而且使得性能得到很大的提升。

ICLR官方评价：本文分析了Adam的收敛性问题，并给出了一个解决方案。本文指出了Adam收敛问题中的一个错误(也适用于相关方法，如RMSProp )，并给出了一个无法收敛的简单示例。然后，在不引入大量计算或内存开销的情况下，在保证收敛的条件下修复该算法。本文中有很多有趣的地方: Adam是一个被广泛使用的算法，但有时在某些问题上表现不如SGD，这可能是解释的一部分。解决办法既有原则，又切合实际。总的来说，这是一篇很强的论文，我建议接受。

SGD Learns Over-parameterized Networks that Provably Generalize on Linearly Separable Data

摘要：当网络参数超过观测值时，神经网络具有良好的泛化性能。然而，目前神经网络的泛化边界无法解释这一现象。为了弥补这一不足，我们研究了当数据由线性可分函数生成时，两层超参数神经网络的学习问题。在网络存在Leaky ReLU激活的情况下，我们为参数化网络提供了优化和泛化保证。具体地说，我们证明了SGD的收敛速度是全局最小值，并为这个全局最小值提供了与网络规模无关的泛化保证。因此，我们的结果清楚地表明，使用SGD进行优化既能找到全局最小值，又能避免模型容量过大时的过拟合。这是SGD在学习过指定的神经网络分类器时，能够避免过拟合的首次理论证明。

ICLR官方评价：这是一份高质量的论文，字迹清楚，高度原创，意义明确。本文对二层网络中的SGD进行了完整的分析，其中的第二层网络不进行训练，数据是线性可分的。实验结果验证了理论假设，即只要权值符号不改变并保持有界，就可以训练第二层网络。作者讨论了审评员的主要关切的点(即，假设这些结果是否具有指示性)。这一系列的工作似乎很有希望。

Fraternal Dropout

摘要：递归神经网络( RNNs )是用于语言建模和序列预测的一类重要的神经网络模型。然而，优化RNNs比优化前馈神经网络更难。文献中已经提出了许多技术来解决这个问题。本文提出了一种简单的技术，称为Fraternal Dropout，利用dropout来实现这一目标。特别是，我们建议训练具有不同dropout值的RNN (共享参数)的两个相同副本，同时最小化它们(进行softmax操作之前的)预测值之间的差异。通过这种方式，我们的正则化操作鼓励RNNs的表示对于不同的dropout值是不变的，因此是鲁棒的。我们证明了我们正则化项的上界是期望线性（expectation-linear）dropout目标函数，这种期望线性dropout目标（object）解决了由于dropout在训练阶段和推理阶段的不同而产生的差距。我们对我们的模型进行了评估，并在两个基准数据集( Penn Treebank和Wikitext - 2 )上，取得了序列建模任务的最优结果。我们还证明，我们的方法可以显著提高图像标注( Microsoft COCO )和半监督( CIFAR - 10 )任务的性能。

ICLR官方评价：本文研究了一种dropout的变体，称为fraternal dropout。该方法与期望线性dropout密切相关，因此具有一定的增量性。尽管如此，fraternal dropout确实将PTB和wikitext 2上语言模型最优结果提高了约0.5 - 1.7个perplexity 。这篇论文写得很好，技术上看起来很好。
一些评审员抱怨说，作者可以对fraternal dropout模型进行更仔细的超参数搜索。作者似乎已经部分解决了这些问题，坦率地说，我也不太同意。通过只进行有限的超参数优化，作者将他们自己的方法置于不利地位。如果有的话，他们的方法尽管有这种缺点(与非常强的base模型相比)却获得了很强的性能，这是一个支持fraternal dropout的理由。

Adaptive Dropout with Rademacher Complexity Regularization

摘要：我们提出了一种基于Rademacher complexity bound的深度神经网络dropout自适应调整框架。现有的深度学习算法采用dropout来防止特征学习过拟合情况。然而，dropout的选择仍然是启发式的方式，或者依赖于对某些超参数空间的经验的网格搜索。本文证明了网络的Rademacher complexity是由一个与dropout rate和权重系数矩阵（weight coefficient metrics）相关的函数来定义的。随后，我们将这一约束作为正则化项，并提供了一种在模型复杂性和表达能力（representation power）之间进行权衡的理论上合理的方法。因此，dropout和经验损失被统一为相同的目标函数，然后使用块坐标下降算法（block coordinate descent algorithm）进行优化。我们发现自适应调整的dropout会收敛到一些有趣的分布，这些分布揭示了一些有意义的模式（pattern）。在图像和文档分类相关的实验也表明，与现有的dropout算法相比，该方法具有更好的性能。

ICLR官方评价：评审员们一致认为，这项工作处理了一个重要问题。对于论文中论点的正确性存在分歧:其中一位评审员最终被说服了。另一位在最后一篇文章中指出了另外两个问题，但似乎是1、第一种方法简单易行，不影响实验的正确性。2、第二个问题在第二次修订中被解决了。理想情况下，这些将由第三个评审员重新检查，但最终工作的正确性是作者的责任。

Adversarial Dropout Regularization

摘要：本文提出了一种将神经表征从标记丰富（label-rich）的源领域（source domain）迁移到无标记（unlabel）的目标领域（target domain）的领域自适应（domain adaptation）方法。最近为此任务提出的对抗方法通过“愚弄”一个特殊的领域分类器（domain classifier）网络来学习跨域对齐特征（align features）。然而，这种方法的缺点在于，领域分类器简单地将生成的特征标记为域内或域外，而不考虑类之间的边界。这意味着可以在类边界附近生成模糊的目标特征，从而降低目标分类精度。我们提出了一种新的方法，对抗式dropout正则化( ADR )，它鼓励生成器输出更多的区分特征（discriminative features）到目标域。我们的核心思想是用一个在分类器网络上利用dropout来检测一个非确定性的特征（non-discriminative features）构成的critic来代替传统的critic。然后，生成器然后学习却避开特征空间的这些区域，从而创建更好的特征。我们将ADR方法应用于图像分类和语义分割任务中的无监督域自适应问题，并证明相对现有技术取得显著提高。

ICLR官方评价：评审员们普遍认为这种方法为无监督领域自适应提供了一种实用而有趣的方法。一位评审员比较关心最优的baseline相关的比较，但后期修改中中已设计这些问题。
此外，由于人工拼写输入错误，还存在正确性问题。根据这些反应和伪代码，结果似乎没有问题，比如像熵目标的报告一样。
可能需要考虑将评审员2给出的示例中的一个负例，在该示例中，您希望该方法失败。这将有助于研究人员使用和复现您的论文。

最优论文

Certifying Some Distributional Robustness with Principled Adversarial Training

摘要：神经网络容易受到对抗样本的攻击，研究人员提出了许多启发式的攻击和防御机制。我们通过分布式鲁棒优化的原则透镜来解决这个问题，保证在对抗性输入扰动下的性能。通过考虑Wasserstein球中，扰动底层数据分布的拉格朗日罚函数，我们提出了一种利用训练数据的最坏情况扰动来更新经过增强的模型参数更新的训练方法。对于平滑损失，相对于经验风险最小化，我们的方法可以以很少的计算或统计代价成本实现中等程度的鲁棒性。此外，我们的统计证据使我们能够有效地证明对群体损失的鲁棒性。对于不可察觉的扰动，我们的方法匹配或优于启发式方法。

ICLR官方评价：这篇文章得到了评审员们的高度评价，他们认为它具有很高的质量和独创性。文章处理的问题广泛且重要。

    该文章也引起了其他领域专家的注意，他们对该文章的说法持怀疑态度。技术上的优点似乎没有问题，而是对其解释/应用抱有疑问。某一群人对某个重要问题是否已基本解决的看法，可能会影响其他审阅者在决定从事什么工作、评估等方面的选择。重要的是，主张要保守，并强调目前的工作没有充分解决更广泛的对抗例子问题的方式。
    最后，我们认为这篇论文会引起学术界和工业界的极大兴趣。作者还被委托负责审议非本领域的专家在其最后修订中提出的问题(随后得到咨询委员会的赞同)。
    最后一点:在对非本领域的专家的答复中，作者多次指出，本文所作的保证在形式上与标准的学习理论主张没有什么不同:“然而，这种批评适用于许多学习理论成果(包括应用于深度学习的成果)。“我在这种说法中找不到任何安慰。学习论者通常关注于边界的形式( sqrt ( m )依赖且独立于加权数)，然后他们借助于相关的经验观察来证明：边界的值对于泛化是预测性的。当对真实数据集进行评估时，边界通常是无意义的(“真空的”)。(最近有一些例子支持这一趋势。从某种意义上说，学习理论家们已经变得容易了。然而，对抗的例子涉及安全，因此存在更多的利害关系。在这种新的背景下，可能我们对学习理论家的懈怠的容忍是不合适的。我支持一点，作者清楚地解释，要从“足够好的学习理论”转变为“足够好的安全”还需要做哪些工作。作者承诺为社会列举出未来重要的工作/公开问题。我绝对鼓励这样做。

机器翻译

Unsupervised Machine Translation Using Monolingual Corpora Only

摘要：近年来，由于深度学习和大规模并行语料库的出现，机器翻译取得了令人瞩目的成绩。已经有许多尝试将这些成功扩展到低资源语言对（语料不足的语言），但需要数万个并行语句。在这项工作中，我们将这一研究方向推向了一个极端，并探讨了即使没有任何并行数据也能学会翻译的可能性。本文提出了一种从两种不同语言的单语语料库中抽取句子，并将其映射到同一潜在空间的模型。通过学习，基于该共享特征空间来重构两种语言，该模型有效地学习翻译而不使用任何标记的数据。我们在两个广泛使用的数据集和两个语言对上验证了我们的模型，在Multi30k和WMT英语-法语数据集上获得了32.8和15.1的BLEU分数，在训练时甚至一个并行语句对也不需要。

ICLR官方评价：本文介绍了无监督神经机器翻译的一些初步结果。评审组的成员在机器翻译方面有着丰富的知识，他们对这篇文章的结果印象极为深刻，认为这是一个全新的研究领域，并指出“这一点是显而易见的"。有人对所文章提出的部分细节是否清楚以及如何复现文章结果表示关切，但讨论中似乎澄清了其中的许多问题。评审人员普遍称赞该方法的彻底性、实验的清晰度和消融的使用。一位评审员对此印象不太深，认为应该做更多的比较。

Synthetic and Natural Noise Both Break Neural Machine Translation

摘要：基于字符的神经机器翻译( NMT )模型减轻了集外词（out-of-vocabulary）导致的问题，学习了形态学，使我们更接近于完全端到端的翻译系统。不幸的是，它们也是非常脆弱的，并且当处理嘈杂的数据时，往往不够鲁棒。在本文中，我们面对具有合成和自然噪声源的NMT模型。我们发现，即使是针对中等噪音的文本，最先进的模型也无法翻译，但人类理解起来却没有困难。我们探索了两种提高模型鲁棒性的方法:结构不变的词表示和对噪声文本的鲁棒性训练。我们发现基于字符（character-level）卷积神经网络的模型能够同时学习对多种噪声具有鲁棒性的表示。

    ICLR官方评价：评审员所指出的，本文的利弊可以概括如下:
优点:
    *本文首次尝试研究神经MT中的一个未研究领域(以及序列到序列模型的潜在其他应用)。
    *这一领域可能产生重大影响；Google Translate等现有模型在针对有噪声的输入，翻译效果很差。
    *实验设计非常仔细和彻底
    *对合成噪声和自然噪声进行的实验增强了文章结果的可靠性
    *文章写得很好，容易理解
缺点:
    *对于此问题，可能有比此文章所提出的体系结构更好的体系结构
    *即使是自然噪声也不是完全自然的，例如人为地限制存在于单词内
    *文章并不完全适合ICLR
    这篇文章得到了一致的积极评价，并有可能产生巨大的现实影响。

Towards Neural Phrase-based Machine Translation

摘要：本文提出了基于短语的神经机器翻译( NPMT )。该方法利用Sleep-WAke Networks( SWAN )对输出序列中的短语结构进行了显式建模，这是一种新近提出的基于分段的序列建模方法。为了降低SWAN的单调对齐要求，我们引入了一个新的层来执行对输入序列的(软)局部重排。与现有的神经机器翻译( NMT )方法不同，NPMT不使用基于注意力机制的解码方式。取而代之的是，它直接按顺序输出短语，并且可以线性时间解码。实验表明，与最优的NMT结果相比，NPMT在IWSLT 2014德语/英语/德语和IWSLT 2015英语/越南语机器翻译任务上取得了优异的性能。我们还观察到我们的方法在输出语言中产生有意义的短语。

ICLR官方评价：该论文将软本地重排序（soft local reordering）引入到最近提出的SWAN层中[王等人，2017 ]使其适合于机器翻译。虽然只是在小规模的实验中，结果还是令人信服的。

Non-Autoregressive Neural Machine Translation

摘要：神经机器翻译的现有方法都是基于先前生成的输出token来生成下一个token。我们引入了一个避免这种自回归特性的模型，并且并行地产生它的输出，从而使reference过程中的延迟降低了一个数量级。通过知识抽取、使用输入token fertilities作为潜在变量和策略梯度微调，相对于用作Teacher的Transfomer网络，我们以只减少了2.0 BLEU点的代价来实现这一点。我们展示了与我们训练策略相关的三个方面的大量累积改进，并在2016年IWSLT英语-德语和两种WMT语言对上验证了我们的方法。通过在reference时并行采样fertilities，我们的非自回归模型在WMT 2016英语-罗马尼亚语上实现了29.8 BLEU的最优成绩。

ICLR官方评价：提出了一种基于预训练自回归模型来训练一个非自回归机器翻译模型的一种训练方法。该方法有趣，评价效果良好。然而，应当指出，训练程序的相对复杂性(涉及多个阶段和外部监督训练)可能会限制该技术的实际可用性和影响。

Unsupervised Neural Machine Translation

摘要：尽管最近神经机器翻译( NMT )在标准评测中取得了很大的成功，但是大规模并行语料库的缺乏对许多语言对来说是一个重大的实际问题。有一些建议，例如三角法和半监督学习技术来缓解这一问题，但它们仍然需要强有力的跨语言的信号。在本文中，我们完全取消了对并行数据的需求，并提出了一种新的方法来训练一个完全无监督的NMT系统。该模型建立在无监督嵌入映射（unsupervised embedding mapping）的基础上，包括一个稍加修改的注意编码-解码模型，该模型可以通过去噪（denoising）和回译（backtranslation）相结合的方法在单语语料库上进行训练。尽管方法简单，但我们的系统在WMT 2014法语到英语和德语到英语翻译中获得了15.56和10.21 BLEU。该模型还可以从小型平行语料库中获益，与10万个平行句子组合后，分别达到21.81和15.24个点。

ICLR官方评价：这项工作使用巧妙的组合技术，在无监督机器翻译方向上，达到了新的结果。就原创性而言，评审员发现这篇文章夸大了自己的观点，并承诺了一项突破，但他们并不认为这是合理的。
然而，在新任务上有“足够多的新内容”和“初步”结果。实验质量也存在一些问题，缺乏较好的定性分析，评审人员觉得关于半监督相关的工作的说明有问题。然而，主要的数字是一个良好的开端，作者正确地注意到，还有另一项工作具有类似的有希望的结果。在这两项工作中，评审人员发现另一项工作写得更清楚，实验分析也更好，他们指出，这两项工作在新颖性方面都超过了要求。这项工作最有希望的方面可能是这项任务今后的意义，因为现在人们对使用多语言嵌入（multi-lingual embeddings）和NMT作为基准任务更感兴趣。

生成模型

Spectral Normalization for Generative Adversarial Networks

摘要：生成对抗网络研究面临的挑战之一是其训练的不稳定性。本文提出了一种新的加权归一化技术——谱归一化，以稳定判别器的训练。我们提出的新规范化技术（Normalization technique）计算量小，易于集成到现有实现中。我们在cifar 10、STL-10和ILSVRC2012数据集上测试了谱归一化（spectral normalization ）的效果，并通过实验验证了经过spectral normalized的GANs ( SN - GANs )能够生成与先前训练稳定技术相比质量更好或相等的图像。

ICLR官方评价：本文将scaling GAN用于包含大量类别ILSVRC2012数据集上，并取得了令人印象深刻结果。为此，作者提出了“谱归一化（spectral normalization）”来归一化权值和稳定训练，这有助于克服模式崩溃问题（mode collapse issues）。所提出的方法是有原则的，写得很好。作者在处理评审人的评论方面做得很好，并在相关方法上增加了更多的比较结果，以证明所提方法的优越性。审查人员一致认为，这是改进GAN训练的一个重大步骤。我建议你接受。

Wasserstein Auto-Encoders

摘要：我们提出了一种用于建立数据分布的新的生成模型算法—Wasserstein Auto-Encoder( WAE )。 WAE最小化模型分布和目标分布之间的Wasserstein距离，以此作为目标函数，这是一种与变分自动编码器( VAE )使用的正则化不同的正则化。
该正则化项鼓励编码的训练分布与先验相匹配。通过与其他几种编码方法的比较，证明了该算法是对抗式自动编码器( AAE )的一种推广。实验结果表明，WAE不仅具有很多VAEs的优点（训练稳定、编码解码结构、良好的隐流形结构），同时生成更高质量的样本。

ICLR官方评价：本文提出了一种新的生成模型，该模型具有变分自动编码器( VAE )的稳定性，同时生成更好的样本。作者将他们的工作与之前将VAEs和GAN相结合的产生模型的进行了详细的比较。结果表明，该算法是对抗性自动编码器( AAE )的推广，使模型分布与真实分布之间的距离最小。这篇论文写得很好，结果令人信服。评审员一致认为该算法新颖实用；并对该算法与相关方法的密切联系进行了讨论。总的来说，这篇文章很不错，建议接受。

其他

Spherical CNNs

摘要：卷积神经网络( CNNs )已成为二维平面图像学习问题的首选方法。然而，最近大家感兴趣的一些问题已经产生了对能够分析球形图像的模型的一些需求。比如，包括无人驾驶飞机、机器人和自动驾驶的全向视觉、分子回归问题以及全球天气和气候建模。卷积网络对球面信号的平面投影的这种天真尝试是注定会失败的，因为由这种投影引入的空间变化失真将使得水平方向上的权重共享变得无效。
本文介绍了一个用于构建球形CNNs的构造块（building block）。我们提出了一个既有极强表达能力又有旋转等变（expressive and rotation-equivariant）的球面互相关（spherical cross-correlation）的定义。球面相关性（spherical correlation）满足广义傅里叶定理，这允许我们使用广义(非交换)快速傅里叶变换( FFT )算法有效地计算它。我们证明了球形CNNs在三维模型识别和雾化能量回归中（atomization energy regression）的计算效率、数值精度和有效性。

ICLR官方评价：本文通过将CNNs扩展到相应的组SO(3)，提出了一种可训练的球面信号表示(定义在球面中的函数)，该球面信号通过设计可旋转地等变（rotationally equivariant ）。该方法利用球面上的快速傅里叶变换实现，并以三维形状识别和分子能量预测为例进行了说明。
评审员一致认为这是一篇坚实的、写得很好的论文，它证明了在真实场景中，群不变性/等方差比标准欧氏翻译群（standard Euclidean translation group ）更有用。这将是对会议的一大补充。