每周论文分享-0723

2018 年 7 月 23 日 深度学习与NLP

分享一些最近阅读的一些最新论文，整理论文的主要内容，方便大家索引，快速找到自己需要内容。

1、Marian: Cost-effective High-Quality Neural Machine Translation in C++

概述：将teacher-student训练，low-precision矩阵相乘，auto-tuning等其他技术用于优化Transformer在GPU和CPU上的运算速度。并把这些技术与average attention网络（最近提出的Transformer变体）相结合，构建了一系列精度高、效果好的模型。（翻译模型加速（模型压缩），marain（C++），attention average）

2、How Does Batch Normalization Help Optimization? (No, It Is Not About Internal Covariate Shift)

概述：Batch Normalization是一种常用的深度学习regularization技术，它可以加速DNN的训练，并使训练更加stable。我们一直以为BatchNorm有效的原因是因为，BN可以使训练时，网络每一层的输入数据服从相同的分布，减少所谓的Internal covariate shift带来的影响。本文反驳了这一观点，这种每一层输入稳定性对于BN加速DNN的训练，几乎没有影响。相反，BN起作用的原因是因为：BN使optimization landscape更加平滑，这种平滑性使得基于梯度的预测更加准确和稳定（二次平滑，基于梯度预测的准确性更加准确），加速训练。

3、On the Impact of Various Types of Noise on Neural Machine Translation

概述：构造5中不同类型的噪声，即句子没有对齐（misaligned sentences）、词语顺序不对（misordered words）、语言不对（wrong language）、部分句子没翻译（Untranslated sentence）、双语句对很短（2-5个词）；评测它们对NMT效果的影响，并且发现这些噪声对NMT影响比SMT要大。

4、Unsupervised Text Style Transfer using Language Models as Discriminators

概述:Text Style Transfer中，采用语言模型（target domain）代替以前由二分分类器，作为判别器（D）,保证足够的error signal可以回传至生成器（G），使GAN训练stable。有两个优点：1、对generator训练时的discrete sampling进行连续近似，可以采用反向传播法训练GAN参数。2、可以抛弃训练中adversarial这一步。

5、Learning Disentangled Joint Continuous and Discrete Representations

概述：提出JointVAE，采用无监督方式学习一种解耦的连续且离散的表示方式（disentangled continuous and discrete representation）。原理：将VAE的连续隐含分布与一个relaxed 离散分布相结合，用以控制每一个latent unit编码信息的量。JointVAE即具备传统VAE训练稳定且large sample diversity的优势，又具有建模复杂jointly continuous and discrete generative factors的优点。

6、Hierarchical Graph Representation Learning with Differentiable Pooling

摘要：最近，图形神经网络( GNNs )通过有效学习节点embedding，彻底改变了图形表示学习这一领域（Graph Representation Learning），并在节点分类和链接预测等任务中取得了很多最新成果。然而，目前的GNN方法本质上是扁平的（flat），并且不学习到图形的分层表示—这种限制（limitation）对于图形分类任务，是一个明显的问题，图分类主要任务是预测整张图的类别标签。本文我们提出DIFFPOOL，一个可微分的graph pooling module，可以生成一张图的层次表示，并可以以端到端的方式与各种图神经网络结构相结合。DIFFPOOL为Deep GNN的每一层的节点学习一种可微分的软簇（differentiable soft）的assignment，将节点映射到一组类簇，然后形成下一GNN层的输入（coarsened input）。我们的实验结果表明，将现有的GNN方法与DIFFPOOL相结合，与所有现有的pooling的方法相比，平均提高了5-10 %的图分类准确率，在五个基准数据集中的四个数据集上取得了最好的成绩。

7、Gradient Acceleration in Activation Functions

摘要：Dropout一直是训练深层神经网络的通用方法之一，众所周知，Dropout对大模型进行正则化，以避免模型过拟合。通常解释，Dropout的主要作用是避免模型出现共适应（co-adaptation）现象。然而，在本文中，我们提出了一种新的解释，解释了Dropout作用原理，并提出了一种新技术，用于设计更好的激活函数。首先，我们证明Dropout是一种优化方法，通过加速梯度信息的流动，即便实在容易出现梯度消失的饱和区，将输入（Input）推向非线性激活函数的饱和区域。在此基础上，我们提出了一种新的激活函数方法——梯度加速激活函数(Gradient Acceleration in Activation Function, GAAF )，它能加速了梯度反向传播，即便是在饱和区。然后，激活函数的输入可以上升到饱和区域，这使得网络更加健壮，因为模型收敛于平坦区域。实验结果支持了我们关于Dropout的解释，并证明我们所提出的GAAF技术提高模型的性能，达到了预期的目变。

8、Deep k-Means: Re-Training and Parameter Sharing with Harder Cluster Assignments for Compressing Deep Convolutions

摘要：当前的CNNs模型层数越来越多，这一趋势使得对CNNs进行高增益压缩的迫切需求日益迫切，其中卷积占据了计算和参数量(例如，GoogLeNet、ResNet和wide ResNet )主要部分。此外，卷积的高能耗限制了其在移动设备上的部署。为此，我们提出了一种简单而有效的卷积压缩方案，通过对weights进行K - means聚类，通过权重共享实现压缩，只记录K个聚类中心和权重分配指标。然后，我们引入了一种新的谱松弛k-means正则化（spectrally relaxed k-means regularization）方法，这种正则化方法倾向于在re-training时，将卷积层的权重硬分配给K个学习到的簇中心。此外，我们还提出了一套改进的CNN硬件实现能耗评估的指标，总体评估结果与之前提出的从实际硬件测量中推断得到的能耗评估结果相一致。最后，我们从压缩比和能耗两个方面评估了几个CNN模型的深度k-means，在不造成精度损失的情况下观察到了预期的结果。

9、Uncertainty in Multitask Transfer Learning

摘要：利用变分Bayes神经网络，我们提出了一种新算法，能够将多种不同任务中的知识累积成先验知识。这一结果是一个丰富而有意义的先验知识，能够减少对新任务的学习。Posterior可以超越平均场近似（mean field approximation），并且在进行实验过程中产生良好的不确定性。实验结果表明，该算法可以从明显不同的任务中学习，同时发现它们之间的相似之处。Mini-Imagenet实验取得新的最优结果，在5次射击学习中，准确率为74.5 %。最后，我们提供的实验表明，其他现有的方法在不同的类似测试中往往不能很好地执行。

10、Graph-to-Sequence Learning using Gated Graph Neural Networks

摘要：许多NLP实际应用都可以被构建成一个图到序列的学习问题。与基于语法的方法（Grammar-based approaches）相比，最近的一些工作主要通过神经网络结构来解决这些NLP问题，并且取得了不错的结果，但是仍然主要是依赖线性化启发式（linearisation heuristics）和/或标准递归网络来获得最好的结果。在这项工作中，我们提出了一个新的模型，它对包含在图中的全部结构信息进行编码。我们提出的新模型将最近提出的Gated Graph Neural Networks与输入变换（Input transformation）相结合，该输入变换允许节点和边具有它们自己的隐含表示（hidden representation），同时解决了先前工作中存在的参数爆炸（Parameter Explosion）问题。实验结果表明，该模型在AMR图生成和基于句法的神经机器翻译方面取得比较高的结果。

11、REACHING HUMAN-LEVEL PERFORMANCE IN AUTOMATIC GRAMMATICAL ERROR CORRECTION: AN EMPIRICAL STUDY

摘要：基于神经网络的序列到序列( seq2seq )方法已被证明是用于语法错误纠正( GEC )利器。基于seq2seq框架，我们提出了一种新的用于提升流畅度的学习和推理机制。流畅增强学习（Fluency boosting learning）在训练过程中生成各种纠错句对，通过建立纠错模型，从更多的实例中学习如何提高句子的流畅性，而流畅性增强推理（Fluency boosting inference）则允许模型通过多个推理步骤对句子进行增量纠正。将流畅度增强学习、推理与卷积seq2seq模型相结合，我们的方法在CoNLL-2014 10标注数据集上取得了75.72( F0.5 )的最新成绩，在JFLEG测试集上取得了62.42(GLEU)成绩，成为第一个在两个基准数据集上均达到人类水平性能的GEC系统(人类成绩：CoNLL为72.58，JFLEG为62.37)。

12、Reinforcement learning approaches to movies recommendation

摘要：本研究的目的是利用强化学习的方法来构建电影推荐系统。我们把interactive recommendation的问题表述为基于上下文的multi-armed bandit，学习用户偏好，推荐新电影，接受他们的评价。我们给出如何利用强化学习解决exploitation-exploration的权衡和冷启动问题。我们将电影的新颖性融入到模型中。我们探索了基于内容的方法和协作过滤的方法，两者都产生了可行的推荐结果。

13、DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

摘要：了解用户行为背后复杂的特征交互对于最大限度地提高推荐系统的CTR至关重要。尽管取得了很大的进步，但现有方法似乎对慢或高阶交互（low or high-order interaction）有很强的偏向(bias)，或者需要专业的特性工程支持。在本文中，我们提出了一种强调低阶和高阶特征交互的端到端学习模型，DeepFM。DeepFM将因子分解机（factorization machines）的推荐能力和深度学习的学习能力相结合，形成了一种新的神经网络结构。与Google最新的宽和深模式相比，DeepFM对其“宽”和“深”部分有一个共享的输入，除了原始特征（raw features）之外，不需要其余的特征工程。在基准数据和商业数据上进行了综合实验，证明DeepFM模型比现有CTR预测模型的有效性且效率更高。

往期精彩内容推荐

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

前沿分享-基于区块链技术的机器学习行业概述

千万不要错过！ICLR-2018精品论文解析

朋友，千万不能错过！13个自然语言处理的深度学习框架

推荐-2018年最值得读的12本深度学习相关的书

历史最全GAN网络及其各种变体整理（附论文及代码实现）

麻省理工学院-2018年最新深度学习算法及其应用入门课程资源分享

DL实战课程推荐-从0到1构建一个Chatbot系统

登录查看更多