一文看全ACL 2018亮点：表示学习和更具挑战性环境下的模型评价- 专知

【导读】第56届ACL大会于2018年7月15日至20日在澳大利亚墨尔本举行，Sebastian Ruder参加了会议并发表了三篇论文，并分享了他的参会感想，点出了他所认为的ACL亮点。

作者｜Sebastian Ruder

编译｜专知

整理｜Yingying, 李大囧

表示学习

探索模型

许多论文不提出新的模型，而是评估现有模型的表示能力。最常见的方法是创建几个数据集，并模型评估在不同侧重点的数据集上的泛化能力：

Conneau et al. What you can cram into a single vector: Probing sentence embeddings for linguistic properties.
http://arxiv.org/abs/1805.01070 。这篇文章在十个数据集上进行了实验，评估了不同的句子表示方法捕获语言特征的能力，如预测句子长度，恢复单词内容、对Bi-gram移位的敏感性等。他们发现不同的编码器结构可以学到不同特征的嵌入，并且将不同的嵌入组合在刻画句子级别的特征时效果出奇的好。

Zhu et al. Exploring Semantic Properties of Sentence Embeddings.
http://aclweb.org/anthology/P18-2100 通过观察在某个语义或句法方面不同的生成的三元组的相似性的变化来评估句子嵌入。他们发现 SkipThought和InferSent可以区分否定与同义词，而InferSent更善于识别语义等价和处理量词。

Pezzelle et al.Some of Them Can be Guessed! Exploring the Effect of Linguistic Context in Predicting Quantifiers.
http://arxiv.org/abs/1806.00354 专注于量词并测试不同的CNN和LSTM模型在单句和多句子语境中预测量词的能力。他们发现，在单句子语境中，模型的表现优于人类，而人类在多句子语境中略胜一筹。

Kuncor et al. LSTMs Can Learn Syntax-Sensitive Dependencies Well, But Modeling Structure Makes Them Better.
http://aclweb.org/anthology/P18-1132 评估LSTM对主题 -动词一致性的建模。他们发现，有了足够的数据量，LSTM可以对主语 - 动词协议进行建模，但更多语法敏感的模型，如递归神经网络语法甚至可以做得更好。

Blevins et al. Deep RNNs Encode Soft Hierarchical Syntax. http://arxiv.org/abs/1805.04218 评估在不同任务上预训练模型，是否捕获语法的分层概念。具体而言，他们训练模型以预测POS标签以及在解析树的不同深度处的组成标签。他们发现所有模型确实能学到了大量语法，特别是语言模型。

Lau et al. Deep-speare: A Joint Neural Model of Poetic Language, Meter and Rhyme.
http://arxiv.org/abs/1807.03491 发现在十四行诗语料库上训练的语言模型隐含地学到了人类级别的诗意的语言和韵律。

Spithourakis et al. Numeracy for Language Models: Evaluating and Improving their Ability to Predict Numbers.
发现了语言模型的局限性。他们观察到语言模型不善于数字建模，并提出了几种改进它们的策略。

Liu et al. LSTMs Exploit Linguistic Attributes of Data. http://arxiv.org/abs/1805.11653 表明，用自然语言训练的LSTM模型比非语言数据训练模型能更好地从长序列中检索token。

特别是，我认为更好地了解LSTM和语言模型的哪些信息将变得更加重要，因为它们似乎是NLP未来进展的关键驱动因素。

理解最先进的模型

虽然上述研究试图了解特定模型类的泛化能力的一个特定方面，但有几篇论文着重于更好地理解特定任务的最新模型：

Glockner, M et al. Breaking NLI Systems with Sentences that Require Simple Lexical Inferences.
http://arxiv.org/abs/1805.02266. 。专注于自然语言推理的任务。他们创建了一个数据集，其句子与训练数据中的句子至多相差一个单词，以便探究模型是否可以处理简单的词汇推理。他们发现当前最先进的模型无法捕捉到许多简单的推论。

Mudrakarta et al.Did the Model Understand the Question?
https://arxiv.org/pdf/1805.05492.pdf 分析不同模态下最先进的QA模型，发现模型经常忽略关键问题术语。然后他们扰乱问题来制作对抗性的例子，这些例子大大降低了模型的准确性。

我发现很多论文探讨了模型的不同方面。我希望这些探测数据集的生成将成为每个NLP研究人员工具包中的标准工具，这样我们不仅可以在将来看到更多此类论文，而且这种分析也可能成为在误差和消融分析之外，标准模型评估的一部分。

分析归纳偏差

另一种更好地理解模型的方法是分析其归纳偏差。 RELNLP（Workshop on Relevance of Linguistic Structure in Neural Architectures for NLP ）试图探讨将语言结构融入模型是否有效。 Chris Dyer在研讨会期间的演讲中的一个关键点是RNN是否对NLP有一个有用的归纳偏见。他特别指出，有几个证据表明RNN更偏向sequential recency ，即：

随着时间的推移，梯度会逐渐衰减。 LSTM或GRU可以帮助解决这个问题，但他们也会忘记。

人们已经使用了诸如反转机器翻译的输入序列之类的训练机制（如Bi-LSTM）。

人们已经使用了像注意力这样的增强功能，可以及时恢复直接连接。

根据乔姆斯基的观点，sequential recency 并不是学习人类语言的正确偏差。RNN似乎没有对语言建模有一个正确的偏差，这在实践中可能导致统计效率低下和泛化能力降低。RNN语法，一类通过将句子压缩成其成分，来生成树和序列的模型，才是对句法（syntactic ）（而不是顺序）recency 的偏见。

但是，通常很难确定是否模型具有有用的归纳偏差。为了识别主语 - 动词一致性，Chris假设LSTM语言模型学习了一种非结构性的“第一名词”启发式，它依赖于将动词与句子中的第一个名词相匹配。一般来说，困惑度（和其他聚合度量）与句法/结构能力相关，但在区分结构敏感模型和使用更简单启发式的模型时并不是特别敏感。

使用深度学习理解语言

Mark Johnson在研讨会上说，虽然深度学习已经彻底改变了NLP，但它的主要好处是经济：复杂的组件管道已被端到端模型取代，目标精度通常可以更快，更便捷地实现。深度学习并没有改变我们对语言的理解。它在这方面的主要贡献是证明神经网络又称计算模型可以执行某些NLP任务，这表明这些任务不是智能的指标。虽然DL方法可以很好地模式匹配和执行感知任务，但他们依赖于有意识的反思和有意识的思维来完成任务。

融合语言结构

Jason Eisner在他的讲座中质疑语言结构和类别是否真的存在，或者“科学家是否喜欢将数据组织成“因为没有语言学的方法对MT来说效果非常好。他发现即使是“任意定义”的类别，例如/ b /和/ p /音素之间的差异，也会有一定意义。然而，神经模型能很好发现这些“任意定义”的类别。

他概述了将语言信息引入模型的四种常用方法：a）通过基于流水线的方法，其中语言类别用作特征; b）通过数据增强，其中数据使用语言类别进行扩充; c）通过多任务学习; d）通过结构化建模，例如使用基于转换的解析器，循环神经网络语法，甚至是依赖于彼此的类，如BIO表示法。

在研讨会上，Emily Bender质疑学习语义的前提。即使你有一个你不了解的语言的巨大语料库，没有任何其他先验，例如什么功能词，你将无法学习句子结构或意义。她还指出了许多ML论文，这些论文描述了他们的方法与婴儿的学习方式类似，没有引用任何实际的语言学特征。但是实际上，婴儿特定的情感环境中学习，而这是我们不能为深度模型提供的。

了解LSTM为什么不起作用

更好的表示学习也是NLP研讨会表达学习的主题。Yoav Goldberg在演讲中，详细介绍了他的小组为更好地理解RNN表示所做的一些努力。特别是，他讨论了最近从RNN中提取有限状态自动机的工作，以便更好地理解模型学到了什么。LSTM通常可以预测数据中的人口统计等非预期方面。即使模型已经使用域 - 对抗性损失进行训练以产生对于某个方面不变的表示，表示仍将略微预测所述属性。因此，从编码数据中完全删除不需要的信息可能是一个挑战，甚至看似完美的LSTM也有可能失去效果。

关于LSTM失败模式的主题，获得ACL终身成就奖的马克斯蒂德曼问到：“LSTM在实践中工作，但他们能在理论上有效吗？”。

在更具挑战性的环境中评估模型

对抗性实例

与更好地理解最先进模型的局限性紧密相关的是提出改进方法。特别是，类似于上面提到的对抗性示例论文，一些论文试图使模型对对抗性的例子更加健壮：

Cheng et al. Towards Robust Neural Machine Translation.
建议更多地在NMT模型中制作编码器和解码器强烈抵抗输入扰动.

Ebrahimi et al. HotFlip: White-Box Adversarial Examples for Text Classification.
http://arxiv.org/abs/1712.06751提出白盒对抗性例子，通过交换少量令牌来欺骗角色级神经分类器.

Ribeiro, et al. Semantically Equivalent Adversarial Rules for Debugging NLP Models.
通过语义保留扰动来改进先前的方法，该扰动引起模型预测的变化，它们推广到在许多情况下诱导对手的规则.
Bose et al. Adversarial Contrastive Estimation. 使用对抗学习的采样器将对抗性示例结合到噪声对比估计中。采样器找到了更难的负面例子，这迫使模型学习更好的表示。

学习鲁棒的表示

Tim Baldwin在他在RepL4NLP研讨会上的演讲中讨论了使模型更加健壮的不同方法。PPT可在此下载。Timothy Baldwin详细分析了自然语言处理领域中所存在的领域依赖与训练偏差等问题，并提出了自己的解决方法：1、通过引入噪声进行数据增强；2、通过跨域学习来降低偏差；3、通过引入作者信息，来降低数据集偏差。

改进评估方法

除了使模型更加稳健之外，还有几篇论文试图改进我们评估模型的方式：

Finegan-Dollak et al. Improving Text-to-SQL Evaluation Methodology.
http://arxiv.org/abs/1806.09029 。确定局限性并提出对当前文本到SQL系统评估的改进。他们表明，当前的训练- 测试分割和变量匿名化的实践是有缺陷的，并发布七个数据集的标准化和改进版本以减轻这些.

Dror et al. The Hitchhiker’s Guide to Testing Statistical Significance in Natural Language Processing.
https://ie.technion.ac.il/~roiri/papers/ACL-2018-sig-cr.pdf 专注于应该是司空见惯的做法，但往往做得不好或做得不好：统计显着性测试。特别是，他们调查了ACL和TACL 2017中最近的实证论文，发现统计显着性检验经常被忽略或误用，并提出了一个简单的协议，用于NLP任务的统计显着性检验选择.

Chaganty et al.The price of debiasing automatic metrics in natural language evaluation.
http://arxiv.org/abs/1807.02202 调查BLEU和ROUGE等自动指标的偏差，发现即使是无偏估计也只能实现相对较低的误差减少。这突出了改进自动度量的相关性以及减少人类注释的方差的必要性。

强基线

提高模型评估的另一种方法是将新模型与更强的基线进行比较，以确保改进实际上是重要的。一些论文集中在这一研究领域：

Shen et al. Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms. 系统地将简单的基于单词嵌入的方法与池化比较为更复杂的模型，如LSTM和CNN。他们发现，对于大多数数据集，基于单词嵌入的方法表现出竞争性甚至更高的性能

Ethayarajh et al. Unsupervised Random Walk Sentence Embeddings: A Strong but Simple Baseline.
http://www.aclweb.org/anthology/W18-3012 在RepL4NLP研讨会上为句子嵌入模型提出了强有力的基线。

Ruder et al. Strong Baselines for Neural Semi-supervised Learning under Domain Shift.
发现经典的bootstrapping算法，如tri-训练为半监督学习奠定了坚实的基础，甚至超越了最新的最先进的方法。

在上面的论文中，我们还强调了在更具挑战性的环境中进行评估的重要性，例如在分布式数据和在不同的任务上。如果我们只专注于单个任务或仅关注域内数据，我们的研究结果会有所不同。我们需要在这样的不利条件下测试我们的模型，以更好地了解它们的稳健性。

创建更难的数据集

为了在这样的设置下进行评估，需要创建更具挑战性的数据集。 Yejin Choi在RepL4NLP小组讨论期间认为，社区非常关注SQuAD或bAbI等更容易解决的问题。 Yoav Goldberg甚至说“SQUAD是NLP的MNIST”。相反，我们应该专注于解决更难的任务，并开发更多难度越来越高的数据集。如果数据集太难，人们就不会对它进行处理。特别是，社区不应该长时间处理数据集，因为这些数据集得到了很快的解决;因此，创建新颖且更具挑战性的数据集更为重要。在会议上提出了两个寻求超越SQUAD阅读理解的数据集：

Welbl et al. Constructing Datasets for Multi-hop Reading Comprehension Across Documents.
http://arxiv.org/abs/1710.06481 QAngaroo数据集专注于阅读理解，需要通过多个推理步骤收集几条信息.

Kočiský et al. The NarrativeQA Reading Comprehension Challenge. http://arxiv.org/abs/1712.07040NarrativeQA需要读者通过阅读整本书或电影剧本来回答关于故事的问题。

在机器阅读问答研讨会期间，理查德·索赫尔还强调了训练和评估模型的重要性。他特别指出，NLP需要多种推理，例如：逻辑，语言，情感等，单一任务都不能满足。

用多种语言和资源较少的语言评价

另一方面，就是用多种语言评估我们的模型。 Emily Bender在上述讲话中调查了50篇NAACL 2018年论文，发现有42篇论文评估了一种未命名的神秘语言（即英语）。她强调，阐明是哪种语言是极其重要的，因为语言具有不同的语言结构;没有提到语言会混淆这个事实。

如果我们的方法设计为跨语言，那么我们还应该在更具挑战性的具有较少资源的语言环境中对它们进行评估。例如，以下两篇论文都指出，如果目标语言不是爱沙尼亚语或芬兰语，目前的无监督双语词典方法方法就失败了：

Søgaard et al.On the Limitations of Unsupervised Bilingual Dictionary Induction.
进一步探讨当前方法的局限性，并强调当嵌入在不同域上或使用不同算法进行训练时，这些方法也会失败。他们最终提出了衡量这些方法潜力的指标.

Artetxe et al A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings.
提出了一种新的无监督自我训练方法，该方法采用更好的初始化来引导优化过程，并且对于不同的语言对特别强大。

另外几篇论文也在资源匮乏语言上评估了他们的方法：

Dror et al. Orthographic Features for Bilingual Lexicon Induction 建议使用正交特征进行双语词典归纳。虽然这些主要帮助相关语言，但他们也评估了不同的语言对English-Finnish.Ren等。最后建议利用另一种丰富的语言翻译成资源匮乏的语言。他们发现他们的模型显着提高了稀有语言的翻译质量.

Currey et al. Triangular Architecture for Rare Language Translation.
http://arxiv.org/abs/1805.04813通过调整Gumbel树-LSTM为NMT提出了一种无监督的树到序列模型。他们的模型证明对于资源匮乏的语言特别有用。

NLP 的进展

ACL的主席Marti Hearst在她的演讲中回应了这种情绪。她过去常常使用Stanley Kubrick的HAL 9000（见下文）来展示我们的模型可以做什么和不能做什么。近年来，这已经不太有用，因为我们的模型已经学会了执行几十年前的任务，例如识别和产生人类语言或唇读。当然，我们仍然远离那这些需要深入语言理解和推理的任务，例如辩论;然而，这一进展非常显着.

Marti还转述了NLP和IR先驱KarenSpärckJones说研究不是围绕圈子进行，而是攀登螺旋式，或者说，楼梯不一定相连，但朝同一方向走。她还表达了一种似乎与很多人产生共鸣的观点：在20世纪80年代和90年代，只有少数论文可供阅读，因此追踪最先进的技术肯定更容易。为了简化这一过程，我最近创建了一份文档来收集不同NLP任务的最新技术http://nlpprogress.com。

强化学习

强化学习在2016年，似乎强化学习（RL）正在寻找其在NLP中的基础并应用于越来越多的任务。目前，似乎RL的动态特性使其对于本质上具有某些时间依赖性的任务（例如在训练和建模对话期间选择数据）最有用，而监督学习似乎更适合于大多数其他任务。 RL的另一个重要应用是直接优化诸如ROUGE或BLEU的结束度量，而不是优化诸如交叉熵的替代损失。这方面的成功应用是摘要和机器翻译。

逆向强化学习在奖励过于复杂而无法指定的环境中可能很有价值。一个成功的应用这是一种视觉叙事。 RL特别适用于NLP中的顺序决策问题，例如播放基于文本的游戏，浏览网页和完成任务。 NLP深度强化学习教程提供了对空间的全面概述。

原文链接：

http://blog.aylien.com/acl-2018-highlights-understanding-representations-and-evaluation-in-more-challenging-settings/

-END-

专 · 知

人工智能领域26个主题知识资料全集获取与加入专知人工智能服务群: 欢迎微信扫一扫加入专知人工智能知识星球群，获取专业知识教程视频资料和与专家交流咨询！