ACL 2019年度回顾：自然语言处理发展趋势

会员服务 ·

ACL 2019年度回顾：自然语言处理发展趋势

2019 年 8 月 19 日 人工智能学家

大数据文摘出品

来源：mihaileric

编译：赵伟、邢畅、张秋玥

今年7月底，计算语言学协会年会（ACL）在风景优美的佛罗伦萨召开。会场设在了一座古老的Medici家族的城堡中。

作为NLP研究最大规模的会议之一，ACL 2019的规模也再破新高，共接收到2900多份论文，比2018年增加75％！

在今年的会议中，NLP应用全面开花，而以BERT为代表的NLP预训练技术也不出意料地抢尽风头。除此之外，NLP技术可解释性和评判体系等更为基础的研究也都有新突破。学者们也深入讨论了NLP研究中潜在的歧视、偏差问题。

毕业于斯坦福大学，目前就职于亚马逊Alexa AI的Mihail Eric小哥在参会之后写下了ACL 2019的详细回顾。

让我们跟着他一起回顾一下今年ACL大会的精彩瞬间！

减少NLP偏差

ACL主席、来自微软亚研院的周明老师在开幕致辞中指出，今年的ACL会议是规模最大的一届，共接收到2900多份论文，比2018年增加75％！自然语言处理领域炙手可热🔥，学界和业界热情创历史新高。

然而，这些关于行业景气的统计数据并不能完全描述全球NLP利润分布。市场增长的大部分发生在北美（由美国主导）和亚洲（由中国主导），而南美洲和非洲的大部以及欧洲的许多国家占比较低。因此，目前NLP的发展可能存在地理上的误差，即我们并没有获得多样化的观点和意见来促进该领域的发展。

正如周明老师所指出（根据他在亚太地区发展NLP社群的经验），一个办法就是在代表性不足的地区举办更多的会议和活动，就像那样以在主办地区（亚太地区）来发展更多的会员一样。为了解决这种代表性不足的问题，各方已经照此做了很多工作，比如创立Deep Learning Indaba。

除了地理误差之外，在当前的自然语言处理发展中越来越出现一些诸如性别偏见这样的不良趋势。一些论文通过实证研究支持了这些事实。例如，Stanovsky等人证明了四种工业机器翻译系统以及两种当前最先进（SOTA）的学术模型都非常容易出现基于性别的翻译错误。

整个NLP社区也很清楚这个问题，因此许多人做了些有意思的工作。例如Kaneko等人开发了一种用于词汇嵌入的去除偏见方法，它可以保留非性别歧视的相关信息，同时消除刻板印象的性别偏见。在更高层次上，今年ACL还在NLP研讨会上主持召开了第一届NLP性别偏见会议，这些会议致力于将研究这些问题的研究人员聚集在一起以提高认识、促进讨论。

对此还有很多工作要做，但看到NLP社区积极采取措施来缓解偏见的好兆头令人振奋。

丰富的NLP应用程序

自然语言处理生机勃勃，因为我们领域开发的模型和工具已进入能够解决许多实际问题的阶段了——这一点在观看会议上展示的各种NLP应用时表现得尤为明显。

在这个假新闻泛滥和关于大脑神经的了解尚不充分的时代，验证陈述真实性的方法较之以往越来越不一样。Shengli Hu建立了一个系统，利用声学和语言学特征来识别文本和语音中隐藏的信息，其准确率超过人工判别准确率15％！

在健康领域，Shardlow等人开发了一种神经模型，通过特定域的短语表使医生编写的临床信件对患者更具可读性。与此相关，Du等人建议从临床对话中提取症状以及基线模型，这样做可以减少初级保健医生为了了解病情而必须花费在查阅临床文献系统上的时间。

今年的ACL还有一个专门讨论应用于生物学问题的NLP的研讨会。例如，Fauqueur等人展示了一项无需训练数据或手动更改某些规则即可从生物医学文献中提取新发现的技术。另有一篇Rajagopal和Vyas等人的论文，他们先在大型数据集上预训练LSTM-CRF模型、然后再在规模较小的语料库上进行微调以在标准数据集上实现21 F1点的改进，从而使得语义角色标注系统适应生物过程！

另有其它一些关于NLP的很神奇的应用，如Zhang等人的工作。为了解决电子邮件主题行生成的问题（就像Gmail用于生成电子邮件标题的智能回复那样），他们首次展示了一个有广阔应用前景的模型，无论是机器还是人工评估，该模型都很好地解决了这个应用问题。

预训练，再微调：NLP的新范例

2011年，Krizhevsky等人关于神经网络开创性工作使得计算机视觉领域彻底地爆发了一场革命。与之类似，应用于自然语言处理的深度学习也是一个正在爆炸性增长的领域。

从2015年到2017年，NLP中的大多数任务都可以通过一个简单明了的公式来解决：通过某种连续的矢量表示嵌入输入文本，编码文本，手动修改，然后对你的任务做适当的预测来对文本精修。

Matthew Honnibal在这篇文章中生动地描述了这种形式体系：

https://explosion.ai/blog/deep-learning-formula-nlp

嵌入、编码、手动修改、预测等等在概念上很简单，但是正迅猛发展，目前已在在所有类型的任务上都实现非常优秀的结果，例如机器翻译、回答问题以及自然语言推理等等。在过去的一段时间内这样看起来都没有什么问题。

但是现在，不得不说规矩变了。随着那些使用诸如ELMO、OpenAI GPT和BERT等语言建模目标进行训练的强大预训练模型的出现，NLP技术的开发已经成为选择某种现有的、已在庞大数据集上预训练好的模型，再在一些小规模的、领域内的语料库进行微调以使其适宜使用。实际上，这一策略已成功地在现有的NLP基准测试程序中取得了可观的SOTA效果。

在ACL，这一策略的主导地位得到了一些已发表的工作以及人们对NLP现状普遍态度的背书。Dai和Yang等人的一项工作试图进一步发展基于Transformer的语言模型，极大地提高了模型处理速度，使其达到顶尖复杂度数量级。另一项代表性的工作是Liu和He等人所做出的，它利用BERT衍生出的架构，其性能GLUE基准测试排行榜遥遥领先（截至论文提交时）。

除开这些工作，围绕会议的一般性讨论是，如果他们使用像BERT这样的方法，许多现有架构的性能可以提高几个百分点。因此现有问题就变成了：这种新范式是否使NLP中的许多建模创新变得无足轻重？

我个人认为答案是否定的。总的来说，这儿仍有许多未做的工作，而这些对于推动NLP下一次迭代至关重要。我在下面说明几点。

将知识融入NLP结构

虽然现有的预训练语言超模型体系结构非常强大，但是从原始文本语料库中训练可以使你得到想要的学习效果。换句话说，这类模型学到的东西是不受约束的，其优越性能可能只是巨大训练数据集中不同语境下的文本序列实例。我们能否通过融入基础知识来超越这一点呢？

ACL有很多论文试图解决这个问题。

例如，Zhang等使用类型化实体嵌入和底层知识图对齐来增强BERT表示，结果表明他们的模型在实体类型和关系分类方面可以胜过BERT。

论文链接：

https://arxiv.org/pdf/1905.07129.pdf

Yang等通过提出KT-NET解决了这一问题，KT-NET使用注意力机制来融合从WordNet和NELL等知识库中选中的信息，从而得到了SQuAD 1.1上的最优结果。

论文链接：

https://www.aclweb.org/anthology/P19-1226

另一篇不错的论文来自Logan等，他们提出了知识图语言模型，这是一种生成架构，可以有选择地从与底层上下文相关的知识图中复制事实，性能优于强大的基线语言模型。

论文链接：

https://arxiv.org/pdf/1906.07241.pdf

虽然将先验知识融入神经模型确实是一个难题，但结果显示前途无量！

模型的可解释性

神经网络一直被认为是黑盒模型，要真正理解其学习到的决策函数非常困难。撇开对这些模型的完全可解释性是否严格必要的考虑，对模型内部结构的理解可以指导未来的结构设计。ACL上的几篇优秀论文旨在对现有模型进行该方面研究。

Serrano等的工作挑战了这一公认的难题，尽管注意力机制有时对表明模型结构的概念非常重要，但在某些情况下，其他替代性的排名指标可能更有效地解释模型决策过程。

论文链接：

https://arxiv.org/pdf/1906.03731.pdf

Jawahar等探究了BERT学习到的语言结构，发现BERT学习到了丰富的语言信息，包括底层的表层特征，中层的句法特征和顶层的语义特征。他们还进一步指出，学习长距依赖信息会需要更深的网络层次。

论文链接：

https://hal.inria.fr/hal-02131630/document

Gehrmann等开发了一种工具，通过对预测单词标记的模型密度可视化，以检测神经网络生成的假文本，这使得人类用户的检测率提高了近20%。Sydorova等研究了一些事后解释方法，如问答系统上的LIME，证明了某些技术可以帮助人们从几个选项中识别出更好的QA模型。

论文链接：

https://hal.inria.fr/hal-02131630/document

https://arxiv.org/pdf/1906.10924.pdf

https://github.com/marcotcr/lime

反思自然语言生成中的评价与假设

作为一个研究对话系统的人，自然语言生成任务的复杂性是我最感兴趣的地方了——尤其是在模型评估仍然是一个非常有争议的问题时。因此，看到人们正在积极努力改善现状，我真的非常欣慰。

首先，Maxime Peyrard证明，在评估某些评分范围内的表现时，某些自动评估汇总指标是不一致的。

Clark等提出了一种基于句子划窗相似性的生成文本评价指标，该指标与人类判断结果的相关性优于公认的ROUGE。

模型生成的文本往往会出现事实错误和虚假陈述。因此，Falke等研究了自然语言推理系统能否重新排序输出从而解决这一问题。他们发现开箱即用的NLI系统不能很好地适应下游任务，因此提供了使这些系统达到所需性能的工具。

Maximme Peyrard还进行了更为基础的工作，从理论上对冗余、相关性和信息量等概念进行了严格的定义。

除了评价之外，Sankar等对传统的循环网络和基于transformer的seq2seq对话模型可以从对话历史中学习的假设提出了质疑。他们指出，这些模型对应用于上下文的某些扰动并不十分敏感，这对对话自然语言生成器的有效性构成了挑战。

论文链接：

https://www.aclweb.org/anthology/P19-1502

https://homes.cs.washington.edu/~nasmith/papers/clark+celikyilmaz+smith.acl19.pdf

http://www.aclweb.org/anthology/W04-1013

https://leoribeiro.github.io/papers/acl19-summary-correctness.pdf

“预训练-微调”之外的范式

虽然现在的NLP模型不断迭代、不断更新最优结果， NLP社区普遍认为仍然有一些需要改进的地方。我们处于一个有点棘手的情况中，因为我们经常使用基准测试来衡量任务的进展，但是这些模型中的许多模型在这些现有的NLP基准测试上已经接近、甚至超过了人类的性能。那么我们应该怎么办？

这是Zellers等提出的问题，他们在早期的研究中已经为常识自然语言推理问题引入了一个具有挑战性的数据集，但在发布后不久就发现BERT的性能已经接近人类的表现。为了解决这个问题，作者提出了一个后续数据集，该数据集使用一种被称为对抗性过滤的技术，用于选择BERT和其他模型难以回答的示例。在此过程中，他们极大地增加了基准测试的复杂度。

BERT当然不是完美的。Nangia 等的一项研究表明，基于BERT的模型很难处理稀缺资源的句子分类任务，并提出了一种名为SuperGLUE的后续自然语言理解基准，专门用于评估这种情况。

McCoy等的另一项工作表明，应用于自然语言推理的BERT模型学习的是非常简单的语法启发式，这不能很好地推广到其他实例。他们还发布了一个评估集，以确定模型是否采用这些启发式，但没有解决更一般的推理问题。

Min和Wallace等的相关论文表明，针对多跳问答基准的HotpotQA数据集提出的许多模型实际上并不需要执行多跳推理就能获得良好的性能。

总而言之，我认为目前的大部分模型仍然在解决数据集问题，而不是在处理实际任务。我们构建的模型在获取和利用特定数据集的偏差方面效果惊人。在这个过程中，我们的评估指标描绘了相当具有误导性的画面。这让我想起Goodhart定律：当一个指标变成目标，它就不再是一个好的指标了。那么我们该如何前进呢?

鉴于这些评估基准是自然语言任务的代理，考虑到模型开发的快速速度，假定基准保持不变似乎是不合理的。相反，我发现特别有希望的是，开发一套不断变化的、难度越来越大的基准测试，能够进一步推动自然语言能力的提升。也许这套基准的极限，就是我们在机器中实现人类级别的NLP表现的方式。

最后，我在ACL的一周内，真正感受到NLP领域正在蓬勃发展！社区正经历着非常激动人心的时刻，有许多前途无量的发展即将出现。过去一年，社区取得了长足的进步，但仍有不少突出的挑战和有待解决的问题。

论文链接：

https://arxiv.org/pdf/1905.07830.pdf

https://arxiv.org/pdf/1905.10425.pdf

https://arxiv.org/pdf/1905.00537.pdf

https://arxiv.org/pdf/1902.01007.pdf

https://arxiv.org/pdf/1906.02900.pdf