【NLP】NLP未来发展趋势&ACL 2019回顾

会员服务 ·

【NLP】NLP未来发展趋势&ACL 2019回顾

2019 年 8 月 27 日 产业智能官

图灵TOPIA

作者：Mihail Eric

编译：闫娜、李翔宇

图灵联邦编辑部出品

7月28日-8月2日，第57届国际计算语言学协会年会(ACL 2019)在意大利佛罗伦萨召开。作为自然语言处理(NLP)领域的国际顶级学术会议，本次会议共吸引了全球3000余名来自学界和工业界的研究者前来现场参会。Alexa AI 机器学习科学家Mihail Eric回顾并总结了ACL 2019会议内容，并从减少偏见、多个方面对目前NLP领域的发展趋势进行了总结。

以下是原文：

本周，我有幸参加了计算语言学协会(ACL) 2019年年会，年会在美丽的佛罗伦萨美第奇家族的一座古老堡垒里举行。

会议是我最喜欢参加的活动之一，因为在很短的时间里，可以利用社区的意识流，了解人们的想法以及这个领域的发展方向。鉴于ACL是来自世界各地的NLP研究人员的最大聚集，它提供了社区headspace的代表性样本。

参加会议就是这样，总会有一种在知识的湍流中激流勇进的感觉。你身边充斥着论文、演讲、创意和才华横溢的人。这篇文章中，我将自己在ACL 2019一周时间里的所见所闻梳理了出来，从中可以更直接的了解NLP领域在2019年的动态和趋势，以及未来的发展方向。

减少NLP中的偏见

在开幕式的致辞中，ACL主席周明表示，今年的ACL大会是举办该会以来规模最大的一次，共有2900多份投稿论文，比2018年增加了75% ! 自然语言处理领域炙手可热，学术和行业热情创历史新高。

然而，这些关于受欢迎程度的统计数据并不能完全反应全球NLP的兴趣。这种增长主要发生在北美(由美国主导)和亚洲(由中国主导)，而南美、非洲以及许多欧洲国家则相对落后。因此，当前NLP的状态有遭受地理偏见的风险，在这种情况下，我们无法获得一组不同的观点和视角来塑造该领域的未来。

周明根据他在亚太地区的NLP社区经验，指出了一个可能的解决方案，就是在那些代表性不足的地区举办更多的学术会议和活动，这样可以刺激当地NLP研究的积极性。目前也有相关案例，比如在非洲举办的深度学习Indaba活动。

除了地理上的偏见，人们也越来越意识到，在当前自然语言处理发展的过程中，存在其他消极的人为因素，例如性别偏见。对此有实证研究证明其确实存在。例如，Stanovsky等人证明了四种工业机器翻译系统以及目前两种学术上最先进的(SOTA)模型很容易出现基于性别的翻译错误。

社区也很清楚这一问题，因此提出了许多有趣的工作，例如Kaneko等人的工作，他们开发了一种用于词嵌入的去偏方法，该方法在保留非歧视性性别相关信息的同时消除了刻板的性别偏见。

在更高层次上，ACL今年还举办了第一次NLP工作坊中的性别偏见，并扩大了NLP工作坊的范围，这是为了将致力于解决这些问题的研究人员聚集在一起，进一步提高认识，并激发富有成效的讨论。

社区也很清楚这个问题，因此提出了许多有趣的作品，如Kaneko等人开发了一种词汇嵌入的去除方法，可以保留非歧视性别相关信息，同时消除了刻板的性别偏见。更高层次上，今年，ACL第一次举办了Gender Bias in NLP Workshop 和Widening NLP Workshop ，这些研讨会致力于将研究此问题的研究员聚集在一起，提高认识，促进富有成效的讨论。虽然还有很多工作要做，但是社区积极措施缓解偏见问题的做法是令人鼓舞的。

大量的自然语言处理应用

当前，自然语言处理的状态是令人兴奋的，因为我们开发的模型和工具有能力解决很多实际问题。当看到会议上各种NLP应用程序时，这一点更加很清楚。

在神经网络生成的假新闻成为一大问题的时代，验证叙述内容的真实性正变得越来越重要。hengli Hu的研究建立了一个系统，利用声学和语言特征来识别文本和语音中隐藏的信息，性能表现超过人类达15％！

在健康领域，Shardlow等人开发了一种神经网络模型，用于通过特定于某些域的短语列表，让医生编写的临床信息对患者而言更具可读性。在相关研究中，Du等人提出了从临床对话中提取症状以及基线模型的任务，以减少初级医生在与临床文献系统交互上所花费的时间。

今年，ACL还专门举办了关于应用于生物学问题的NLP的完整研讨会。例如，Fauqueur等人提出了从生物医学文献中提取新事实的技术，无需培训数据或手工制作的规则。

另一篇是Rajagopal和Vyas等人的论文，他们将通过在大型数据集上预先训练LSTM-CRF模型，然后在低资源语料库上进行微调，在标准数据集上实现21 F1点的改进，从而将语义角色标记系统适应生物过程！

NLP的其他很酷的应用还有包括Zhang等人的研究，该研究提出了电子邮件标题生成的问题（就像Gmail的智能回复，但是用于生成电子邮件标题），从自动和人工评估结果来看，这是个有发展前景的问题模型。

先预训练，然后微调：NLP的新范例

正如神经网络在2011年突然彻底改变了计算机视觉领域，自然语言处理的深度学习的故事同样也是一个“爆炸性和快速增长”的故事。

从2015年到2017年，NLP中的大多数任务都可以通过一个相对简单的公式来解决：通过某种连续的矢量表示嵌入文本输入，编码这些表示，参与编码表示，然后预测您的任务。Matthew Honnibal在一篇文章中很好地描述了这种形式主义。

虽然在概念上很简单，嵌入，编码，参与，预测公式似乎几乎不可阻挡，在所有类型的任务上实现SOTA结果，例如机器翻译，问答和自然语言推理等等。有一段时间，似乎没有问题是免疫的。

如今，随着强大的预训练表示的出现，使用ELMO，OpenAI GPT和BERT等语言建模目标的某些风格进行训练，这种模型是在庞大的数量上预先训练的使用一些较小的域内语料库对数据进行微调和微调。实际上，这一战略已经成功地在现有的NLP基准测试中取得了巨大的SOTA成果。

在ACL，这种策略的优势被强化寻求进一步推动transformer-based的语言超级模型，极大地提高速度并实现SOTA困惑度数量。这个新范例的另一个非常有代表性的工作是Liu和He等人的工作，他们利用基于BERT的架构来领先GLUE基准测试排行榜(在提交时)。

除了这些作品本身，会议上的普遍讨论是，如果使用类似BERT这样的东西，许多架构可以实现几个百分点的改进。那么问题就变成了：这种新范式是否使NLP中的许多建模创新变得无足轻重？

我的答案是否定的。总的来说，仍然有许多工作是未充分探索的，对于推动NLP进展的下一次迭代至关重要。

将知识融入NLP架构

虽然现有的预训练语言超模型体系结构非常强大，但是从原始文本语料库中进行训练的方式可以鼓励您获得学习的乐趣。换句话说，这类模型学到的东西是相当不受约束的，他们的优越表现可能只是能够在巨大的数据集中发现不同背景下的许多文本序列实例。

我们可以通过拓展基础知识来源，提供更多的信息来让NLP模型的能力超出这个范围吗？

在ACL有很多论文试图解决这个问题。例如，Zhang等人使用类型化实体嵌入和对底层知识图的对齐来增强BERT表示，这表明他们的模型在实体类型和关系分类方面胜过BERT。Yang等人也提出通过KT-NET解决了这个问题，KT-NET使用注意机制融合来自知识库（如WordNet和NELL）的选定信息，从而在Squad 1.1（提交时）实现SOTA。另一篇不错的论文是Logan等人的，他提出了知识图语言模型，这是一种生成架构，可以从与基础上下文相关的知识图中有选择地复制事实，优于强基线语言模型。

虽然将知识融入神经模型确实是一个难题，但从目前的结果来看，似乎很有希望！

模型的可解释性

众所周知，神经网络是黑盒模型，因此要真正理解决策函数很困难。不考虑这些模型的完全可解释性是否是绝对必要的，公平地说，对模型内部某种程度的理解可以极大地指导未来的体系结构设计。ACL的几篇优秀论文可对现有模型提供启发。

Serrano等人的工作挑战了民间的智慧，即注意力机制表示模型的重要性概念，这表明尽管有时是正确的，但在某些情况下，替代的排名指标可能更有效地指示模型决策过程。

在另一项研究中，Jawahar et. al.探究了BERT学习的语言结构，发现BERT的层次学习了丰富的语言信息，如底层的表层特征，中层的句法特征，顶层的语义特征。作者进一步指出，学习远程依赖信息需要更深的层次。

其他工作也涉及模型可解释性问题。Gehrmann等人开发了一种工具，通过可视化预测单词标记的模型密度来检测神经生成的假文本，这使得人类用户的检测率提高了近20%。Sydorova等人研究了一些事后解释方法，比如问答系统上的LIME，证明了某些技术可以帮助人们从几个选项中识别出更好的QA模型。

重新思考自然语言生成中的评估与假设

自然语言生成的评估的概念仍然是一个非常有争议的问题，因此这种重新思考是值得提倡的。

Maxime Peyrard证明，在评估某些评分范围内的表现时，某些自动评估汇总指标是不一致的。Clark团队根据句子移动的相似性提出了一个新的生成文本评估指标，与标准ROUGE相比，该指标与人类判断的相关性更强。

模型生成的文本往往会出现事实错误和虚假陈述。因此，Falke等人研究了是否可以将自然语言推理系统用于重新排列输出作为处理这个问题的一种方法。他们发现，开箱即用的NLI系统还不足以适应下游任务，并提供了使这些系统达到必要性能的工具。

Maxime Peyrard在其基础的著作中，从理论上对冗余、相关性和信息性等概念进行了严格的定义。

在评价之外，Sankar等人对传统的循环和transformer-based的序列到序列的对话模型从对话历史中学到的某些假设提出了质疑。他们特别指出，这些模型对应用于上下文的某些扰动并不敏感，这对对话自然语言生成器的有效性构成了挑战。

超越Pretrain-Finetune范式

我们经常使用基准测试来衡量任务的表现和性能改进，而这些模型中许多模型已经接近或超过了这些现有NLP基准测试的人类表现。那么我们怎么办？

这是Zellers等人提出的问题，他们在早期的工作中为常识自然语言推理问题引入了一个具有挑战性的数据集，但在发布后不久就发现BERT的性能接近人类的表现。为了解决这个问题，作者提出了一个后续数据集，该数据集使用一种称为“对抗性过滤”的技术来选择BERT和其他模型难以回答的示例。在此过程中，它们极大地增加了基准的复杂性。

BERT当然不是完美的。Nangia 等人的一项研究表明，表明基于BERT的模型与低资源句子分类任务相悖，并提出了一种后续的自然语言理解基准，称为SuperGLUE，专门用于评估这种情况。

McCoy等人的另一项工作表明，应用于自然语言推断的BERT模型正在学习非常简单的句法启发式方法，不能很好地推广到其他包含示例。他们还发布了一个评估集，以确定模型是否采用这些启发式算法，但不能解决更一般的推理问题。

Min和Wallace等人的相关论文表明，针对多跳问答基准的HotpotQA数据集提出的许多模型实际上并不需要执行多跳推理就能获得良好的性能。

总而言之，我认为，今天大部分模型仍在解决数据集而不是任务。我们正在构建模型，这些模型在获取和利用特定于数据集的偏差方面具有惊人的效果。在此过程中，我们的评估指标描绘了具有误导性的图片。这让我想起了古德哈特定律：当一项措施成为目标时，它就不再是一个好的衡量标准。那么我们如何前进呢？

鉴于这些评估基准是自然语言任务的代理，并且鉴于模型开发的快速发展，假设基准可以保持不变似乎是不合理的。相反，开发一套不断增加难度的演变基准是有希望的。每个基准都进一步推动自然语言能力的目标。也许，这就是我们如何在机器中实现人类级别的NLP功能。

写在最后

总结一下，从这次ACL的论文来看，NLP的领域正在蓬勃发展！社区正处于激动人心的时期，未来的发展也充满了希望。尽管过去的一年NLP领域取得了实质性进展，但仍有许多突出的挑战和未解决的问题需要解决。

官方指南：

Annual Meeting of the Association for Computational Linguistics (ACL) 2019

http://www.acl2019.org/EN/index.xhtml

先进制造业+工业互联网

产业智能官 AI-CPS

加入知识星球“产业智能研究院”：先进制造业OT（自动化+机器人+工艺+精益）和工业互联网IT（云计算+大数据+物联网+区块链+人工智能）产业智能化技术深度融合，在场景中构建“状态感知-实时分析-自主决策-精准执行-学习提升”的产业智能化平台；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

产业智能化平台作为第四次工业革命的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎；重构设计、生产、物流、服务等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生 新技术、新产品、新产业、新业态和新模式； 引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。

产业智能化技术分支用来的今天，制造业者必须了解如何将“智能技术”全面渗入整个公司、产品、业务等商业场景中， 利用工业互联网形成数字化、网络化和智能化力量，实现行业的重新布局、企业的重新构建和焕然新生。

登录查看更多

【NLP】NLP未来发展趋势&ACL 2019回顾

相关内容