现有模型还“不懂”自然语言：20多位研究者谈NLP四大开放性问题

2019 年 1 月 30 日 微软研究院AI头条

编者按：在由DeepMind主办的Deep Learning Indaba 2018深度学习峰会上，20多名NLP领域的研究者接受采访，就NLP的研究现状、当前困境和未来走向等问题发表了自己的见解。很多研究者指出：自然语言理解才是当前NLP发展的最大问题。本文转载自微信公众号“机器之心”。

Deep Learning Indaba 2018是由DeepMind主办的深度学习峰会，于今年9月份在南非斯泰伦博斯举行。会上，AYLIEN研究科学家Sebastian Ruder、DeepMind高级研究科学家Stephan Gouws和斯泰伦博斯大学讲师Herman Kamper组织了自然语言处理前沿会议（Frontiers of Natural Language Processing session），采访了20多名NLP领域的研究者。不久前，Sebastian Ruder公布了这次采访的谈话实录和大会演讲的PPT，对整个采访进行了总结。本文基于当时的专家采访和专题讨论写成，主要探讨NLP领域中的4个主要开放性问题：

自然语言理解

低资源语言NLP

大型文档或多文档的推理

数据集、问题和评估

自然语言理解

我认为最大的开放性问题是关于自然语言理解的。我们应该通过构建文本表征，开发出能像人类一样阅读和理解文本的系统。在那之前，我们所有的进步都只是在提升系统模式匹配的能力。

——Kevin Gimpel

在专家采访中，很多专家认为自然语言理解（NLU）问题是最核心的，因为它是很多任务的先决条件（如自然语言生成）。他们认为目前的模型都还没有“真正”理解自然语言。

固有偏置 vs 从头学习

一个关键的问题是我们应该在模型中加入哪些偏置项和结构才能更加接近自然语言理解。很多专家在采访中提到模型应该学习常识。此外，他们也多次提到对话系统（和聊天机器人）。

另一方面，关于强化学习，David Silver认为我们最终会想要让模型自学一切，包括算法、特征和预测。很多专家持相反观点，认为应该在模型中嵌入理解模块。

程序合成

Omoju Miller认为在模型中嵌入理解模块非常难，我们不知道NLU背后的机制以及如何评估它们。她认为我们或许可以从程序合成中获取灵感，基于高级规范自动学习程序。此类想法与神经模块网络和神经编程器-解释器（neural programmer-interpreter）有关。

她还建议我们应该回顾上世纪八九十年代开发的方法和框架（如FrameNet），并将它们与统计方法结合起来。这应该会有助于我们推断对象的常识属性，如汽车是否是交通工具、汽车是否有把手等。推断此类常识知识是近期NLP数据集的重点。

具身学习（Embodied learning）

Stephan Gouws认为我们应该使用结构化的数据源和知识库（如Wikidata）中的信息。他认为人类通过经验和互动，将周围环境作用于身体来学习语言。有人可能认为存在一种学习算法，在具备适当奖励结构的信息丰富的环境中，该算法用于智能体时可以从头学习NLU。但是，此类环境的计算量是巨大的。AlphaGo需要巨大的基础设施才能解决定义完善的棋盘游戏。持续学习的通用算法的创建与终身学习和通用问题求解器有关。

很多人认为既然我们在朝着具身学习的方向前进，我们就不应该低估完全具身智能体所需的基础设施和算力。因此，等待合格的具身智能体学习语言似乎是天方夜谭。但是，我们可以逐渐接近这个终点，如在模拟环境中的grounded语言学习、利用多模态数据学习等。

情感

Omoju认为将人类情感等因素融入具身智能体是很困难的。一方面，理解情感需要对语言有更深层的理解。另一方面，我们可能不需要真正具备人类情感的智能体。Stephan表示图灵测试被定义为模仿性和反社会的，尽管没有情感，却可以欺骗人类，使人们认为它有情感。因此我们应该尝试找到无需具身和具备情感的解决方案，但它们又能理解人类情感、帮助人类解决问题。确实，基于传感器的情感识别系统在不断改进，文本情感检测系统也有很大进步。

认知和神经科学

会上有观众提问，我们构建模型时利用了多少神经科学和认知科学知识。神经科学和认知科学知识是灵感的重要来源，可用作塑造思维的指南。举例来说，多个模型试图模仿人类的思维能力。AI 和神经科学是互补的。

Omoju推荐大家从认知科学理论中获取灵感，如Piaget和Vygotsky的认知发展理论。她还敦促大家进行跨学科研究，这引起了其他专家的共鸣。例如，Felix Hill推荐大家参加认知科学会议。

低资源场景下的NLP

应对数据较少的场景（低资源语言、方言等）不是一个完全“空白”的问题，因为该领域已经有了很多颇有前景的思路，但我们还没找到一个解决这类问题的普适方案。

——Karen Livescu

我们探索的第二个主题是在低资源场景下泛化至训练数据之外的领域。在Indaba的场景下，一个自然的关注点就是低资源语言。第一个问题聚焦于是否有必要为特定的语言开发专门的NLP工具，还是说进行通用NLP研究已经足够了。

通用语言模型

Bernardt认为，语言之间存在着普遍的共性，可以通过一种通用语言模型加以利用。那么挑战就在于如何获取足够的数据和算力来训练这样一个语言模型。这与最近的训练跨语言Transformer语言模型和跨语言句子嵌入的研究密切相关。

跨语言表征

Stephan表示，研究低资源语言的学者还不够充足。光是非洲就有1250-2100种语言，大部分没有受到NLP社区的关注。是否开发专用工具也取决于待处理的NLP任务类型。现有模型的主要问题在于其样本效率。跨语言词嵌入对样本的利用非常高效，因为它们只需要词的翻译对，甚至只用单语数据也可以。它们可以很好地对齐词嵌入空间，以完成主题分类等粗粒度任务，但无法完成机器翻译等细粒度任务。然而，最近的研究表明，这些嵌入可以为无监督机器学习创建重要的构建块。

另一方面，应对问答等高级任务的复杂模型需要学习数以千计的训练样本。将需要实际自然语言理解的任务从高资源语言转移到低资源语言仍然非常具有挑战性。随着此类任务的跨语言数据集（如XNLI）的发展，开发用于更多推理任务的强大跨语言模型应该会变得更容易。

收益与影响

资源不足的语言本质上只有少量的文本可用，在这种情况下NLP的优势是否会被限制也是一个问题。Stephan表现出了强烈的不同意见，他提醒我们，作为ML和NLP的从业者，我们往往倾向于用信息论的方式看问题，如最大化数据的可能性或改进基准。退一步讲，我们研究NLP问题的真实原因是构建克服壁垒的系统。我们想构建一些模型，让人们可以浏览非母语的新闻、在无法看医生的情况下询问健康问题……

考虑到这些潜在的影响，构建低资源语言系统实际上是最重要的研究领域之一。低资源语言可能没有太多数据，但这种语言非常多。事实上，大多数人说的都是一种资源贫乏的语言。因此，我们确实需要找到让系统在这种设定下运行的方法。

Jade认为，我们这个社区聚焦于拥有大量数据的语言，因为这些语言在全世界都有良好的教育，这似乎有点讽刺。真正需要我们关注的是那些没有太多可用数据的低资源语言。Indaba的精妙之处在于，里面的人正在推进这种低资源语言的研究，并取得了一些进展。考虑到数据的稀缺性，即使像词袋这种简单的系统也能对现实世界产生重大影响。听众Etienne Barnard指出，他观察到了现实世界中语音处理的一种不同效果：与使用母语系统相比，如果英语系统适用于用户的方言，他们往往更有动力使用英语系统。

动机和技能

另一位听众说，人们更有动机去做有高度可视化基准的工作，如英德机器翻译，但在低资源的语言方面缺乏动机。Stephan认为，动机就是该问题还未解决。然而，正确的人口统计资料中没有解决这些问题所需的技能。我们应该专注于教授机器翻译等类似技能，以帮助大家获取解决这些问题的能力。然而，如果跨语言基准测试变得更加普遍，低资源语言领域也将取得更多进展。

数据可及性

Jade最后提到，低资源语言（如非洲的一些语言）缺乏可用的数据集是一大问题。如果我们创造数据集并使其非常容易获得（如将其放在openAFRICA上），这将极大地激励大家并降低入门门槛。提供多种语言的测试数据通常就足够了，因为这可以帮助我们评估跨语言模型并跟踪进度。另一个数据资源是South African Centre for Digital Language Resources（SADiLaR），该资源包含很多南非语种。

对大型文本和多个文本进行推理

高效表征大型文本。现有模型主要基于循环神经网络，该网络无法良好地表征较长的文本。受图启发的RNN工作流程具有发展潜力，因为它们比普通的RNN要更加容易训练，尽管目前只看到了有限的改进，而且还没有被广泛采用。

——Isabelle Augenstein

对大型文本和多个文本进行推理也是一个较大的开放性问题。最近的NarrativeQA数据集是符合这一背景的一个很好的基准示例。使用很大的语境进行推理与NLU紧密相关，需要大幅度扩展现有系统，使其可以阅读整本书或整个电影剧本。这里有一个关键问题：我们需要训练更好的模型还是仅仅在更多数据上训练？此处不展开讨论。

OpenAI Five等研究表明，如果大幅增加数据量和计算量，现有模型可以完成的任务将非常可观。有了足够的数据，现有模型在更大的语境中也能表现出很好的性能。问题在于，有大量文本的数据非常少见，获取成本也非常昂贵。与语言建模和skip-thoughts类似，我们可以想象一个文件级别的无监督任务，要求预测一本书的下一个段落或下一个章节，或者决定下一章应该是哪一章。然而，这个目标很可能太简单——效率低下，无法学习有用的表征。

开发能够在阅读文件时更加高效地表征语境并追踪相关信息的方法似乎是一个更加实用的方向。多文件摘要和多文件问答与这一研究方向一致。类似地，我们可以利用提高后的内存能力和终身学习能力来构建模型。

数据集、问题和评估

或许最大的问题是如何定义问题本身。正确定义问题指的是构建数据集和评估步骤来恰当地衡量我们在具体目标上的进展。如果能将所有问题都简化为Kaggle风格的竞赛，事情就简单多了！

——Mikel Artetxe

本文没有空余篇幅讨论当前基准测试和评估设置的问题，相关回答可以参考调查结果。最后一个问题是，非洲社会最亟待解决的NLP问题是什么。Jade给出的答案是资源不足问题。让人们借助翻译用自己的语言接触所有感兴趣的教育资源是非常重要的一件事情。

点击阅读原文，查看原文。

你也许还想看：

● 书单 | NLP秘笈，从入门到进阶

● ACM Multimedia | NLP与CV联姻，触景生情的浪漫派AI诞生了

● 中美两位AI大师的“巅峰对话”：为何NLP领域难以出现“独角兽”？

感谢你关注“微软研究院AI头条”，我们期待你的留言和投稿，共建交流平台。来稿请寄：msraai@microsoft.com。

登录查看更多

相关内容

自然语言理解

关注 9

自然语言处理(N LP , Natural Language Processing)是使用自然语言同计算机进行通讯的技术, 因为处理自然语言的关键是要让计算机“理解”自然语言,所以自然语言处理又叫做自然语言理解(NLU ,Natural Language Understanding), 也称为计算语言学(Computational Ling uistics)。一方面它是语言信息处理的一个分支 , 另一方面它是人工智能(AI , Artificial Intelligence)的核心课题之一。

【DeepMind硬核课】深度学习自然语言处理前沿进展，附103页ppt

专知会员服务

135+阅读 · 2020年6月28日

【清华大学】低资源语言:回顾综述和未来的挑战，14页pdf

专知会员服务

38+阅读 · 2020年6月16日

【人大】大规模知识图谱补全技术的研究进展

专知会员服务

87+阅读 · 2020年5月2日

普林斯顿大学陈丹琦主讲2020课程《深度学习自然语言处理》课程，21讲带你学习NLP最新技术

专知会员服务

154+阅读 · 2020年3月29日