自然语言处理中的因果推理:估计、预测、解释和超越

摘要

科学研究的一个基本目标是了解因果关系。然而，尽管因果关系在生命和社会科学中发挥着关键作用，但在自然语言处理(NLP)中却没有同等的重要性，后者传统上更重视预测任务。随着因果推理和语言处理融合的跨学科研究的兴起，这种区别正开始消失。然而，关于NLP中因果关系的研究仍然分散在各个领域，没有统一的定义、基准数据集和对剩余挑战的清晰表述。在这项综述中，我们巩固了跨学术领域的研究，并将其置于更广阔的NLP景观中。我们介绍了估计因果效应的统计挑战，包括文本作为结果、治疗或解决混淆的手段的设置。此外，我们还探讨了因果推理的潜在用途，以改善NLP模型的性能、鲁棒性、公平性和可解释性。因此，我们为计算语言学界提供了一个统一的因果推理概述。

引言

许多科学领域对将融入文本为数据越来越感兴趣(例如，Roberts et al., 2014; Pryzant et al., 2017; Zhang et al., 2020a)。自然语言处理(NLP)研究人员可能不熟悉这些领域的一个关键特性，是强调因果推理，通常用于评估策略干预。例如，在推荐一种新的药物治疗之前，临床医生想知道这种药物对疾病进展的因果关系。因果推理涉及到一个通过干预创造的反事实世界的问题:如果我们给病人用药，他们的疾病进展会如何?正如我们下面所解释的，在观察数据中，因果关系并不等同于服用药物的患者与其观察到的疾病进展之间的相关性。现在有大量关于使用传统(非文本)数据集进行有效推理的技术的文献(例如，Morgan and Winship, 2015)，但将这些技术应用于自然语言数据提出了新的和基本的挑战。

相反，在经典的NLP应用中，目标只是做出准确的预测:任何统计相关性通常都被认为是可接受的，不管潜在的因果关系是什么。然而，随着NLP系统越来越多地部署在具有挑战性和高风险的场景中，我们不能依赖通常的假设，即训练和测试数据是相同分布的，我们可能不会满足于无法解释的黑箱预测器。对于这两个问题，因果关系提供了一条有希望的前进道路: 数据生成过程中因果结构的领域知识可以提示归纳偏差，导致更鲁棒的预测器，而预测器本身的因果视图可以提供关于其内部工作的新见解。

这篇调查论文的核心主张是，探究因果关系和NLP之间的联系，有可能推进社会科学和NLP研究者的目标。我们将因果关系和自然语言处理的交集分为两个不同的领域: 从文本中估计因果效应，以及使用因果形式主义使自然语言处理方法更可靠。我们将用两个例子来说明这种区别。

NLP帮助因果关系。文本数据的因果推理涉及几个不同于典型因果推理设置的挑战:文本是高维的，需要复杂的建模来衡量语义上有意义的因素，如主题，并需要仔细思考，以形式化因果问题对应的干预。从主题模型到上下文嵌入，自然语言处理在建模语言方面的发展为从文本中提取所需信息以估计因果效应提供了有前景的方法。然而，我们需要新的假设，以确保使用NLP方法导致有效的因果推理。我们将在第3节讨论从文本中估计因果效应的现有研究，并强调这些挑战和机遇。

因果关系可以帮助NLP。为了解决NLP方法带来的稳健性和可解释性挑战，我们需要新的标准来学习超越利用相关性的模型。例如，我们希望预测器对于我们对文本所做的某些更改是不变的，例如在保持ground truth标签不变的情况下更改格式。利用因果关系来发展新的准则，为建立可靠的、可解释的自然语言处理方法提供服务，这是相当有希望的。与文本因果推理的研究领域相比，因果关系和NLP研究的这一领域较少被理解，尽管最近的经验成功很好地推动了这一领域的研究。在第4节中，我们涵盖了现有的研究，并回顾了使用因果关系来改进自然语言处理的挑战和机遇。

该论文调研了文本数据在因果推理中的作用(Egami et al., 2018; Keith et al., 2020)。在本文中，我们采取了一个更广泛的视角，将因果关系和自然语言处理的交集分为两个截然不同的研究线，即估计因果效应和因果驱动的自然语言处理方法。在阅读了本文之后，我们设想读者将对以下内容有一个广泛的理解: