事实核查(Fact-checking)是评估主张真实性的过程,通常十分耗时,可能需要数小时甚至数天来验证一个主张,因此推动了自动化事实核查(或部分自动化)计算方法的发展。该挑战在自然语言处理领域中被具体化为事实验证(fact verification)任务,通常通过从知识源中提取文本证据并利用神经蕴含系统对主张的真实性进行推理来建模。 然而,这类系统的推理过程本质上不透明,存在鲁棒性问题,并且难以捕捉诸如单调性等形式良好的语义概念。 为了解决这些问题,本论文探索了用于事实验证的神经-符号方法(neuro-symbolic methods),将符号系统与神经表示相结合。我们特别关注自然逻辑(natural logic)这一组合性蕴含推理框架,它直接作用于自然语言,通过捕捉主张和文本证据之间的集合论关系进行推理。作为一个旨在通过确定性推理识别有效推断的逻辑系统,自然逻辑特别适用于事实验证任务,其中主张需由证据蕴含(entail),同时能够保障诸如忠实性(faithfulness)和可执行性(actionability)等可解释性属性。 本论文的首个贡献是构建了 FEVEROUS数据集,这是一个大规模数据集,要求对检索到的文本和表格证据进行复杂推理(如算术推理或多跳推理),以推动神经-符号方法的发展。 随后,我们探索了将自然逻辑作为符号推理框架与自回归语言建模的最新进展相结合的方式,以提升事实验证系统的可解释性、鲁棒性和泛化能力。我们提出了如下系统: 1. 将自然逻辑作为自回归多跳文档检索的动态且透明的停止准则; 1. 消除训练自然逻辑推理系统对大规模标注数据的依赖; 1. 将自然逻辑扩展至表格证据与算术运算,以应对复杂主张验证中的关键挑战。
最后,我们将这三项贡献统一到一个基于自然逻辑的事实验证系统中,致力于在文本和表格证据上进行推理的同时满足关键的可解释性需求。