题目: L2R2: Leveraging Ranking for Abductive Reasoning
摘要:
外展自然语言推理任务(αNLI)提出了评价诱导的学习系统的推理能力。对于αNLI任务,两个观测给出最合理的假设被要求选出的候选。现有的方法简单地将其表示为一个分类问题,因此在训练过程中使用了交叉熵对数损失目标。然而,区分真假并不能衡量一个假设的可信性,因为所有的假设都有发生的机会,只有概率是不同的。为了填补这个空白,我们切换到一个排序的角度,按照假设的可信性排序。在此基础上,提出了一种新的基于学习排序的L2R2方法。首先,将训练样本重新组织成一个排序形式,将两个观察值及其假设分别作为查询和一组候选文档。然后,得到一个ESIM模型或预先训练好的语言模型,如BERT或RoBERTa,作为打分函数。最后,对于训练,排序任务的损失函数可以是成对的,也可以是列表式的。在ART数据集上的实验结果达到了公共排行榜上的最高水平。