交叉熵(Cross Entropy)是Shannon信息论中一个重要概念,主要用于度量两个概率分布间的差异性信息。语言模型的性能通常用交叉熵和复杂度(perplexity)来衡量。交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。

VIP内容

题目: L2R2: Leveraging Ranking for Abductive Reasoning

摘要:

外展自然语言推理任务(αNLI)提出了评价诱导的学习系统的推理能力。对于αNLI任务,两个观测给出最合理的假设被要求选出的候选。现有的方法简单地将其表示为一个分类问题,因此在训练过程中使用了交叉熵对数损失目标。然而,区分真假并不能衡量一个假设的可信性,因为所有的假设都有发生的机会,只有概率是不同的。为了填补这个空白,我们切换到一个排序的角度,按照假设的可信性排序。在此基础上,提出了一种新的基于学习排序的L2R2方法。首先,将训练样本重新组织成一个排序形式,将两个观察值及其假设分别作为查询和一组候选文档。然后,得到一个ESIM模型或预先训练好的语言模型,如BERT或RoBERTa,作为打分函数。最后,对于训练,排序任务的损失函数可以是成对的,也可以是列表式的。在ART数据集上的实验结果达到了公共排行榜上的最高水平。

成为VIP会员查看完整内容
0
7

最新论文

In this work, we propose a new loss to improve feature discriminability and classification performance. Motivated by the adaptive cosine/coherence estimator (ACE), our proposed method incorporates angular information that is inherently learned by artificial neural networks. Our learnable ACE (LACE) transforms the data into a new "whitened" space that improves the inter-class separability and intra-class compactness. We compare our LACE to alternative state-of-the art softmax-based and feature regularization approaches. Our results show that the proposed method can serve as a viable alternative to cross entropy and angular softmax approaches. Our code is publicly available: https://github.com/GatorSense/LACE.

0
0
下载
预览
Top