The evaluation of question answering models compares ground-truth annotations with model predictions. However, as of today, this comparison is mostly lexical-based and therefore misses out on answers that have no lexical overlap but are still semantically similar, thus treating correct answers as false. This underestimation of the true performance of models hinders user acceptance in applications and complicates a fair comparison of different models. Therefore, there is a need for an evaluation metric that is based on semantics instead of pure string similarity. In this short paper, we present SAS, a cross-encoder-based metric for the estimation of semantic answer similarity, and compare it to seven existing metrics. To this end, we create an English and a German three-way annotated evaluation dataset containing pairs of answers along with human judgment of their semantic similarity, which we release along with an implementation of the SAS metric and the experiments. We find that semantic similarity metrics based on recent transformer models correlate much better with human judgment than traditional lexical similarity metrics on our two newly created datasets and one dataset from related work.


翻译:问题解答模型的评估将地面真实性说明与模型预测进行比较。然而,截至今天,这一比较大多以词汇为基础,因此遗漏了没有在词汇上重叠、但仍具有语义相似性的答复,因此将正确的答案视为假的。这种对模型真实性表现的低估妨碍了用户在应用中的接受,并使对不同模型的公平比较复杂化。因此,需要基于语义而不是纯字符串相似性的评价性指标。在这份简短的文件中,我们提出SAS,一种基于跨编码的指数,用以估计语义回答相似性,并将它与七个现有的指标进行比较。为此,我们创建了一套英文和德国的附加注释的评价数据集,其中包含了两种答案的配对及其语义相似性的人类判断,我们同时发布了SAS指标和实验。我们发现,基于最近变异模型的语义相似性指标与人类判断的关系要好得多,而不是与我们两个新创建的数据集和一份相关工作中的数据相关的传统类似性指标。

0
下载
关闭预览

相关内容

ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【文本匹配】Question Answering论文
深度学习自然语言处理
8+阅读 · 2020年4月20日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
深度学习医学图像分析文献集
机器学习研究会
18+阅读 · 2017年10月13日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
Arxiv
0+阅读 · 2021年12月15日
Arxiv
5+阅读 · 2019年4月21日
Arxiv
6+阅读 · 2018年5月22日
VIP会员
相关VIP内容
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
相关资讯
【文本匹配】Question Answering论文
深度学习自然语言处理
8+阅读 · 2020年4月20日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
深度学习医学图像分析文献集
机器学习研究会
18+阅读 · 2017年10月13日
【推荐】用Tensorflow理解LSTM
机器学习研究会
36+阅读 · 2017年9月11日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
Top
微信扫码咨询专知VIP会员