Building compositional explanations requires models to combine two or more facts that, together, describe why the answer to a question is correct. Typically, these "multi-hop" explanations are evaluated relative to one (or a small number of) gold explanations. In this work, we show these evaluations substantially underestimate model performance, both in terms of the relevance of included facts, as well as the completeness of model-generated explanations, because models regularly discover and produce valid explanations that are different than gold explanations. To address this, we construct a large corpus of 126k domain-expert (science teacher) relevance ratings that augment a corpus of explanations to standardized science exam questions, discovering 80k additional relevant facts not rated as gold. We build three strong models based on different methodologies (generation, ranking, and schemas), and empirically show that while expert-augmented ratings provide better estimates of explanation quality, both original (gold) and expert-augmented automatic evaluations still substantially underestimate performance by up to 36% when compared with full manual expert judgements, with different models being disproportionately affected. This poses a significant methodological challenge to accurately evaluating explanations produced by compositional reasoning models.


翻译:建构解释要求模型结合两个或两个以上事实,共同描述一个问题答案正确的原因。通常,这些“多跳”解释比一个(或少数)黄金解释得到评估。在这项工作中,我们显示这些评价大大低估了模型性能,既包括事实的相关性,也包括模型解释的完整性,因为模型经常发现并产生与黄金解释不同的有效解释。为了解决这个问题,我们建造了一大堆126k域-专家(科学教师)相关性评级,这增加了对标准化科学考试问题的解释,发现了80k项其他未被评为黄金的相关事实。我们根据不同方法(代、排名和制)建立了三个强有力的模型,从经验上表明,虽然专家推荐的评级提供了更好的解释质量估计,无论是原始的(古型)还是专家推荐的自动评价,仍然大大低估了与全手专家判断相比高达36%的绩效,而不同的模型则受到不相称的影响。这对准确评价组成推理模型作出的解释提出了重大的方法挑战。

0
下载
关闭预览

相关内容

专知会员服务
32+阅读 · 2021年10月9日
因果推断,Causal Inference:The Mixtape
专知会员服务
105+阅读 · 2021年8月27日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
17篇必看[知识图谱Knowledge Graphs] 论文@AAAI2020
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Arxiv
110+阅读 · 2020年2月5日
Arxiv
6+阅读 · 2019年9月4日
Metrics for Explainable AI: Challenges and Prospects
Arxiv
4+阅读 · 2018年12月11日
VIP会员
Top
微信扫码咨询专知VIP会员