Explainable deep learning models are advantageous in many situations. Prior work mostly provide unimodal explanations through post-hoc approaches not part of the original system design. Explanation mechanisms also ignore useful textual information present in images. In this paper, we propose MTXNet, an end-to-end trainable multimodal architecture to generate multimodal explanations, which focuses on the text in the image. We curate a novel dataset TextVQA-X, containing ground truth visual and multi-reference textual explanations that can be leveraged during both training and evaluation. We then quantitatively show that training with multimodal explanations complements model performance and surpasses unimodal baselines by up to 7% in CIDEr scores and 2% in IoU. More importantly, we demonstrate that the multimodal explanations are consistent with human interpretations, help justify the models' decision, and provide useful insights to help diagnose an incorrect prediction. Finally, we describe a real-world e-commerce application for using the generated multimodal explanations.


翻译:在许多情形下,可以解释的深层次学习模式是有利的。 先前的工作大多通过与原系统设计无关的热后方法提供单式解释。 解释机制也忽略了图像中的有用文本信息。 本文中,我们提议MTXNet,这是一个端到端的、可训练的多式联运结构,以产生多式解释,以图像中的文字为重点。 我们编写一个新的数据集TextVQA-X, 其中载有既可在培训和评估期间加以利用的地面真象和多参考文本解释。 然后,我们在数量上表明,采用多式解释的培训补充了模型的性能,在CIDER分数和IoU分数中超过单一形式基线7%。 更重要的是,我们证明,多式解释符合人类的解释,有助于为模型的决定提供合理的理由,并为帮助诊断错误的预测提供了有用的见解。 最后,我们描述了使用生成的多式解释的真实世界电子商务应用程序。

1
下载
关闭预览

相关内容

【机器推理可解释性】Machine Reasoning Explainability
专知会员服务
34+阅读 · 2020年9月3日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
IQ-VQA: Intelligent Visual Question Answering
Arxiv
5+阅读 · 2020年7月8日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关VIP内容
【机器推理可解释性】Machine Reasoning Explainability
专知会员服务
34+阅读 · 2020年9月3日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Top
微信扫码咨询专知VIP会员