Today's scene graph generation (SGG) task is still far from practical, mainly due to the severe training bias, e.g., collapsing diverse "human walk on / sit on / lay on beach" into "human on beach". Given such SGG, the down-stream tasks such as VQA can hardly infer better scene structures than merely a bag of objects. However, debiasing in SGG is not trivial because traditional debiasing methods cannot distinguish between the good and bad bias, e.g., good context prior (e.g., "person read book" rather than "eat") and bad long-tailed bias (e.g., "near" dominating "behind / in front of"). In this paper, we present a novel SGG framework based on causal inference but not the conventional likelihood. We first build a causal graph for SGG, and perform traditional biased training with the graph. Then, we propose to draw the counterfactual causality from the trained graph to infer the effect from the bad bias, which should be removed. In particular, we use Total Direct Effect (TDE) as the proposed final predicate score for unbiased SGG. Note that our framework is agnostic to any SGG model and thus can be widely applied in the community who seeks unbiased predictions. By using the proposed Scene Graph Diagnosis toolkit on the SGG benchmark Visual Genome and several prevailing models, we observed significant improvements over the previous state-of-the-art methods.


翻译:今天的场景图表生成(SGG)任务仍然远远不切合实际,主要原因是严重的培训偏差,例如,“人类在海滩上/坐在海滩上/躺在海滩上”等各种“人行走”和“人类在海滩上”。鉴于这种SGG, VQA等下游任务很难比一袋物体更能推断出更好的场景结构。然而,SGG的贬低并非微不足道,因为传统的贬低方法无法区分好的和坏的偏差,例如,以前的好环境(例如,“人阅读书”而不是“吃”)和不良的长尾偏差(例如,在海滩上的人行走/坐在海滩上/躺在海滩上的人行)。鉴于SGGG,在本文中,我们提出一个新的SGG框架是基于因果关系而不是常规可能性。我们首先为SGG建立因果图,然后用传统的偏差训练用图表进行。然后,我们提议从经过训练的图表中选取反真实的因果关系来推断坏的偏差的偏差的偏差方法,而应该消除这种偏差的偏差的偏差的偏差。特别是“近的”和长的偏差的偏差的偏差偏差偏差的偏差的偏差的偏差的偏差的偏差的偏差(例如的偏差的偏差的偏差的偏差的偏差的偏差的偏差的偏差的偏差的偏差的偏差的偏差的偏差(例如的偏差的偏差的偏差(例如:在沙的偏差(例如,在沙面的偏差的“近的偏差的偏差的偏差的偏差的偏差的偏差的偏差的偏差(例如,在海滩的沙差的沙差,在沙面的沙面的沙面的沙面的沙面的沙面的沙面的沙的沙面的沙面的沙面的沙面的沙面的沙面的沙面的沙面的沙面的沙面的沙面的沙面的沙面的沙面的沙面的沙面的沙面的沙面的沙面的沙面的沙面的沙面的沙面的沙面上,在沙面的上行迹上行迹上行。

0
下载
关闭预览

相关内容

因果图,Causal Graphs,52页ppt
专知会员服务
243+阅读 · 2020年4月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
7+阅读 · 2018年3月21日
Arxiv
6+阅读 · 2018年2月24日
Arxiv
7+阅读 · 2018年1月21日
VIP会员
相关资讯
Top
微信扫码咨询专知VIP会员