Causal inference using observational text data is becoming increasingly popular in many research areas. This paper presents the Bayesian Topic Regression (BTR) model that uses both text and numerical information to model an outcome variable. It allows estimation of both discrete and continuous treatment effects. Furthermore, it allows for the inclusion of additional numerical confounding factors next to text data. To this end, we combine a supervised Bayesian topic model with a Bayesian regression framework and perform supervised representation learning for the text features jointly with the regression parameter training, respecting the Frisch-Waugh-Lovell theorem. Our paper makes two main contributions. First, we provide a regression framework that allows causal inference in settings when both text and numerical confounders are of relevance. We show with synthetic and semi-synthetic datasets that our joint approach recovers ground truth with lower bias than any benchmark model, when text and numerical features are correlated. Second, experiments on two real-world datasets demonstrate that a joint and supervised learning strategy also yields superior prediction results compared to strategies that estimate regression weights for text and non-text features separately, being even competitive with more complex deep neural networks.


翻译:在许多研究领域,使用观测文本数据的因果关系推断在许多研究领域越来越受欢迎。本文件展示了使用文本和数字信息的贝耶斯专题回归模型(BTR)模型,该模型使用文本和数字信息来模拟结果变量。它允许估算离散和连续处理效应。此外,它允许在文本数据旁边添加额外的数字混杂因素。为此,我们将一个受监督的贝耶斯主题模型与巴耶斯回归框架结合起来,并对文本特征进行有监督的演示学习,同时进行回归参数培训,同时尊重Frisch-Waugh-Lovell理论。我们的文件作出了两个主要贡献。首先,我们提供了一个回归框架,允许在文本和非数字组合者都具有相关性的情况下,在各种环境中进行因果关系推论。我们用合成和半合成数据集显示,我们的共同方法恢复了地面真理,在文本和数字特征相关时,其偏差比任何基准模型都低。第二,对两个真实世界数据集进行的实验表明,联合和有监督的学习战略也产生优于估计文本和非文字特征回归权的战略的预测结果。我们用更具有竞争性的深层次网络。

0
下载
关闭预览

相关内容

因果推断,Causal Inference:The Mixtape
专知会员服务
103+阅读 · 2021年8月27日
专知会员服务
50+阅读 · 2021年8月8日
专知会员服务
17+阅读 · 2021年7月11日
商业数据分析,39页ppt
专知会员服务
158+阅读 · 2020年6月2日
因果图,Causal Graphs,52页ppt
专知会员服务
241+阅读 · 2020年4月19日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
计算机类 | LICS 2019等国际会议信息7条
Call4Papers
3+阅读 · 2018年12月17日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
人工智能 | 国际会议/SCI期刊约稿信息9条
Call4Papers
3+阅读 · 2018年1月12日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
Arxiv
0+阅读 · 2021年10月29日
Meta Learning for Causal Direction
Arxiv
5+阅读 · 2020年7月6日
Arxiv
109+阅读 · 2020年2月5日
VIP会员
相关VIP内容
因果推断,Causal Inference:The Mixtape
专知会员服务
103+阅读 · 2021年8月27日
专知会员服务
50+阅读 · 2021年8月8日
专知会员服务
17+阅读 · 2021年7月11日
商业数据分析,39页ppt
专知会员服务
158+阅读 · 2020年6月2日
因果图,Causal Graphs,52页ppt
专知会员服务
241+阅读 · 2020年4月19日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
计算机类 | LICS 2019等国际会议信息7条
Call4Papers
3+阅读 · 2018年12月17日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
人工智能 | 国际会议/SCI期刊约稿信息9条
Call4Papers
3+阅读 · 2018年1月12日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
Top
微信扫码咨询专知VIP会员