We consider the problem of using observational data to estimate the causal effects of linguistic properties. For example, does writing a complaint politely lead to a faster response time? How much will a positive product review increase sales? This paper addresses two technical challenges related to the problem before developing a practical method. First, we formalize the causal quantity of interest as the effect of a writer's intent, and establish the assumptions necessary to identify this from observational data. Second, in practice, we only have access to noisy proxies for the linguistic properties of interest -- e.g., predictions from classifiers and lexicons. We propose an estimator for this setting and prove that its bias is bounded when we perform an adjustment for the text. Based on these results, we introduce TextCause, an algorithm for estimating causal effects of linguistic properties. The method leverages (1) distant supervision to improve the quality of noisy proxies, and (2) a pre-trained language model (BERT) to adjust for the text. We show that the proposed method outperforms related approaches when estimating the effect of Amazon review sentiment on semi-simulated sales figures. Finally, we present an applied case study investigating the effects of complaint politeness on bureaucratic response times.


翻译:我们考虑的是使用观察数据来估计语言特性的因果关系的问题。例如,以礼貌方式撰写投诉是否会导致更快的反应时间?积极产品审查会增加销售多少?本文在制订实用方法之前,讨论与这一问题有关的两个技术挑战。首先,我们将利息因果数量确定为作者意图的效果,并从观察数据中确定必要的假设来查明这一点。第二,在实践中,我们只能接触有关语言特性的吵闹代理人 -- -- 例如分类员和词汇员的预测。我们为这一设置建议一个估计符,并证明在对文本进行调整时,其偏差是受约束的。根据这些结果,我们采用 " 文字原因 " 算法,用以估计语言特性的因果关系。这种方法利用(1) 遥远的监督来提高扰动剂的质量,和(2) 事先培训的语言模型(BERT)来调整文本。我们表明,在估计亚马逊审查情绪对半模拟销售数字的影响时,拟议的方法不符合相关方法。最后,我们进行了一次对官僚主义反应进行有礼貌的案例研究。

0
下载
关闭预览

相关内容

【干货书】计算机科学,647页pdf,Computer Science
专知会员服务
45+阅读 · 2021年5月10日
专知会员服务
21+阅读 · 2021年2月6日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
【IJCAI2020】TransOMCS: 从语言图谱到常识图谱
专知会员服务
34+阅读 · 2020年5月4日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
“原子”因果常识图谱
AINLP
6+阅读 · 2019年12月26日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
计算机类 | LICS 2019等国际会议信息7条
Call4Papers
3+阅读 · 2018年12月17日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
An Optimal Transport Approach to Causal Inference
Arxiv
0+阅读 · 2021年8月12日
Arxiv
0+阅读 · 2021年8月10日
Arxiv
14+阅读 · 2020年12月17日
Arxiv
23+阅读 · 2018年8月3日
VIP会员
相关VIP内容
【干货书】计算机科学,647页pdf,Computer Science
专知会员服务
45+阅读 · 2021年5月10日
专知会员服务
21+阅读 · 2021年2月6日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
【IJCAI2020】TransOMCS: 从语言图谱到常识图谱
专知会员服务
34+阅读 · 2020年5月4日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
相关资讯
“原子”因果常识图谱
AINLP
6+阅读 · 2019年12月26日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
计算机类 | LICS 2019等国际会议信息7条
Call4Papers
3+阅读 · 2018年12月17日
笔记 | Sentiment Analysis
黑龙江大学自然语言处理实验室
10+阅读 · 2018年5月6日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
Top
微信扫码咨询专知VIP会员