Comparing the differences in outcomes (that is, in "dependent variables") between two subpopulations is often most informative when comparing outcomes only for individuals from the subpopulations who are similar according to "independent variables." The independent variables are generally known as "scores," as in propensity scores for matching or as in the probabilities predicted by statistical or machine-learned models, for example. If the outcomes are discrete, then some averaging is necessary to reduce the noise arising from the outcomes varying randomly over those discrete values in the observed data. The traditional method of averaging is to bin the data according to the scores and plot the average outcome in each bin against the average score in the bin. However, such binning can be rather arbitrary and yet greatly impacts the interpretation of displayed deviation between the subpopulations and assessment of its statistical significance. Fortunately, such binning is entirely unnecessary in plots of cumulative differences and in the associated scalar summary metrics that are analogous to the workhorse statistics of comparing probability distributions -- those due to Kolmogorov and Smirnov and their refinements due to Kuiper. The present paper develops such cumulative methods for the common case in which no score of any member of the subpopulations being compared is exactly equal to the score of any other member of either subpopulation.


翻译:比较两个亚人口组之间结果的差异( 即“ 独立变量 ” ) 通常只有在比较子人口群中与“ 独立变量” 相类似的个人的结果时,才会产生最丰富的信息。 独立的变量通常被称为“ 数 ”, 通常被称为“ 数 ”, 即匹配的倾向性分数, 或统计或机算模型预测的概率。 如果结果不相干, 那么就需要某种平均, 以减少结果产生的噪音, 与观察到的数据中的不同值相异。 传统的平均法是, 根据分数将数据放进每个子组中的数据中的平均结果, 并比照本箱中的平均得分来绘制。 然而, 这样的累进可以相当武断, 并极大地影响亚组人口组之间显示的偏差以及评估其统计意义。 幸运的是, 在累积差异的图上, 和相关的标度缩放总度指标( 与 Kolmogorov 和 Smirov 的概率分布有关) 及其因 Kuipper 而产生的精细等数据, 。 本文中的任何分数都完全可以用来对子组的分数进行。

0
下载
关闭预览

相关内容

Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
【新书】Python编程基础,669页pdf
专知会员服务
195+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
已删除
架构文摘
3+阅读 · 2019年4月17日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机类 | 国际会议信息7条
Call4Papers
3+阅读 · 2017年11月17日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年10月4日
Arxiv
3+阅读 · 2017年12月14日
VIP会员
相关资讯
已删除
架构文摘
3+阅读 · 2019年4月17日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机类 | 国际会议信息7条
Call4Papers
3+阅读 · 2017年11月17日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员