Federal administrative tax data are invaluable for research, but because of privacy concerns, access to these data is typically limited to select agencies and a few individuals. An alternative to sharing microlevel data are validation servers, which allow individuals to query statistics without accessing the confidential data. This paper studies the feasibility of using differentially private (DP) methods to implement such a server. We provide an extensive study on existing DP methods for releasing tabular statistics, means, quantiles, and regression estimates. We also include new methodological adaptations to existing DP regression algorithms for using new data types and returning standard error estimates. We evaluate the selected methods based on the accuracy of the output for statistical analyses, using real administrative tax data obtained from the Internal Revenue Service Statistics of Income (SOI) Division. Our findings show that a validation server would be feasible for simple statistics but would struggle to produce accurate regression estimates and confidence intervals. We outline challenges and offer recommendations for future work on validation servers. This is the first comprehensive statistical study of DP methodology on a real, complex dataset, that has significant implications for the direction of a growing research field.


翻译:联邦行政税收数据对研究来说是宝贵的,但是由于隐私方面的考虑,这些数据的获取通常仅限于某些机构和少数个人; 分享微观一级数据的替代办法是验证服务器,这种服务器使个人可以查询统计数据而无需查阅机密数据; 本文研究使用差别私人(DP)方法实施这种服务器的可行性; 我们对现有DP方法进行广泛研究,以公布表格统计数据、手段、量化和回归估计; 我们还包括对现有DP回归算法进行新的方法调整,以便使用新的数据类型和返回标准错误估计; 我们根据统计分析产出的准确性评价选定的方法,使用国内税收局收入统计司(SOI)获得的实际行政税收数据; 我们的调查结果显示,验证服务器对于简单的统计来说是可行的,但将难以得出准确的回归估计和信任间隔; 我们概述了关于验证服务器的未来工作的挑战和建议; 这是关于真实、复杂的数据集的DP方法的首次全面统计研究,对不断增长的研究方向有重大影响。

0
下载
关闭预览

相关内容

【WWW2021】对众包系统的数据中毒攻击和防御
专知会员服务
20+阅读 · 2021年2月22日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
专知会员服务
28+阅读 · 2020年11月4日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
CCF C类 | DSAA 2019 诚邀稿件
Call4Papers
6+阅读 · 2019年5月13日
CCF A类 | 顶级会议RTSS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年4月17日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
美国化学会 (ACS) 北京代表处招聘
知社学术圈
11+阅读 · 2018年9月4日
深度学习医学图像分析文献集
机器学习研究会
18+阅读 · 2017年10月13日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Arxiv
18+阅读 · 2021年3月16日
VIP会员
相关VIP内容
【WWW2021】对众包系统的数据中毒攻击和防御
专知会员服务
20+阅读 · 2021年2月22日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
专知会员服务
28+阅读 · 2020年11月4日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
相关资讯
CCF C类 | DSAA 2019 诚邀稿件
Call4Papers
6+阅读 · 2019年5月13日
CCF A类 | 顶级会议RTSS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年4月17日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
大数据 | 顶级SCI期刊专刊/国际会议信息7条
Call4Papers
10+阅读 · 2018年12月29日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
美国化学会 (ACS) 北京代表处招聘
知社学术圈
11+阅读 · 2018年9月4日
深度学习医学图像分析文献集
机器学习研究会
18+阅读 · 2017年10月13日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Top
微信扫码咨询专知VIP会员