A number of measures have been proposed to assess the utility of the synthetic data. These include measures based on distances between the two distributions and others based on combining the original and synthetic data and predicting the origin with a propensity score. The methods will be reviewed and compared, and relations between them illustrated. These measures are incorporated into utility modules in the \pkg{synthpop} package that include methods to visualize the results. We illustrate how to compare diffent syntheses and to diagnose which aspect of the synthetic data differs from the original. The utility functions were originally designed to be used for synthetic data objects of class synds, created by synthpop, but they can now be used to compare synthetic data created by other methods with the original records. The utility measures can be standardized by their expected Null distributions from a correct synthesis model. If they are used to evaluate other types of altered data, not generated from a model, then this standardisation can be interpreted as giving the ratio of the difference for the original to the expected stochastic error.


翻译:为了评估合成数据的效用,提出了一些措施建议来评估合成数据的效用,其中包括基于将原始和合成数据合并并用偏差来预测来源的原始和合成数据与其它数据之间的距离的措施。将审查和比较这些方法,并说明它们之间的关系。这些措施被纳入了\pkg{synthpop}软件包中的实用模块,其中包括对结果进行可视化的方法。我们说明了如何比较混杂的合成综合数据,并诊断合成数据中哪些方面与原始数据不同。这些实用功能最初设计用于合成分类符号的合成数据对象,由合成棒生成,但现在可以用来将其他方法生成的合成数据与原始记录进行比较。这些实用措施可以通过预期的合成模型的Null分布标准化。如果使用它们来评价其他类型的已变数据,而不是从模型中生成的,那么这种标准化可以解释为将原始数据与预期的随机错误的差比。

0
下载
关闭预览

相关内容

【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
专知会员服务
40+阅读 · 2020年9月6日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年11月16日
Arxiv
0+阅读 · 2021年11月16日
Visualizing and Measuring the Geometry of BERT
Arxiv
7+阅读 · 2019年10月28日
VIP会员
相关VIP内容
【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
专知会员服务
40+阅读 · 2020年9月6日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员