The framework of distribution testing is currently ubiquitous in the field of property testing. In this model, the input is a probability distribution accessible via independently drawn samples from an oracle. The testing task is to distinguish a distribution that satisfies some property from a distribution that is far from satisfying it in the $\ell_1$ distance. The task of tolerant testing imposes a further restriction, that distributions close to satisfying the property are also accepted. This work focuses on the connection of the sample complexities of non-tolerant ("traditional") testing of distributions and tolerant testing thereof. When limiting our scope to label-invariant (symmetric) properties of distribution, we prove that the gap is at most quadratic. Conversely, the property of being the uniform distribution is indeed known to have an almost-quadratic gap. When moving to general, not necessarily label-invariant properties, the situation is more complicated, and we show some partial results. We show that if a property requires the distributions to be non-concentrated, then it cannot be non-tolerantly tested with $o(\sqrt{n})$ many samples, where $n$ denotes the universe size. Clearly, this implies at most a quadratic gap, because a distribution can be learned (and hence tolerantly tested against any property) using $\mathcal{O}(n)$ many samples. Being non-concentrated is a strong requirement on the property, as we also prove a close to linear lower bound against their tolerant tests. To provide evidence for other general cases (where the properties are not necessarily label-invariant), we show that if an input distribution is very concentrated, in the sense that it is mostly supported on a subset of size $s$ of the universe, then it can be learned using only $\mathcal{O}(s)$ many samples. The learning procedure adapts to the input, and works without knowing $s$ in advance.


翻译:分布测试框架目前无处不在 属性测试领域 { 。 在这个模型中, 输入是一个可以通过独立提取的样本获取的概率分布 。 测试的任务是将满足某些属性的分布与远不能满足该属性的分布区别开来 $\ ell_ 1美元距离。 宽容测试的任务进一步施加了限制, 分配接近于满足属性的分布也被接受 。 这项工作侧重于不宽容( “ 传统” ) 的分布测试及其宽容测试的样本复杂性的连接 。 当将我们的范围限制在分配的标签- 变量( 符号) 属性属性的特性时, 我们只能通过独立提取的样本( 符号) 。 相反, 统一分布的属性确实存在几乎不满足该属性的距离 。 当移动到普通时, 情况会更加复杂。 我们显示, 如果某个属性需要使用不宽容的分布, 则无法用美元( ) ( 符号值) 的( ) 直径( ) 直径( ) 值) 来进行不宽容的测试, 直径( 值) 值) 和 最接近的样本的颜色的特性的特性的大小( 。 显示 美元 。

0
下载
关闭预览

相关内容

「因果发现和因果推理」简明介绍,37页ppt
专知会员服务
114+阅读 · 2021年4月5日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
71+阅读 · 2020年8月2日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
107+阅读 · 2020年5月3日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
已删除
将门创投
4+阅读 · 2018年11月15日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
0+阅读 · 2021年12月13日
Arxiv
0+阅读 · 2021年12月9日
Arxiv
0+阅读 · 2021年12月7日
Arxiv
0+阅读 · 2021年12月6日
Arxiv
0+阅读 · 2021年12月6日
Arxiv
0+阅读 · 2021年12月4日
VIP会员
相关资讯
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
已删除
将门创投
4+阅读 · 2018年11月15日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Top
微信扫码咨询专知VIP会员