Approximating distributions from their samples is a canonical statistical-learning problem. One of its most powerful and successful modalities approximates every distribution to an $\ell_1$ distance essentially at most a constant times larger than its closest $t$-piece degree-$d$ polynomial, where $t\ge1$ and $d\ge0$. Letting $c_{t,d}$ denote the smallest such factor, clearly $c_{1,0}=1$, and it can be shown that $c_{t,d}\ge 2$ for all other $t$ and $d$. Yet current computationally efficient algorithms show only $c_{t,1}\le 2.25$ and the bound rises quickly to $c_{t,d}\le 3$ for $d\ge 9$. We derive a near-linear-time and essentially sample-optimal estimator that establishes $c_{t,d}=2$ for all $(t,d)\ne(1,0)$. Additionally, for many practical distributions, the lowest approximation distance is achieved by polynomials with vastly varying number of pieces. We provide a method that estimates this number near-optimally, hence helps approach the best possible approximation. Experiments combining the two techniques confirm improved performance over existing methodologies.
翻译:从样本中估计的分布是一个典型的统计学习问题。它最强大和最成功的模式之一,在最大一个不变的倍数上,基本上比最接近的美元-美元-美元-度-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元抽样的分布都接近于美元-美元-美元-美元-美元-1美元-美元-美元-美元-美元-美元-一个最强大和最成功的模式之一,其每一个分布都接近于美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元/美元-美元-美元-美元-美元-美元-美元-美元/美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元-美元/美元-美元-美元/美元-美元-美元-美元-美元/美元-美元-美元-美元-美元-美元-美元/美元-美元-美元-美元-美元-美元-美元-美元-美元-其最小/美元-美元-美元-美元/美元-美元-美元-美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元-一个最成功的计算-最成功-最成功/美元/美元/美元-最成功和-最成功的计算-最成功的计算-最成功的计算-最成功的计算-最成功的计算-最成功的计算-最成功的分配/美元/美元/美元/美元/美元/美元/美元/美元/美元-美元-美元-最成功的计算-最成功的计算-最成功的计算方法-----最主要-最主要--最成功的计算-最成功的计算-美元-美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元/美元-