It is a common practice to evaluate probability density function or matter spatial density function from statistical samples. Kernel density estimation is a frequently used method, but to select an optimal bandwidth of kernel estimation, which is completely based on data samples, is a long-term issue that has not been well settled so far. There exist analytic formulae of optimal kernel bandwidth, but they cannot be applied directly to data samples, since they depend on the unknown underlying density functions from which the samples are drawn. In this work, we devise an approach to pick out the totally data-based optimal bandwidth. First, we derive correction formulae for the analytic formulae of optimal bandwidth to compute the roughness of the sample's density function. Then substitute the correction formulae into the analytic formulae for optimal bandwidth, and through iteration, we obtain the sample's optimal bandwidth. Compared with analytic formulae, our approach gives very good results, with relative differences from the analytic formulae being only 2%-3% for a sample size larger than 10^4. This approach can also be generalized easily to cases of variable kernel estimations.


翻译:从统计样本中评估概率密度函数或物质空间密度函数的常见做法是评估概率密度函数或物质空间密度函数。 内核密度估计是一种常用的方法, 但选择一个完全基于数据样本的最佳内核估计带宽是一个长期问题, 至今尚未很好地解决。 目前存在最佳内核带宽的分析公式, 但不能直接应用于数据样本, 因为它们取决于提取样本的未知的内在密度函数。 在这项工作中, 我们设计了一个方法来选择完全基于数据的最佳带宽。 首先, 我们为最佳带宽的分析公式提出校正公式, 以计算样本密度函数的粗度。 然后, 将校正公式替换为分析公式, 以优化带宽, 通过迭代, 我们获得样本的最佳带宽。 与分析公式相比, 我们的方法效果很好, 与分析公式相比, 分析公式的相对差异只有2%- 3%, 大于 10+4 4。 这个方法也可以很容易被广泛化为变量内核估计案例。

0
下载
关闭预览

相关内容

【图与几何深度学习】Graph and geometric deep learning,49页ppt
专知会员服务
50+阅读 · 2020年12月14日
【经典书】概率统计导论第五版,730页pdf
专知会员服务
237+阅读 · 2020年7月28日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
99+阅读 · 2020年3月9日
已删除
将门创投
3+阅读 · 2019年4月25日
Arxiv
0+阅读 · 2021年6月11日
Implicit Maximum Likelihood Estimation
Arxiv
7+阅读 · 2018年9月24日
Arxiv
4+阅读 · 2018年3月14日
VIP会员
相关资讯
已删除
将门创投
3+阅读 · 2019年4月25日
Top
微信扫码咨询专知VIP会员