The brilliant method due to Good and Turing allows for estimating objects not occurring in a sample. The problem, known under names "sample coverage" or "missing mass" goes back to their cryptographic work during WWII, but over years has found has many applications, including language modeling, inference in ecology and estimation of distribution properties. This work characterizes the maximal mean-squared error of the Good-Turing estimator, for any sample \emph{and} alphabet size.


翻译:由 Good and Turing 带来的绝妙方法可以估算在样本中不会发生的对象。 以“ 抽样覆盖” 或“ 失色质量” 命名的问题可追溯到二战期间的加密工作, 但多年来发现有许多应用, 包括语言模型、 生态学推论 和分布属性估计。 这项工作是任何样本 \ emph{ 和} 字母大小的“ 良好试验测算器” 的最大平均差错的特征 。

0
下载
关闭预览

相关内容

【机器学习术语宝典】机器学习中英文术语表
专知会员服务
59+阅读 · 2020年7月12日
商业数据分析,39页ppt
专知会员服务
158+阅读 · 2020年6月2日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
90+阅读 · 2019年10月10日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
已删除
将门创投
5+阅读 · 2017年11月20日
统计语言模型
算法与数学之美
3+阅读 · 2017年10月28日
Arxiv
0+阅读 · 2021年6月4日
Physical Primitive Decomposition
Arxiv
4+阅读 · 2018年9月13日
VIP会员
相关VIP内容
相关资讯
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
已删除
将门创投
5+阅读 · 2017年11月20日
统计语言模型
算法与数学之美
3+阅读 · 2017年10月28日
Top
微信扫码咨询专知VIP会员