Likelihood ratios (LRs), which are commonly used for probabilistic data processing, are often estimated based on the frequency counts of individual elements obtained from samples. In natural language processing, an element can be a continuous sequence of $N$ items, called an $N$-gram, in which each item is a word, letter, etc. In this paper, we attempt to estimate LRs based on $N$-gram frequency information. A naive estimation approach that uses only $N$-gram frequencies is sensitive to low-frequency (rare) $N$-grams and not applicable to zero-frequency (unobserved) $N$-grams; these are known as the low- and zero-frequency problems, respectively. To address these problems, we propose a method for decomposing $N$-grams into item units and then applying their frequencies along with the original $N$-gram frequencies. Our method can obtain the estimates of unobserved $N$-grams by using the unit frequencies. Although using only unit frequencies ignores dependencies between items, our method takes advantage of the fact that certain items often co-occur in practice and therefore maintains their dependencies by using the relevant $N$-gram frequencies. We also introduce a regularization to achieve robust estimation for rare $N$-grams. Our experimental results demonstrate that our method is effective at solving both problems and can effectively control dependencies.


翻译:在自然语言处理中,一个要素可以是连续的以美元为单位的项目序列,每个项目都称为美元,每个项目都是单词、字母等。在本文中,我们试图根据美元-克频率信息来估计以美元-克频率计算的单位成本。一种仅使用美元-克频率的天真的估计方法对低频(拉里)美元-克频率十分敏感,而不适用于零频(未观测)美元-克;在自然语言处理中,一个要素可以是连续的以美元为单位要素的美元-克项目序列;在自然语言处理中,一个要素可以是连续的以美元为单位要素,一个连续的序列,一个名为美元-克,称为美元-克,一个名为美元-克,一个名为美元-克,一个名为美元-克,一个名为美元-克,一个名为美元-克,一个名为美元-克,一个名为美元-克,一个名为美元-克,一个名为美元-克,一个名为美元-克,一个名为美元-克,一个名为美元-克,一个名为美元-克,一个名为美元-克,一个用于单位频率的单位频率的单位频率的频率,一个名为 " 数 " 数 " 数 " 数 " 数 " 的 " 方法 ",一个 " 的 ",一个称为 ",一个称为低频率-方,一个称为 ",一个名为 ",一个称为低频率 -- -- -- -- " 的 " 的 " 的 ",一个称为低频率,一个 ",一个称为低频率 -- -- -- -- -- --,一个称为低频率,一个 ",一个称为低频率,一个称为低频率,一个 ",一个称为 ",一个 " 或 " 零和零频率 -- -- -- 的 " 的 " 的 " 的 " 的 ",一个称为 " 或 ",一个 " 的 ",一个 " 的 ",一个 ",一个 " 方法,一个称为 " 或 " 方法,一个称为 " 问题,一个称为 " 方法,一个 ",一个 ",一个 " 的 " 的 " 方法,一个 ",一个 ",一个称为 " 或 ",一个 " 零频率 -- -- -- -- -- -- -- -- -- -- -- -- -- -- -- --

0
下载
关闭预览

相关内容

【杜克-Bhuwan Dhingra】语言模型即知识图谱,46页ppt
专知会员服务
67+阅读 · 2021年11月15日
最新《Transformers模型》教程,64页ppt
专知会员服务
313+阅读 · 2020年11月26日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
31+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
LibRec 精选:推荐的可解释性[综述]
LibRec智能推荐
10+阅读 · 2018年5月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Implicit Maximum Likelihood Estimation
Arxiv
7+阅读 · 2018年9月24日
Arxiv
3+阅读 · 2018年2月24日
VIP会员
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
LibRec 精选:推荐的可解释性[综述]
LibRec智能推荐
10+阅读 · 2018年5月4日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员