在计算语言学和概率领域,n-gram是来自给定文本或语音样本的n个项的连续序列。根据应用,可以是音素,音节,字母,单词。通常从文本或语音语料库中收集n-gram。n元语法模型是一种概率语言模型,用于以(n −1)阶马尔可夫模型的形式预测这种序列中的下一项。 n-gram模型现在广泛用于概率,交流理论,计算语言学(例如,统计自然语言处理),计算生物学(例如,生物序列分析)和数据压缩。 n元语法模型(以及使用它们的算法)的两个好处是简单性和可伸缩性,n较大时,模型可以存储更多上下文,并具有很好的时空权衡,使小型实验得以有效扩展。
Bert可以提取关键词了:KeyBERT的介绍与使用
深度学习自然语言处理
1+阅读 · 2021年2月20日
语言建模的发电厂——循环神经网络
论智
4+阅读 · 2018年9月28日
NLP中评价文本输出都有哪些方法?为什么要小心使用 BLEU?
人工智能前沿讲习班
1+阅读 · 2019年2月12日
参考链接
微信扫码咨询专知VIP会员