白话TF-IDF应用(一):自动提取关键词

2018 年 3 月 23 日 机器学习研究会


点击上方 “机器学习研究会”可以订阅哦
摘要
 
转自:机器学习算法与自然语言处理

有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?

这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通人只用10分钟就可以理解,这就是我今天想要介绍的TF-IDF算法。


让我们从一个实例开始讲起。假定现在有一篇长文《中国的蜜蜂养殖》,我们准备用计算机提取它的关键词。



原文链接:

https://mp.weixin.qq.com/s/xjSw7PbVrESo9u4otBOM1Q

“完整内容”请点击【阅读原文】
↓↓↓




登录查看更多
3

相关内容

TF-IDF(英语:term frequency–inverse document frequency)是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。tf-idf加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了tf-idf以外,互联网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜索结果中出现的顺序。
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
340+阅读 · 2020年3月17日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
356+阅读 · 2020年2月15日
【综述】关键词生成,附10页pdf论文下载
专知会员服务
52+阅读 · 2019年11月20日
 图像内容自动描述技术综述
专知会员服务
86+阅读 · 2019年11月17日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
18+阅读 · 2019年10月9日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
300页文本知识提取与推断最新教程
机器学习算法与Python学习
13+阅读 · 2018年8月28日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
实践 | 如何使用深度学习为照片自动生成文本描述?
七月在线实验室
10+阅读 · 2018年5月21日
【机器学习理论】我所理解的 SVM 2——核函数的应用
机器学习研究会
5+阅读 · 2018年3月17日
机器学习自动文本分类
AI前线
23+阅读 · 2018年2月4日
干货|当深度学习遇见自动文本摘要
全球人工智能
9+阅读 · 2017年7月26日
Arxiv
3+阅读 · 2019年3月1日
Paraphrase Generation with Deep Reinforcement Learning
Arxiv
6+阅读 · 2018年2月8日
Arxiv
13+阅读 · 2018年1月20日
VIP会员
相关VIP内容
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
340+阅读 · 2020年3月17日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
356+阅读 · 2020年2月15日
【综述】关键词生成,附10页pdf论文下载
专知会员服务
52+阅读 · 2019年11月20日
 图像内容自动描述技术综述
专知会员服务
86+阅读 · 2019年11月17日
计算机视觉最佳实践、代码示例和相关文档
专知会员服务
18+阅读 · 2019年10月9日
相关资讯
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
300页文本知识提取与推断最新教程
机器学习算法与Python学习
13+阅读 · 2018年8月28日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
实践 | 如何使用深度学习为照片自动生成文本描述?
七月在线实验室
10+阅读 · 2018年5月21日
【机器学习理论】我所理解的 SVM 2——核函数的应用
机器学习研究会
5+阅读 · 2018年3月17日
机器学习自动文本分类
AI前线
23+阅读 · 2018年2月4日
干货|当深度学习遇见自动文本摘要
全球人工智能
9+阅读 · 2017年7月26日
Top
微信扫码咨询专知VIP会员