【实用书】文本分析:非结构信息分析,259页pdf

2022 年 7 月 5 日 专知


文本分析:非结构化信息分析的科学和应用介绍是对文本分析(或文本挖掘)的科学和应用简明易懂的介绍,它使工业和学术目的从非结构化信息源自动发现知识。这本书介绍了主要的概念,模型,和使读者能够解决从文本和/或文献来源产生的真正的决策问题的计算技术。


本书共九章,每一章包含两个部分:(1)绪论部分,讲授主要概念、范式和方法、模型;(2)第二部分展示了关于本章学习的所有内容的Python实用练习。另一方面,为了读者的熟悉和补充文献,每一章将以国际上使用的基本术语结束。


第一章: 文本分析,本章介绍非结构化信息(即文本)自动分析的主要概念、方法和应用,即文本分析。此外,本文还描述了文本分析的过程、任务和主要挑战。


第二章: 自然语言处理,本章介绍使计算机处理自然语言成为可能的基本概念和计算和语言技术。此外,主要技术和方法,他们处理不同的问题与语言处理人类写的文本(即,形态分析,句法分析,语义分析,话语分析)。


第三章:信息提取。本章介绍了从文档主体中识别和提取特定信息的概念和方法,使用了自然语言处理技术(关系提取、命名实体识别)。此外,主要问题以及如何解决这些问题,以支持文本分析的任务也被描述。 


第四章:文档表示。本章介绍不同的概念、方法和模型,以文档的形式计算表征和表示文本信息,以便在文本分析任务中使用它们。介绍了基于索引方法和文档空间模型向量的典型方法(词频模型、逆文档频模型)。 


第五章:关联规则挖掘。本章以关联规则的形式介绍了与从文档中提取模式相关的主要概念、方法和问题。描述了评价所发现模式质量的主要方法和指标(APRIORI算法)。 


第六章:基于语料库的语义分析。本章探讨了不同技术和模型的基本原理,使读者能够研究和建模单词和文档的含义。为此,本文描述了自动生成低维分布式表示或单词嵌入(即LSA, Word2Vec)的不同方法,这些方法允许人们从训练语料库中有效地捕获上下文中单词和文档的含义。


第七章:文档聚类。本章描述执行文档聚类的计算概念和方法。引入现代分组原则、指标和算法(即K- means、自组织映射)来发现文档语料库中的隐藏模式。


第八章:主题建模。 本章介绍了根据文档中的潜在主题对文档进行分组的主要概念和方法。讨论了基于概率模型(pLSA、LDA)的主题自动生成的主要方法。

第九章:文件分类。 本章描述执行自动文本分类的主要概念、模型和技术。描述了不同的概率和随机方法来预测来自训练语料库的文档所属类别(即Naïve贝叶斯分类器,最大熵分类器)。


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“T259” 就可以获取【实用书】文本分析:非结构信息分析,259页pdf》专知下载链接

                       
专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取100000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取100000+AI主题知识资料
登录查看更多
2

相关内容

【干货书】大规模文本数据的结构化知识挖掘,200页pdf
专知会员服务
69+阅读 · 2022年8月20日
【干货书】神经信息检索,50页pdf
专知会员服务
24+阅读 · 2022年7月29日
【实用书】数据科学和机器学习:数学和统计方法,533页pdf
算法分析导论, 593页pdf
专知会员服务
148+阅读 · 2021年8月30日
专知会员服务
127+阅读 · 2021年6月18日
自然语言处理现代方法,176页pdf
专知会员服务
267+阅读 · 2021年2月22日
【综述】关键词生成,附10页pdf论文下载
专知会员服务
52+阅读 · 2019年11月20日
【干货书】神经信息检索,50页pdf
专知
1+阅读 · 2022年7月29日
421页《机器学习数学基础》最新2019版PDF下载
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
14+阅读 · 2019年11月26日
Arxiv
35+阅读 · 2019年11月7日
Arxiv
15+阅读 · 2019年9月11日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
14+阅读 · 2018年5月15日
VIP会员
相关VIP内容
【干货书】大规模文本数据的结构化知识挖掘,200页pdf
专知会员服务
69+阅读 · 2022年8月20日
【干货书】神经信息检索,50页pdf
专知会员服务
24+阅读 · 2022年7月29日
【实用书】数据科学和机器学习:数学和统计方法,533页pdf
算法分析导论, 593页pdf
专知会员服务
148+阅读 · 2021年8月30日
专知会员服务
127+阅读 · 2021年6月18日
自然语言处理现代方法,176页pdf
专知会员服务
267+阅读 · 2021年2月22日
【综述】关键词生成,附10页pdf论文下载
专知会员服务
52+阅读 · 2019年11月20日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
Arxiv
14+阅读 · 2019年11月26日
Arxiv
35+阅读 · 2019年11月7日
Arxiv
15+阅读 · 2019年9月11日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
14+阅读 · 2018年5月15日
Top
微信扫码咨询专知VIP会员