文本分析:非结构化信息分析的科学和应用介绍是对文本分析(或文本挖掘)的科学和应用简明易懂的介绍,它使工业和学术目的从非结构化信息源自动发现知识。这本书介绍了主要的概念,模型,和使读者能够解决从文本和/或文献来源产生的真正的决策问题的计算技术。

本书共九章,每一章包含两个部分:(1)绪论部分,讲授主要概念、范式和方法、模型;(2)第二部分展示了关于本章学习的所有内容的Python实用练习。另一方面,为了读者的熟悉和补充文献,每一章将以国际上使用的基本术语结束。

第一章: 文本分析,本章介绍非结构化信息(即文本)自动分析的主要概念、方法和应用,即文本分析。此外,本文还描述了文本分析的过程、任务和主要挑战。

第二章: 自然语言处理,本章介绍使计算机处理自然语言成为可能的基本概念和计算和语言技术。此外,主要技术和方法,他们处理不同的问题与语言处理人类写的文本(即,形态分析,句法分析,语义分析,话语分析)。

第三章:信息提取。本章介绍了从文档主体中识别和提取特定信息的概念和方法,使用了自然语言处理技术(关系提取、命名实体识别)。此外,主要问题以及如何解决这些问题,以支持文本分析的任务也被描述。

第四章:文档表示。本章介绍不同的概念、方法和模型,以文档的形式计算表征和表示文本信息,以便在文本分析任务中使用它们。介绍了基于索引方法和文档空间模型向量的典型方法(词频模型、逆文档频模型)。

第五章:关联规则挖掘。本章以关联规则的形式介绍了与从文档中提取模式相关的主要概念、方法和问题。描述了评价所发现模式质量的主要方法和指标(APRIORI算法)。

第六章:基于语料库的语义分析。本章探讨了不同技术和模型的基本原理,使读者能够研究和建模单词和文档的含义。为此,本文描述了自动生成低维分布式表示或单词嵌入(即LSA, Word2Vec)的不同方法,这些方法允许人们从训练语料库中有效地捕获上下文中单词和文档的含义。

第七章:文档聚类。本章描述执行文档聚类的计算概念和方法。引入现代分组原则、指标和算法(即K- means、自组织映射)来发现文档语料库中的隐藏模式。

**第八章:主题建模。**本章介绍了根据文档中的潜在主题对文档进行分组的主要概念和方法。讨论了基于概率模型(pLSA、LDA)的主题自动生成的主要方法。 **第九章:文件分类。**本章描述执行自动文本分类的主要概念、模型和技术。描述了不同的概率和随机方法来预测来自训练语料库的文档所属类别(即Naïve贝叶斯分类器,最大熵分类器)。

成为VIP会员查看完整内容
100

相关内容

文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。
【干货书】神经信息检索,50页pdf
专知会员服务
24+阅读 · 2022年7月29日
【实用书】数据科学和机器学习:数学和统计方法,533页pdf
【干货书】R语言探索性数据分析,218页pdf
专知会员服务
61+阅读 · 2021年9月14日
专知会员服务
122+阅读 · 2021年6月18日
【实用书】Python数据科学从零开始,330页pdf
专知会员服务
139+阅读 · 2020年5月19日
【干货书】R语言书: 编程和统计的第一课程,
专知会员服务
106+阅读 · 2020年5月9日
【干货书】神经信息检索,50页pdf
专知
1+阅读 · 2022年7月29日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
37+阅读 · 2019年8月18日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年8月23日
A Modern Introduction to Online Learning
Arxiv
19+阅读 · 2019年12月31日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
Arxiv
21+阅读 · 2018年8月30日
Arxiv
15+阅读 · 2018年2月4日
VIP会员
相关VIP内容
【干货书】神经信息检索,50页pdf
专知会员服务
24+阅读 · 2022年7月29日
【实用书】数据科学和机器学习:数学和统计方法,533页pdf
【干货书】R语言探索性数据分析,218页pdf
专知会员服务
61+阅读 · 2021年9月14日
专知会员服务
122+阅读 · 2021年6月18日
【实用书】Python数据科学从零开始,330页pdf
专知会员服务
139+阅读 · 2020年5月19日
【干货书】R语言书: 编程和统计的第一课程,
专知会员服务
106+阅读 · 2020年5月9日
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
相关论文
微信扫码咨询专知VIP会员