文本分析:非结构化信息分析的科学和应用介绍是对文本分析(或文本挖掘)的科学和应用简明易懂的介绍,它使工业和学术目的从非结构化信息源自动发现知识。这本书介绍了主要的概念,模型,和使读者能够解决从文本和/或文献来源产生的真正的决策问题的计算技术。
本书共九章,每一章包含两个部分:(1)绪论部分,讲授主要概念、范式和方法、模型;(2)第二部分展示了关于本章学习的所有内容的Python实用练习。另一方面,为了读者的熟悉和补充文献,每一章将以国际上使用的基本术语结束。
第一章: 文本分析,本章介绍非结构化信息(即文本)自动分析的主要概念、方法和应用,即文本分析。此外,本文还描述了文本分析的过程、任务和主要挑战。
第二章: 自然语言处理,本章介绍使计算机处理自然语言成为可能的基本概念和计算和语言技术。此外,主要技术和方法,他们处理不同的问题与语言处理人类写的文本(即,形态分析,句法分析,语义分析,话语分析)。
第三章:信息提取。本章介绍了从文档主体中识别和提取特定信息的概念和方法,使用了自然语言处理技术(关系提取、命名实体识别)。此外,主要问题以及如何解决这些问题,以支持文本分析的任务也被描述。
第四章:文档表示。本章介绍不同的概念、方法和模型,以文档的形式计算表征和表示文本信息,以便在文本分析任务中使用它们。介绍了基于索引方法和文档空间模型向量的典型方法(词频模型、逆文档频模型)。
第五章:关联规则挖掘。本章以关联规则的形式介绍了与从文档中提取模式相关的主要概念、方法和问题。描述了评价所发现模式质量的主要方法和指标(APRIORI算法)。
第六章:基于语料库的语义分析。本章探讨了不同技术和模型的基本原理,使读者能够研究和建模单词和文档的含义。为此,本文描述了自动生成低维分布式表示或单词嵌入(即LSA, Word2Vec)的不同方法,这些方法允许人们从训练语料库中有效地捕获上下文中单词和文档的含义。
第七章:文档聚类。本章描述执行文档聚类的计算概念和方法。引入现代分组原则、指标和算法(即K- means、自组织映射)来发现文档语料库中的隐藏模式。
**第八章:主题建模。**本章介绍了根据文档中的潜在主题对文档进行分组的主要概念和方法。讨论了基于概率模型(pLSA、LDA)的主题自动生成的主要方法。 **第九章:文件分类。**本章描述执行自动文本分类的主要概念、模型和技术。描述了不同的概率和随机方法来预测来自训练语料库的文档所属类别(即Naïve贝叶斯分类器,最大熵分类器)。