文本分析:非结构化信息分析的科学和应用介绍是对文本分析(或文本挖掘)的科学和应用简明易懂的介绍,它使工业和学术目的从非结构化信息源自动发现知识。这本书介绍了主要的概念,模型,和使读者能够解决从文本和/或文献来源产生的真正的决策问题的计算技术。
本书共九章,每一章包含两个部分:(1)绪论部分,讲授主要概念、范式和方法、模型;(2)第二部分展示了关于本章学习的所有内容的Python实用练习。另一方面,为了读者的熟悉和补充文献,每一章将以国际上使用的基本术语结束。
第一章: 文本分析,本章介绍非结构化信息(即文本)自动分析的主要概念、方法和应用,即文本分析。此外,本文还描述了文本分析的过程、任务和主要挑战。
第二章: 自然语言处理,本章介绍使计算机处理自然语言成为可能的基本概念和计算和语言技术。此外,主要技术和方法,他们处理不同的问题与语言处理人类写的文本(即,形态分析,句法分析,语义分析,话语分析)。
第三章:信息提取。本章介绍了从文档主体中识别和提取特定信息的概念和方法,使用了自然语言处理技术(关系提取、命名实体识别)。此外,主要问题以及如何解决这些问题,以支持文本分析的任务也被描述。
第四章:文档表示。本章介绍不同的概念、方法和模型,以文档的形式计算表征和表示文本信息,以便在文本分析任务中使用它们。介绍了基于索引方法和文档空间模型向量的典型方法(词频模型、逆文档频模型)。
第五章:关联规则挖掘。本章以关联规则的形式介绍了与从文档中提取模式相关的主要概念、方法和问题。描述了评价所发现模式质量的主要方法和指标(APRIORI算法)。
第六章:基于语料库的语义分析。本章探讨了不同技术和模型的基本原理,使读者能够研究和建模单词和文档的含义。为此,本文描述了自动生成低维分布式表示或单词嵌入(即LSA, Word2Vec)的不同方法,这些方法允许人们从训练语料库中有效地捕获上下文中单词和文档的含义。
第七章:文档聚类。本章描述执行文档聚类的计算概念和方法。引入现代分组原则、指标和算法(即K- means、自组织映射)来发现文档语料库中的隐藏模式。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“T259” 就可以获取《【实用书】文本分析:非结构信息分析,259页pdf》专知下载链接