【实用书】文本分析：非结构信息分析，259页pdf

2022 年 7 月 5 日 专知

文本分析:非结构化信息分析的科学和应用介绍是对文本分析(或文本挖掘)的科学和应用简明易懂的介绍，它使工业和学术目的从非结构化信息源自动发现知识。这本书介绍了主要的概念，模型，和使读者能够解决从文本和/或文献来源产生的真正的决策问题的计算技术。

本书共九章，每一章包含两个部分:(1)绪论部分，讲授主要概念、范式和方法、模型;(2)第二部分展示了关于本章学习的所有内容的Python实用练习。另一方面，为了读者的熟悉和补充文献，每一章将以国际上使用的基本术语结束。

第一章: 文本分析，本章介绍非结构化信息(即文本)自动分析的主要概念、方法和应用，即文本分析。此外，本文还描述了文本分析的过程、任务和主要挑战。

第二章: 自然语言处理，本章介绍使计算机处理自然语言成为可能的基本概念和计算和语言技术。此外，主要技术和方法，他们处理不同的问题与语言处理人类写的文本(即，形态分析，句法分析，语义分析，话语分析)。

第三章:信息提取。本章介绍了从文档主体中识别和提取特定信息的概念和方法，使用了自然语言处理技术(关系提取、命名实体识别)。此外，主要问题以及如何解决这些问题，以支持文本分析的任务也被描述。

第四章:文档表示。本章介绍不同的概念、方法和模型，以文档的形式计算表征和表示文本信息，以便在文本分析任务中使用它们。介绍了基于索引方法和文档空间模型向量的典型方法(词频模型、逆文档频模型)。

第五章:关联规则挖掘。本章以关联规则的形式介绍了与从文档中提取模式相关的主要概念、方法和问题。描述了评价所发现模式质量的主要方法和指标(APRIORI算法)。

第六章:基于语料库的语义分析。本章探讨了不同技术和模型的基本原理，使读者能够研究和建模单词和文档的含义。为此，本文描述了自动生成低维分布式表示或单词嵌入(即LSA, Word2Vec)的不同方法，这些方法允许人们从训练语料库中有效地捕获上下文中单词和文档的含义。

第七章:文档聚类。本章描述执行文档聚类的计算概念和方法。引入现代分组原则、指标和算法(即K- means、自组织映射)来发现文档语料库中的隐藏模式。

第八章:主题建模。 本章介绍了根据文档中的潜在主题对文档进行分组的主要概念和方法。讨论了基于概率模型(pLSA、LDA)的主题自动生成的主要方法。

第九章:文件分类。 本章描述执行自动文本分类的主要概念、模型和技术。描述了不同的概率和随机方法来预测来自训练语料库的文档所属类别(即Naïve贝叶斯分类器，最大熵分类器)。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“T259” 就可以获取《【实用书】文本分析：非结构信息分析，259页pdf》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

相关内容

分析

关注 1

【实用书】数据科学和机器学习:数学和统计方法，533页pdf

专知会员服务

176+阅读 · 2022年5月28日

【干货书】机器学习文本分析: 从深度学习到Transformer，510页pdf

专知会员服务

122+阅读 · 2022年5月19日

算法分析导论, 593页pdf

专知会员服务

151+阅读 · 2021年8月30日

【干货书】Python自然语言处理，504页pdf

专知会员服务

132+阅读 · 2021年6月18日

慕尼黑大学LMU博士论文：自然语言文本神经网络信息提取，240页pdf

专知会员服务

74+阅读 · 2020年1月13日

【干货书】神经信息检索，50页pdf

专知

1+阅读 · 2022年7月29日

【实用书】数据科学和机器学习:数学和统计方法，533页pdf，Python手把手带你掌握机器学习

专知

20+阅读 · 2022年5月28日

【实用书】Python文本分析第二版，688页pdf带你入门自然语言处理

专知

25+阅读 · 2020年5月15日

NLP实战：用主题建模分析网购评论（附Python代码）

论智

18+阅读 · 2018年10月17日

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

深度学习与NLP

25+阅读 · 2018年8月22日

高维相关数据分析的关联结构研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于意象图式的多视角文本情景分析方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于上下文信息的社交网络图像分析与理解

国家自然科学基金

0+阅读 · 2013年12月31日

基于动作概念的本体知识库及在文本处理上的应用

国家自然科学基金

7+阅读 · 2012年12月31日

大型语义辞典的自动生成及在文本分析中的应用

国家自然科学基金

1+阅读 · 2012年12月31日

Computational Sarcasm Analysis on Social Media: A Systematic Review

Arxiv

0+阅读 · 2022年9月13日

Non-Parametric Temporal Adaptation for Social Media Topic Classification

Arxiv

0+阅读 · 2022年9月13日

A Survey on Edge Computing Systems and Tools

Arxiv

36+阅读 · 2019年11月7日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

15+阅读 · 2019年9月11日

Chinese NER Using Lattice LSTM

Arxiv

14+阅读 · 2018年5月15日

VIP会员