《文本数据管理与分析：信息检索与文本挖掘的实用导论》中文版出版

2019 年 8 月 8 日 哈工大SCIR

信息检索与数据挖掘领域世界知名学者、ACM Fellow、美国伊利诺伊大学香槟分校(UIUC) 翟成祥教授 厚积薄发之作《Text Data Management and Analysis: A Practical Introduction to Information Retrieval and Text Mining》中文版《文本数据管理与分析：信息检索与文本挖掘的实用导论》由机械工业出版社出版。

本书中文版由首都师范大学副教授宋巍、中国人民大学副教授赵鑫、北京外国语大学教师李璐旸和东北林业大学教师李洋作为主要译者，他们均曾就读于哈尔滨工业大学社会计算与信息检索研究中心。康奈尔大学博士后赵森栋博士以及哈尔滨工业大学社会计算与信息检索研究中心的博士生段俊文参与翻译部分章节，他们都曾访问伊利诺伊大学香槟分校得到翟成祥教授亲自指导。

翟成祥老师 很重视本书中文版出版，专门撰写了中文版序，介绍本书特点以及对国内学术和教育的意义和作用，并抽时间仔细审读了全书译稿，提出了宝贵的修改建议。

1. 内容简介

本书基于作者在UIUC数据管理与分析相关课程多年的积累，以文本数据处理为核心，从理论到实践介绍了文本数据管理与分析的关键问题，广泛涵盖了信息检索和文本数据挖掘领域的主要概念、技术和方法，并包括许多专门设计并辅以配套软件工具包的动手练习，来帮助读者学习如何运用文本挖掘和信息检索的技术来分析和处理现实世界中的文本数据，以及针对具体应用任务改进算法。

具体内容涵盖：

文本信息获取与挖掘基础：
统计与概率论、信息论等相关理论和基本的文本数据理解技术。
文本信息获取关键技术：
信息检索的模型、实现和评价，网络搜索以及推荐系统等。
文本挖掘关键技术：
文档分类，文档聚类，文本摘要，主题分析，观点挖掘与情感分析，文本与结构化数据联合分析等。
文本管理和分析系统：
整合信息检索与文本分析技术，结合配套软件工具META，构建统一的、人机结合的文本管理和分析系统。

主要特点包括：

内容深入浅出，理论实践密切结合，可作为高等院校计算机科学或相关专业本科生、研究生信息检索与文本挖掘课程的教材。
主题丰富，体系完整，逻辑清晰，便于与各种课程体系结合，可作为高等院校相关专业教师的参考书。
兼顾广度与深度，覆盖经典模型与方法并提供丰富的扩展阅读文献，可作为专业科研人员与工业界人士的参考书或技术手册。

2. 作者简介

翟成祥 （Chengxiang Zhai）教授是信息检索与数据挖掘领域世界知名学者，ACM会士、ACM杰出科学家，伊利诺伊大学香槟分校计算机科学系以及图书馆与信息科学研究生院、基因生物学研究所和统计系教授、Willet学者。研究兴趣包括信息检索、文本挖掘、自然语言处理、机器学习、生物医学与健康信息学以及智能教育信息系统。他已经在主流会议与期刊发表超过300篇研究论文，现在是《ACM Transactions on KnowledgeDiscovery from Data》副主编，并担任多个国际会议的程序委员会主席和大会主席。他荣获多项荣誉，包括ACM SIGIR 2004 最佳论文、ACM SIGIR 2014 时间考验奖、 Alfred P. Sloan研究奖金、IBM 教师奖、HP 创新研究项目奖、微软超越搜索研究奖以及美国青年科学家和工程师总统奖。

肖恩-马森 （Sean Massung）伊利诺伊大学香槟分校博士生。他是META的联合开发者并在其所有研究中使用META，并且是多门课程的指导者。研究兴趣包括信息检索、文本挖掘应用、自然语言处理和教育相关应用。

3. 译者简介

宋巍，博士，首都师范大学信息工程学院副教授，毕业于哈尔滨工业大学社会计算与信息检索研究中心。研究方向为自然语言处理与信息检索。在ACL，SIGIR，EMNLP等国际著名学术会议发表论文多篇。主持国家自然科学基金和北京市自然科学基金。曾获北京市高等教育教学成果奖二等奖。

赵鑫，博士，中国人民大学信息学院副教授，毕业于北京大学。研究方向为社交媒体数据挖掘和自然语言处理。近五年内在国内外著名学术期刊与会议上发表论文60余篇。所发表的学术论文取得了一定的关注度，据Google Scholar统计，已发表论文共计被引用2700余次。担任多个重要的国际会议或者期刊评审，入选第二届CCF青年人才发展计划。曾获得CIKM 2017最佳短文候选以及AIRS 2017最佳论文奖。

李璐旸 ，博士，北京外国语大学计算机系讲师，毕业于哈尔滨工业大学社会计算与信息检索研究中心。研究方向为自然语言处理与文本挖掘，具体包括虚假信息识别、矛盾检测及机器翻译等。在人工智能、自然语言处理等领域国际期刊及会议发表包括JCR一区期刊在内的论文多篇。

李洋，博士，东北林业大学讲师，硕士生导师，毕业于哈尔滨工业大学社会计算与信息检索研究中心，博士期间于新加坡管理大学进行访问研究。主要研究领域为自然语言处理与推荐系统，主持国家自然科学基金青年项目、黑龙江省科学基金面上项目等，在人工智能、自然语言处理等领域国际期刊和会议（如TIST、COLING等）上发表论文多篇。

赵森栋 ，博士，美国康奈尔大学博士后，毕业于哈尔滨工业大学社会计算与信息检索研究中心，博士期间曾在UIUC进行访问研究。主要研究方向为文本挖掘与因果推断。在AAAI、IJCAI、WSDM等CCF A、B类国际顶级会议和SCI国际期刊发表论文多篇。

段俊文 ，哈尔滨工业大学社会计算与信息检索研究中心在读博士生，曾在UIUC进行访问研究。主要研究方向为自然语言处理与基于文本的社会预测。在AAAI、EMNLP、COLING等CCF A、B类国际顶级会议和SCI国际期刊发表论文多篇。

4. 中文版序

目前，我们正处在一个以大数据与人工智能技术为核心的新的工业革命时代，其主要特征是大量各种可利用的数据可以视为一种特殊的生产资料，经过高效的智能数据分析与挖掘以及机器学习等人工智能技术处理后，这些数据可以产生巨大价值，创造智能。

大数据可以用两种方式创造智能。其一，大量的数据可以作为训练数据，让监督式机器学习方法特别是深度学习，发挥巨大潜力，从大量数据中学得智能，从而使智能机器能够大量代替人力来完成各种任务（此类智能系统可称为自主型智能系统）。例如，大量的可用于训练无人驾驶车的数据可以很自然地从人的驾驶过程中通过传感器获得，使机器可以自动驾驶车辆；又如，大量的客户服务记录数据，可以用来训练客户服务机器人，自动回答客户的问题。其二，大量的数据可以作为对我们生活的世界的感知和观察的结果的描述，用数据挖掘或非监督式机器学习方法对数据加以处理，获得关于被观察系统的各种有用知识，从而拓展人类的感知能力，增强人的智能（此类系统自身往往智能程度不高，可以称为助理型智能系统）。例如，大量电子病历数据可以用来构造一个医生或病人的辅助诊疗的智能助手系统；又如，大量金融数据、社交媒体数据以及新闻数据可以用来构造金融方面的决策支持系统。

比较两类基于大数据的智能系统，自主型智能系统能完成的任务不能太复杂（因机器需独立完成任务），且对数据的要求较高，需要有标注的数据，而获取极大量的高质量的标注数据在很多问题领域并不现实，所以这类应用目前只能在少量的特定应用领域起作用。而且，由于机器的智能主要来自于人工标注的数据，机器的智能不容易超越人的智能。相反，助理型智能系统由于不需要有标注的数据，任何数据都可以利用，所以在任何领域都可以起作用，有着非常广泛的应用。而且，有趣的是，尽管助理型智能系统本身的智能不高，甚至没有太多智能，但这样的系统一旦与人结合，人与系统相加以后的综合智能往往能大大超越人的智能。这种情形下，助理型智能系统的功能有与显微镜及望远镜的功能相似之处，即它们都可以拓展人对世界的感知能力，从而增强人的智能，特别是有助于在复杂应用领域优化决策。

作为一种特殊的大数据，文本数据泛指各种以自然语言形式存在的数据，包括万维网页、新闻报道、社交媒体、产品评论、科学文献、政府文件等；语音和视频数据，经语音识别后也能产生文本数据。文本数据有着极其广泛的应用。第一，文本数据可被视为人，作为一个富有智能的主观“传感器”所产生的数据，它可以与所有其它非文本数据相结合，共同支持助理型智能系统；又因为任何应用领域都会涉及相关的人群，人们会以各种形式产生可用的文本数据，所以文本数据在任何领域都会有应用价值。第二，由于人的主观性，文本数据富含关于人的观点、偏好以及需求等信息，所以特别有助于挖掘关于人的各种属性，使智能系统可以更好地理解用户，从而可以对每一个特定的用户进行优化服务（即个性化服务）。第三，由于文本数据是人们用自然语言交流和通信的产物，它的语义很丰富，相比非文本数据来说，文本数据更加直接地表达知识。从数据挖掘的角度看，更容易让计算机自动获取知识。然而，由于自然语言是为人类通信而设计的，需要有大量的常识及推理能力，才能准确理解，所以尽管自然语言理解研究已取得很大进展，计算机目前还不能全面理解不受限的自然语言的结构和语义，所以在所有文本数据的应用中，必须充分利用人的自然语言理解能力，让计算机成为一个智能助理。

《文本数据管理与分析》这本书从文本检索与挖掘的角度，比较全面和系统地介绍了利用文本数据支持助理型智能系统的各种应用技术。文本检索技术可用于构造各种搜索和推荐系统；这类系统可帮助用户快速定位到与当前任务最相关的文本数据，从而避免处理大量不必要处理的不相关数据。而文本分析与挖掘技术则可进一步对相关文本数据进行分析，帮助用户消化相关文本信息，将文本转化为可直接支持任务和决策的知识。这些技术可以有机地结合在一起支持交互式的智能文本检索与分析系统。书中介绍的文本检索与分析技术大多为不依赖具体自然语言的基于统计的通用技术，因而可适用于管理、处理与分析包括英语及汉语的任何自然语言文本数据及构造各种应用领域的应用系统。与书中内容相配的MeTA工具集，可帮助读者进一步理解如何实现书中算法和利用已有算法进行科研或开发应用软件。

目前，大数据及人工智能技术的研究与开发在中国正方兴未艾，机械工业出版社华章公司出版《文本数据管理与分析》一书的中文版，可谓时机甚佳。作为原书的一位作者，在此特别感谢华章公司姚蕾编辑对此书翻译的大力支持和协调，以及哈尔滨工业大学刘挺教授和他带领的翻译团队，包括宋巍、赵鑫、李璐旸、李洋、赵森栋及段俊文等的杰出翻译工作。希望此书能有助于许多中文读者学习掌握文本数据检索、分析与挖掘的当前技术，开发基于文本大数据的智能信息应用系统。

翟成祥

2019年3月2日

5. 《文本数据管理与分析： 信息检索与文本挖掘的实用导论》完整目录

中文版序

译者序

前言

作者简介

第一部分　概述和背景

第1章　绪论 2

　1.1　文本信息系统的功能 4

　1.2　文本信息系统的概念框架 5

　1.3　本书结构安排 7

　1.4　如何使用本书 8

　书目说明和延伸阅读 9

第2章　背景 11

　2.1　概率和统计基础 11

　　2.1.1　联合概率和条件概率 12

　　2.1.2　贝叶斯法则 13

　　2.1.3　抛硬币和二项分布 14

　　2.1.4　最大似然参数估计 14

　　2.1.5　贝叶斯参数估计 15

　　2.1.6　概率模型及其应用 16

　2.2　信息论 17

　2.3　机器学习 19

　书目说明和延伸阅读 20

　练习20

第3章　文本数据理解 22

　3.1　自然语言处理的历史和研究现状 23

　3.2　自然语言处理和文本信息系统 24

　3.3　文本表示 26

　3.4　统计语言模型 28

　书目说明和延伸阅读 31

　练习 31

第4章　META：一个面向文本数据管理和分析的统一工具箱 33

　4.1　设计原则 33

　4.2　设置META 34

　4.3　架构 34

　4.4　用META分词 35

　4.5　相关工具箱 37

　练习 38

第二部分　文本数据获取

第5章　文本数据获取概述 44

　5.1　获取模式：拉取与推送 44

　5.2　多模式互动获取 45

　5.3　文本检索 47

　5.4　文本检索与数据库检索 48

　5.5　文档选择与文档排序 49

　书目说明和延伸阅读 50

　练习 51

第6章　检索模型 52

　6.1　概述 52

　6.2　检索函数的一般形式 53

　6.3　向量空间检索模型 54

　　6.3.1　向量空间模型实例化 55

　　6.3.2　位向量表示的表现 56

　　6.3.3　改进的模型实例 57

　　6.3.4　TF变换 60

　　6.3.5　文档长度规范化 62

　　6.3.6　基本向量空间模型的进一步改进 64

　　6.3.7　小结 65

　6.4　概率检索模型 65

　　6.4.1　查询似然检索模型 67

　　6.4.2　文档语言模型的平滑 69

　　6.4.3　具体的平滑方法 72

　书目说明和延伸阅读 76

　练习 76

第7章　反馈 78

　7.1　向量空间模型中的反馈 79

　7.2　语言模型中的反馈 81

　书目说明和延伸阅读 84

　练习 84

第8章　搜索引擎实现 86

　8.1　分词器 86

　8.2　索引器 87

　8.3　打分器 90

　　8.3.1　逐个词项排序 90

　　8.3.2　逐个文档排序 90

　　8.3.3　过滤文档 91

　　8.3.4　索引分片 91

　8.4　反馈实现 92

　8.5　压缩 92

　　8.5.1　按位压缩 93

　　8.5.2　块压缩 94

　8.6　高速缓存 95

　　8.6.1　LRU缓存 95

　　8.6.2　DBLRU缓存 96

　书目说明和延伸阅读 96

　练习 97

第9章　搜索引擎评价 98

　9.1　引言 98

　　9.1.1　要度量什么 98

　　9.1.2　Cranfield评价方法 98

　9.2　集合检索的评价 100

　　9.2.1　准确率和召回率 100

　　9.2.2　F度量：准确率和召回率的结合 101

　9.3　有序列表的评价 102

　9.4　基于多级别判断标准的评价 106

　9.5　评价中的实际问题 107

　书目说明和延伸阅读 110

　练习 110

第10章　网络搜索 112

　10.1　网络爬虫 113

　10.2　网页索引 113

　10.3　链接分析 117

　　10.3.1　PageRank算法 118

　　10.3.2　HITS算法 121

　10.4　排序学习 122

　10.5　网络搜索的未来 125

　书目说明和延伸阅读 127

　练习 127

第11章　推荐系统 130

　11.1　基于内容的推荐 131

　11.2　协同过滤 134

　11.3　推荐系统的评价 137

　书目说明和延伸阅读 138

　练习 138

第三部分　文本数据分析

第12章　文本数据分析概述 142

　12.1　动机：文本数据分析的应用 142

　12.2　文本与非文本数据：人类作为主观传感器 143

　12.3　文本挖掘任务概览 145

第13章　词关联挖掘 148

　13.1　词关联挖掘的基本思想 149

　13.2　聚合关系的发现 150

　13.3　组合关系的发现 153

　13.4　词关联挖掘的评价 159

　书目说明和延伸阅读 160

　练习 160

第14章　文本聚类 162

　14.1　聚类技术概述 163

　14.2　文档聚类 164

　　14.2.1　凝聚层次聚类法 165

　　14.2.2　K-均值 165

　14.3　词项聚类 167

　　14.3.1　语义关联的词语 167

　　14.3.2　点互信息 169

　　14.3.3　先进方法 169

　14.4　文本聚类的评价 172

　书目说明和延伸阅读 173

　练习 173

第15章　文本分类 175

　15.1　引言 175

　15.2　文本分类方法概述 176

　15.3　文本分类问题 177

　15.4　文本分类的特征 177

　15.5　分类算法 179

　　15.5.1　k-近邻 180

　　15.5.2　朴素贝叶斯 181

　　15.5.3　线性分类器 182

　15.6　文本分类的评价 183

　书目说明和延伸阅读 184

　练习 184

第16章　文本摘要 185

　16.1　文本摘要技术概述 185

　16.2　抽取式文本摘要 186

　16.3　抽象式文本摘要 187

　16.4　文本摘要的评价 189

　16.5　文本摘要的应用 189

　书目说明和延伸阅读 190

　练习 190

第17章　主题分析 192

　17.1　用词项表示的主题 193

　17.2　用单词分布表示的主题 196

　17.3　挖掘文本中的一个主题 198

　　17.3.1　最简单的主题模型：一元语言模型 199

　　17.3.2　添加背景语言模型 201

　　17.3.3　混合模型的参数估计 205

　　17.3.4　混合模型的行为 206

　　17.3.5　期望最大化 209

　17.4　概率潜在语义分析 214

　17.5　PLSA的扩展及潜在狄利克雷分布 220

　17.6　主题分析的评价 223

　17.7　主题模型的总结 224

　书目说明和延伸阅读 224

　练习 225

第18章　观点挖掘与情感分析 226

　18.1　情感分类 228

　18.2　有序回归 230

　18.3　潜在方面评分分析 232

　18.4　观点挖掘与情感分析的评价 238

　书目说明和延伸阅读 238

　练习 238

第19章　文本与结构化数据的联合分析 240

　19.1　引言 240

　19.2　上下文文本挖掘 242

　19.3　上下文概率潜在语义分析 244

　19.4　以社交网络作为上下文的主题分析 249

　19.5　以时间序列作为上下文的主题分析 252

　19.6　小结 256

　书目说明和延伸阅读 256

　练习 257

第四部分　统一的文本数据管理和分析系统

第20章　面向一个统一的文本管理和分析系统 260

　20.1　文本分析操作 262

　20.2　系统架构 264

　20.3　META作为一个统一系统 265

附录A　贝叶斯统计 266

附录B　期望最大化 271

附录C　KL-散度和狄利克雷先验平滑 275

参考文献 277

索引 287

京东链接：https://item.jd.com/12591034.html

（点击文末“阅读原文”即可访问京东购买页面）

本期责任编辑：崔一鸣

本期编辑：赖勇魁

“哈工大SCIR”公众号

主编：车万翔

副主编：张伟男，丁效

执行编辑：李家琦

责任编辑：张伟男，丁效，崔一鸣，李忠阳

编辑：赖勇魁，王若珂，李照鹏，冯梓娴，顾宇轩

长按下图并点击 “识别图中二维码”，即可关注哈尔滨工业大学社会计算与信息检索研究中心微信公众号：”哈工大SCIR” 。

登录查看更多

相关内容

文本数据

关注 0

【干货书】《机器学习导论(第二版)》，348页pdf

专知会员服务

250+阅读 · 2020年6月16日

【干货书】Python统计学分析应用，285页pdf讲述在生命科学领域的应用

专知会员服务

142+阅读 · 2020年6月2日

【实用书】Python文本分析第二版，688页pdf带你入门自然语言处理

专知会员服务

162+阅读 · 2020年5月15日

【干货书】机器学习，408页pdf，开发人员和技术专业人员的动手实践手册

专知会员服务

219+阅读 · 2020年5月7日

【经典书】机器学习高斯过程，266页pdf

专知会员服务

235+阅读 · 2020年5月2日

【经典书】统计学习导论，434页pdf，斯坦福大学

专知会员服务

239+阅读 · 2020年4月29日

【电子书】大数据挖掘，Mining of Massive Datasets，附513页PDF

专知会员服务

105+阅读 · 2020年3月22日

中科大-人工智能方向专业课程2020《脑与认知科学导论》

专知会员服务

126+阅读 · 2020年3月4日

缺失数据统计分析，第三版，462页pdf

专知会员服务

110+阅读 · 2020年2月28日

为机器学习应用实践Scikit-Learn，数据科学基础与Python，247页pdf

专知会员服务

144+阅读 · 2019年12月1日

赠书福利 | 文本数据挖掘从入门到精通，你就差这本书了

AI科技评论

5+阅读 · 2019年6月21日

哈工大韩纪庆教授《语音信号处理（第3版）》出版

哈工大SCIR

16+阅读 · 2019年6月12日

本体：一文读懂领域本体构建

AINLP

40+阅读 · 2019年2月27日

资源 | 《自然语言处理综论》中文版 PDF 高清版

AI科技评论

104+阅读 · 2019年2月23日

如何完成一篇有效的英文写作

中科院物理所

7+阅读 · 2018年4月13日

干货 | 自然语言处理（5）之英文文本挖掘预处理流程

机器学习算法与Python学习

7+阅读 · 2018年4月5日

自然语言处理(4)之中文文本挖掘流程详解（小白入门必读）

机器学习算法与Python学习

5+阅读 · 2017年12月22日

关于数据挖掘，有几本书推荐给你......

图灵教育

16+阅读 · 2017年10月11日

学界 | 从文本挖掘综述分类、聚类和信息提取等算法

机器之心

7+阅读 · 2017年7月30日

推荐几本学习自然语言处理相关的书籍

AINLP

7+阅读 · 2016年10月12日

Teacher-Student Training for Robust Tacotron-based TTS

Arxiv

5+阅读 · 2019年11月7日

Story Realization: Expanding Plot Events into Sentences

Arxiv

3+阅读 · 2019年9月8日

Language Modeling with Deep Transformers

Arxiv

6+阅读 · 2019年7月11日

Building Knowledge Graphs About Political Agents in the Age of Misinformation

Arxiv

5+阅读 · 2019年1月29日

Harvesting Paragraph-Level Question-Answer Pairs from Wikipedia

Arxiv

3+阅读 · 2018年5月15日

ECO: Efficient Convolutional Network for Online Video Understanding

Arxiv

5+阅读 · 2018年5月7日

A Tidy Data Model for Natural Language Processing using cleanNLP

Arxiv

4+阅读 · 2018年5月3日

$ρ$-hot Lexicon Embedding-based Two-level LSTM for Sentiment Analysis

Arxiv

6+阅读 · 2018年3月21日

Single-Perspective Warps in Natural Image Stitching

Arxiv

4+阅读 · 2018年2月13日

Netizen-Style Commenting on Fashion Photos: Dataset and Diversity Measures

Arxiv

4+阅读 · 2018年1月31日

VIP会员