前言
随着互联网和移动通信技术的快速发展和普及应用,文本数据挖掘技术备受关注,尤其随着云计算、大数据和深度学习等一系列新技术的广泛使用,文本挖掘技术已经在众多领域(如舆情分析、医疗和金融数据分析等)发挥了重要作用,表现出广阔的应用前景。
虽然十多年前我就指导博士生开展文本分类和自动文摘等相关技术的研究,但对文本数据挖掘的整体概念并没有一个清晰的认识,只是将研究的单项技术视为自然语言处理的具体应用。韩家炜教授主笔的《数据挖掘 ——概念与技术》和刘兵教授撰写的“Web Data Mining”等专著曾让我大获裨益,每次聆听他们的学术报告和与他们当面交谈也都受益匪浅。促使我萌生撰写这部专著念头的是中国科学院大学让我开设的“文本数据挖掘”课程。2015年底我接受中国科学院大学计算机与控制学院的邀请,开始准备“文本数据挖掘”课程的内容设计和课件编写工作,我不得不静下心来查阅大量的文献资料,认真思考这一术语所蕴藏的丰富内涵和外延,经过几年的学习、思考和教学实践,文本数据挖掘的概念轮廓渐渐清晰起来。
夏睿和张家俊两位青年才俊的加盟让我萌生的写作计划得以实现。夏睿于 2007年硕士毕业,以优异成绩考入中科院自动化所跟随我攻读博士学位,从事情感文本分析研究,在情感分析和观点挖掘领域以第一作者身份在国际一流学术期刊和会议上发表了一系列有影响力的论文。此外,他在文本分类与聚类、主题模型、话题检测与跟踪等多个领域都颇有见地。张家俊于 2006年本科毕业后被免试推荐到中科院自动化所跟随我攻读博士学位,主要从事机器翻译研究,之后在多语言自动摘要、信息获取和人机对话等多个研究方向都有出色的表现。自 2016年起他同我一道在中国科学院大学讲授“自然语言处理”课程的机器翻译、自动文摘和文本分类等部分内容,颇受学生的欢迎。仰仗两位弟子扎实的理论功底和敏锐的科研悟性,很多最新的技术方法和研究成果能够得到及时的验证和实践,并被收入本书,使我倍感欣慰。
从2016年初到2019年6月这本书的中文版出版,历时三年多。在这三年里,我们大部分的假期、周末和其他业余时间都用来写这本书了。所花费的时间和精力及其感受到的快乐和烦恼难以言表,正所谓“痛并快乐着”。我们在2019年下半年开始将中文版翻译成英文。一些最近的主题,包括BERT(来自转换器的双向编码器表示),已经添加到英文版本中。文本数据挖掘作为自然语言处理和机器学习的交叉领域,面临着这两个领域的双重挑战,在互联网和移动通信设备上有着广泛的应用。本书中提出的主题和技术都是开发这种实用系统所需的技术基础,并在近年来引起了很大的注意。希望本书能对相关领域的学生、教授和研究人员提供一个全面的了解。但是,我必须承认,由于作者的能力和知识的广度的限制,以及时间和精力的缺乏,书中肯定会有一些遗漏或错误。我们将非常感谢读者提供批评、纠正和任何建议。
宗成庆
2020年5月20日 北京
地址:
https://link.springer.com/book/10.1007/978-981-16-0100-2
内容简介
本书阐述文本数据挖掘的理论模型、实现算法和相关应用,主要内容包括:信息抽取和知识库构建、文本聚类、情感文本分析、热点发现、生物医学文本挖掘和多文档自动摘要等。写作风格力求言简意赅,深入浅出,通过实例说明实现相关任务的理论方法和技术思路,而不过多地涉及实现细节。这本书讨论了文本数据挖掘的各个方面。与其他专注于机器学习或数据库的书籍不同,它从自然语言处理(NLP)的角度进行文本数据挖掘。本书详细介绍了文本数据挖掘的基本理论和方法,从预处理(中英文文本)、文本表示和特征选择,到文本分类和文本聚类。文中还介绍了文本数据挖掘的主要应用,如主题建模、情感分析和意见挖掘、主题检测和跟踪、信息提取和自动文本摘要等。它将所有相关的概念和算法结合在一起,提供了一个全面、权威和连贯的概述。本书可作为大学高年级本科生或研究生从事相关研究的入门文献,也可作为从事相关技术研发的开发人员的参考资料。
作者简介
宗成庆,中国科学院自动化研究所研究员、博士生导师,中国科学院大学岗位教授。主要从事自然语言处理、机器翻译、人机对话系统和文本数据挖掘等相关研究,主持国家项目10余项,现任国家重点研发计划重点专项首席科学家,发表论文200余篇,出版《统计自然语言处理》和《文本数据挖掘》等多部专著和译著。2013年当选国际计算语言学委员会(ICCL)委员,现任亚洲自然语言处理学会(AFNLP)主席、中国中文信息学会副理事长。他是学术期刊ACM TALLIP副主编、《自动化学报》副主编和IEEE Intelligent Systems编委等,曾任国际一流学术会议ACL-IJCNLP'2015 和 COLING'2020 程序委员会主席,4次担任 AAAI 和 IJCAI 领域主席。曾获国家科技进步奖二等奖、中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖、新疆维吾尔自治区科技进步奖二等奖等。荣获北京市优秀教师、中国科学院优秀导师和宝钢优秀教师等荣誉称号。享受国务院政府特殊津贴。
夏睿,南京理工大学教授,他在自然语言处理和文本数据挖掘领域的高质量期刊和顶级会议上发表了50多篇论文。他担任多个顶级会议的区域主席和高级项目委员会成员,如EMNLP, COLING, IJCAI, AAAI。他于2020年获得了ACL 2019优秀论文奖、江苏省自然科学基金杰出青年学者奖。
张家俊,中国科学院自动化研究所模式识别国家重点实验室研究员、博士生导师,智源青年科学家,研究方向为机器翻译和自然语言处理等。