前言

  随着互联网和移动通信技术的快速发展和普及应用,文本数据挖掘技术备受关注,尤其随着云计算、大数据和深度学习等一系列新技术的广泛使用,文本挖掘技术已经在众多领域(如舆情分析、医疗和金融数据分析等)发挥了重要作用,表现出广阔的应用前景。

  虽然十多年前我就指导博士生开展文本分类和自动文摘等相关技术的研究,但对文本数据挖掘的整体概念并没有一个清晰的认识,只是将研究的单项技术视为自然语言处理的具体应用。韩家炜教授主笔的《数据挖掘 ——概念与技术》和刘兵教授撰写的“Web Data Mining”等专著曾让我大获裨益,每次聆听他们的学术报告和与他们当面交谈也都受益匪浅。促使我萌生撰写这部专著念头的是中国科学院大学让我开设的“文本数据挖掘”课程。2015年底我接受中国科学院大学计算机与控制学院的邀请,开始准备“文本数据挖掘”课程的内容设计和课件编写工作,我不得不静下心来查阅大量的文献资料,认真思考这一术语所蕴藏的丰富内涵和外延,经过几年的学习、思考和教学实践,文本数据挖掘的概念轮廓渐渐清晰起来。

  夏睿和张家俊两位青年才俊的加盟让我萌生的写作计划得以实现。夏睿于 2007年硕士毕业,以优异成绩考入中科院自动化所跟随我攻读博士学位,从事情感文本分析研究,在情感分析和观点挖掘领域以第一作者身份在国际一流学术期刊和会议上发表了一系列有影响力的论文。此外,他在文本分类与聚类、主题模型、话题检测与跟踪等多个领域都颇有见地。张家俊于 2006年本科毕业后被免试推荐到中科院自动化所跟随我攻读博士学位,主要从事机器翻译研究,之后在多语言自动摘要、信息获取和人机对话等多个研究方向都有出色的表现。自 2016年起他同我一道在中国科学院大学讲授“自然语言处理”课程的机器翻译、自动文摘和文本分类等部分内容,颇受学生的欢迎。仰仗两位弟子扎实的理论功底和敏锐的科研悟性,很多最新的技术方法和研究成果能够得到及时的验证和实践,并被收入本书,使我倍感欣慰。

从2016年初到2019年6月这本书的中文版出版,历时三年多。在这三年里,我们大部分的假期、周末和其他业余时间都用来写这本书了。所花费的时间和精力及其感受到的快乐和烦恼难以言表,正所谓“痛并快乐着”。我们在2019年下半年开始将中文版翻译成英文。一些最近的主题,包括BERT(来自转换器的双向编码器表示),已经添加到英文版本中。文本数据挖掘作为自然语言处理和机器学习的交叉领域,面临着这两个领域的双重挑战,在互联网和移动通信设备上有着广泛的应用。本书中提出的主题和技术都是开发这种实用系统所需的技术基础,并在近年来引起了很大的注意。希望本书能对相关领域的学生、教授和研究人员提供一个全面的了解。但是,我必须承认,由于作者的能力和知识的广度的限制,以及时间和精力的缺乏,书中肯定会有一些遗漏或错误。我们将非常感谢读者提供批评、纠正和任何建议。

宗成庆

2020年5月20日 北京

地址:

https://link.springer.com/book/10.1007/978-981-16-0100-2

内容简介

本书阐述文本数据挖掘的理论模型、实现算法和相关应用,主要内容包括:信息抽取和知识库构建、文本聚类、情感文本分析、热点发现、生物医学文本挖掘和多文档自动摘要等。写作风格力求言简意赅,深入浅出,通过实例说明实现相关任务的理论方法和技术思路,而不过多地涉及实现细节。这本书讨论了文本数据挖掘的各个方面。与其他专注于机器学习或数据库的书籍不同,它从自然语言处理(NLP)的角度进行文本数据挖掘。本书详细介绍了文本数据挖掘的基本理论和方法,从预处理(中英文文本)、文本表示和特征选择,到文本分类和文本聚类。文中还介绍了文本数据挖掘的主要应用,如主题建模、情感分析和意见挖掘、主题检测和跟踪、信息提取和自动文本摘要等。它将所有相关的概念和算法结合在一起,提供了一个全面、权威和连贯的概述。本书可作为大学高年级本科生或研究生从事相关研究的入门文献,也可作为从事相关技术研发的开发人员的参考资料。

作者简介

  宗成庆,中国科学院自动化研究所研究员、博士生导师,中国科学院大学岗位教授。主要从事自然语言处理、机器翻译、人机对话系统和文本数据挖掘等相关研究,主持国家项目10余项,现任国家重点研发计划重点专项首席科学家,发表论文200余篇,出版《统计自然语言处理》和《文本数据挖掘》等多部专著和译著。2013年当选国际计算语言学委员会(ICCL)委员,现任亚洲自然语言处理学会(AFNLP)主席、中国中文信息学会副理事长。他是学术期刊ACM TALLIP副主编、《自动化学报》副主编和IEEE Intelligent Systems编委等,曾任国际一流学术会议ACL-IJCNLP'2015 和 COLING'2020 程序委员会主席,4次担任 AAAI 和 IJCAI 领域主席。曾获国家科技进步奖二等奖、中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖、新疆维吾尔自治区科技进步奖二等奖等。荣获北京市优秀教师、中国科学院优秀导师和宝钢优秀教师等荣誉称号。享受国务院政府特殊津贴。

夏睿,南京理工大学教授,他在自然语言处理和文本数据挖掘领域的高质量期刊和顶级会议上发表了50多篇论文。他担任多个顶级会议的区域主席和高级项目委员会成员,如EMNLP, COLING, IJCAI, AAAI。他于2020年获得了ACL 2019优秀论文奖、江苏省自然科学基金杰出青年学者奖。

张家俊,中国科学院自动化研究所模式识别国家重点实验室研究员、博士生导师,智源青年科学家,研究方向为机器翻译和自然语言处理等。

成为VIP会员查看完整内容
0
78

相关内容

文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术。

近几年,神经网络因其强大的表征能力逐渐取代传统的机器学习成为自然语言处理任务的基本模型。然而经典的神经网络模型只能处理欧氏空间中的数据,自然语言处理领域中,篇章结构,句法甚至句子本身都以图数据的形式存在。因此,图神经网络引起学界广泛关注,并在自然语言处理的多个领域成功应用。该文对图神经网络在自然语言处理领域中的应用进行了系统性的综述, 首先介绍了图神经网络的核心思想并梳理了三种经典方法: 图循环网络,图卷积网络和图注意力网络;然后在具体任务中,详细描述了如何根据任务特性构建合适的图结构以及如何合理运用图结构表示模型。该文认为,相比专注于探索图神经网络的不同结构,探索如何以图的方式建模不同任务中的关键信息,是图神经网络未来工作中更具普遍性和学术价值的一个研究方向。

http://jcip.cipsc.org.cn/CN/abstract/abstract3096.shtml

成为VIP会员查看完整内容
0
66

这本书调研了大约20世纪90年代末机器学习的许多重要课题。我的意图是在理论和实践之间寻求一个中间桥梁带。笔记集中在机器学习的重要思想上——它既不是一本实践手册,也不是一个理论证明的概要。我的目标是为读者提供充分的准备,使一些关于机器学习的广泛文献易于理解。草稿只有200多页(包括扉页)。

这本书集中在机器学习的重要思想上。对于我所陈述的许多定理,我并没有给出证明,但对于形式的证明,我确实给出了可信的论据和引用。而且,我没有讨论许多在应用中具有实际重要性的问题;这本书不是机器学习实践手册。相反,我的目标是为读者提供充分的准备,使大量关于机器学习的文献易于理解。

学习,就像智力一样,涵盖了如此广泛的过程,很难精确定义。词典的定义包括这样的短语:“通过学习、指导或经验获得知识、或理解、或技能”和“通过经验改变行为倾向”。动物学家和心理学家研究动物和人类的学习。在这本书中,我们关注的是机器学习。动物和机器学习之间有一些相似之处。当然,机器学习的许多技术都来自心理学家的努力,他们通过计算模型使动物和人类学习的理论更加精确。机器学习研究人员正在探索的概念和技术似乎也可能阐明生物学习的某些方面。

成为VIP会员查看完整内容
0
29

自然语言理解是人工智能的一个重要分支,主要研究如何利用电脑来理解和生成自然语言。本书重点介绍了自然语言理解所涉及的各个方面,包括语法分析、语义分析、概念分析、语料库语言学、词汇语义驱动、中间语言、WordNet、词汇树邻接文法、链接文法、基于语段的机器翻译方法、内识别与文本过滤、机器翻译的评测等,既有对基础知识的介绍,又有对新研究进展的综述,同时还结合了作者(JamesPustejovsky,生成词库理论的创始人)多年的研究成果。本书内容全面、详略得当,结合实例讲解,使读者更易理解。

编辑推荐

《面向机器学习的自然语言标注》内容全面、详略得当,结合实例讲解,使读者更易理解。自然语言理解是人工智能的一个重要分支,主要研究如何利用计算机来理解和生成自然语言。

名人推荐

“语言标注是自然语言处理的一个关键部分,但是现有的计算语言学课程却少有涉及。本书是难得的一本从实践角度讨论自然语言标注,并且以服务于机器学习算法为目的来考察标注规格与设计的专著。它必将成为本科生和研究生计算语言学课程的一个标准。” ——Nancy Ide瓦萨学院计算机科学系教授

作者简介 James Pustejovsky教授是美国布兰代斯(Brandeis University)大学计算机科学系和Volen国家综合系统中心教授。先后在美国麻省理工学院和马萨诸塞大学获得学士学位和博士学位。 Pustejovsky教授主要从事自然语言的理论和计算研究。研究领域包括:计算语言学、词汇语义学、知识表征、话语语义学、时间推理和抽取等。已经出版多部专著。

成为VIP会员查看完整内容
0
28

计算机能有效地处理人类语言吗?如果这很难,为什么?如果这是可能的,怎么做?这本书向读者介绍计算语言学和自动自然语言处理的迷人科学,它结合了语言学和人工智能。这本书的主要部分致力于解释语言处理器的内部工作,语言处理器是一个软件模块,负责将自然语言输入翻译成传统人工智能应用程序直接可用的表示,反之亦然,负责将它们的答案翻译成人类语言。这本书的整体重点是精心阐述的,尽管——由于许多历史原因——在文献中被称为意义文本理论的计算语言学模型中迄今鲜为人知。为了便于比较,还详细考虑了其他模型和形式。这本书主要面向对西班牙语自然语言处理技术的应用感兴趣的研究人员和学生。特别地,书中给出的大多数例子都涉及西班牙语材料——这是本书区别于其他自然语言处理书籍的一个特点。然而,我们的主要阐述是足够普遍的,适用于广泛的语言。具体来说,考虑到这本书的许多读者将以西班牙语为母语。为他们提供了一些关于英语术语的评论,以及一本关于书中使用的技术术语的英-西班牙语简短词典。不过,阅读这本英文书会帮助说西班牙语的读者熟悉有关该主题的科学文献中使用的风格和术语。

https://www.gelbukh.com/clbook/

成为VIP会员查看完整内容
0
17

通过机器学习的实际操作指南深入挖掘数据

机器学习: 为开发人员和技术专业人员提供实践指导和全编码的工作示例,用于开发人员和技术专业人员使用的最常见的机器学习技术。这本书包含了每一个ML变体的详细分析,解释了它是如何工作的,以及如何在特定的行业中使用它,允许读者在阅读过程中将所介绍的技术融入到他们自己的工作中。机器学习的一个核心内容是对数据准备的强烈关注,对各种类型的学习算法的全面探索说明了适当的工具如何能够帮助任何开发人员从现有数据中提取信息和见解。这本书包括一个完整的补充教师的材料,以方便在课堂上使用,使这一资源有用的学生和作为一个专业的参考。

机器学习的核心是一种基于数学和算法的技术,它是历史数据挖掘和现代大数据科学的基础。对大数据的科学分析需要机器学习的工作知识,它根据从训练数据中获得的已知属性形成预测。机器学习是一个容易理解的,全面的指导,为非数学家,提供明确的指导,让读者:

  • 学习机器学习的语言,包括Hadoop、Mahout和Weka
  • 了解决策树、贝叶斯网络和人工神经网络
  • 实现关联规则、实时和批量学习
  • 为安全、有效和高效的机器学习制定战略计划

通过学习构建一个可以从数据中学习的系统,读者可以在各个行业中增加他们的效用。机器学习是深度数据分析和可视化的核心,随着企业发现隐藏在现有数据中的金矿,这一领域的需求越来越大。对于涉及数据科学的技术专业人员,机器学习:为开发人员和技术专业人员提供深入挖掘所需的技能和技术。

成为VIP会员查看完整内容
0
103
小贴士
相关资讯
中科院宗成庆谈文本数据挖掘
AI科技评论
4+阅读 · 2019年7月16日
哈工大韩纪庆教授《语音信号处理(第3版)》出版
NLP航海图:自然语言处理相关任务简介
AINLP
6+阅读 · 2019年3月7日
荐书丨深度学习核心技术与实践
程序人生
5+阅读 · 2018年3月16日
资源 |《解析卷积神经网络—深度学习实践手册》
黑龙江大学自然语言处理实验室
4+阅读 · 2017年12月21日
推荐几本学习自然语言处理相关的书籍
AINLP
3+阅读 · 2016年10月12日
相关论文
BEiT: BERT Pre-Training of Image Transformers
Hangbo Bao,Li Dong,Furu Wei
0+阅读 · 6月15日
Guillaume Boisseau,Paweł Sobociński
0+阅读 · 6月14日
Davin Choo,Tommaso d'Orsi
0+阅读 · 6月11日
Yang Sun,Junwei Pan,Alex Zhang,Aaron Flores
11+阅读 · 2月20日
Kristijonas Cyras,Ramamurthy Badrinath,Swarup Kumar Mohalik,Anusha Mujumdar,Alexandros Nikou,Alessandro Previti,Vaishnavi Sundararajan,Aneta Vulgarakis Feljan
12+阅读 · 2020年9月1日
Tutorial on NLP-Inspired Network Embedding
Boaz Shmueli
6+阅读 · 2019年10月16日
Self-Attention Graph Pooling
Junhyun Lee,Inyeop Lee,Jaewoo Kang
7+阅读 · 2019年6月13日
Attention, please! A Critical Review of Neural Attention Models in Natural Language Processing
Andrea Galassi,Marco Lippi,Paolo Torroni
18+阅读 · 2019年2月4日
João Oliveira,Mike Pinto,Pedro Saleiro,Jorge Teixeira
3+阅读 · 2018年1月23日
Jeremy Howard,Sebastian Ruder
4+阅读 · 2018年1月18日
Top