信息检索与数据挖掘领域世界知名学者、ACM Fellow、美国伊利诺伊大学香槟分校(UIUC)
翟成祥教授
厚积薄发之作《Text Data Management and Analysis: A Practical Introduction to Information Retrieval and Text Mining》中文版《文本数据管理与分析:信息检索与文本挖掘的实用导论》由机械工业出版社出版。
本书中文版由首都师范大学副教授宋巍、中国人民大学副教授赵鑫、北京外国语大学教师李璐旸和东北林业大学教师李洋作为主要译者,他们均曾就读于哈尔滨工业大学社会计算与信息检索研究中心。康奈尔大学博士后赵森栋博士以及哈尔滨工业大学社会计算与信息检索研究中心的博士生段俊文参与翻译部分章节,他们都曾访问伊利诺伊大学香槟分校得到翟成祥教授亲自指导。
翟成祥老师
很重视本书中文版出版,专门撰写了中文版序,介绍本书特点以及对国内学术和教育的意义和作用,并抽时间仔细审读了全书译稿,提出了宝贵的修改建议。
本书基于作者在UIUC数据管理与分析相关课程多年的积累,以文本数据处理为核心,从理论到实践介绍了文本数据管理与分析的关键问题,广泛涵盖了信息检索和文本数据挖掘领域的主要概念、技术和方法,并包括许多专门设计并辅以配套软件工具包的动手练习,来帮助读者学习如何运用文本挖掘和信息检索的技术来分析和处理现实世界中的文本数据,以及针对具体应用任务改进算法。
文本信息获取与挖掘基础:
统计与概率论、信息论等相关理论和基本的文本数据理解技术。
文本信息获取关键技术:
信息检索的模型、实现和评价,网络搜索以及推荐系统等。
文本挖掘关键技术:
文档分类,文档聚类,文本摘要,主题分析,观点挖掘与情感分析,文本与结构化数据联合分析等。
文本管理和分析系统:
整合信息检索与文本分析技术,结合配套软件工具META,构建统一的、人机结合的文本管理和分析系统。
翟成祥
(Chengxiang Zhai)教授是信息检索与数据挖掘领域世界知名学者,ACM会士、ACM杰出科学家,伊利诺伊大学香槟分校计算机科学系以及图书馆与信息科学研究生院、基因生物学研究所和统计系教授、Willet学者。
研究兴趣包括信息检索、文本挖掘、自然语言处理、机器学习、生物医学与健康信息学以及智能教育信息系统。
他已经在主流会议与期刊发表超过300篇研究论文,现在是《ACM Transactions on KnowledgeDiscovery from Data》副主编,并担任多个国际会议的程序委员会主席和大会主席。
他荣获多项荣誉,包括ACM SIGIR 2004 最佳论文、ACM SIGIR 2014 时间考验奖、 Alfred P. Sloan研究奖金、IBM 教师奖、HP 创新研究项目奖、微软超越搜索研究奖以及美国青年科学家和工程师总统奖。
肖恩-马森
(Sean Massung)伊利诺伊大学香槟分校博士生。
他是META的联合开发者并在其所有研究中使用META,并且是多门课程的指导者。
研究兴趣包括信息检索、文本挖掘应用、自然语言处理和教育相关应用。
宋巍
,博士,首都师范大学信息工程学院副教授,毕业于哈尔滨工业大学社会计算与信息检索研究中心。
研究方向为自然语言处理与信息检索。
在ACL,SIGIR,EMNLP等国际著名学术会议发表论文多篇。
主持国家自然科学基金和北京市自然科学基金。
曾获北京市高等教育教学成果奖二等奖。
赵鑫
,博士,中国人民大学信息学院副教授,毕业于北京大学。
研究方向为社交媒体数据挖掘和自然语言处理。
近五年内在国内外著名学术期刊与会议上发表论文60余篇。
所发表的学术论文取得了一定的关注度,据Google Scholar统计,已发表论文共计被引用2700余次。
担任多个重要的国际会议或者期刊评审,入选第二届CCF青年人才发展计划。
曾获得CIKM 2017最佳短文候选以及AIRS 2017最佳论文奖。
李璐旸
,博士,北京外国语大学计算机系讲师,毕业于哈尔滨工业大学社会计算与信息检索研究中心。
研究方向为自然语言处理与文本挖掘,具体包括虚假信息识别、矛盾检测及机器翻译等。
在人工智能、自然语言处理等领域国际期刊及会议发表包括JCR一区期刊在内的论文多篇。
李洋
,博士,东北林业大学讲师,硕士生导师,毕业于哈尔滨工业大学社会计算与信息检索研究中心,博士期间于新加坡管理大学进行访问研究。
主要研究领域为自然语言处理与推荐系统,主持国家自然科学基金青年项目、黑龙江省科学基金面上项目等,在人工智能、自然语言处理等领域国际期刊和会议(如TIST、COLING等)上发表论文多篇。
赵森栋
,博士,美国康奈尔大学博士后,毕业于哈尔滨工业大学社会计算与信息检索研究中心,博士期间
曾在UIUC进行访问研究。
主要研究方向为文本挖掘与因果推断。
在AAAI、IJCAI、WSDM等CCF A、B类国际顶级会议和SCI国际期刊发表论文多篇。
段俊文
,哈尔滨工业大学社会计算与信息检索研究中心在读博士生,曾在UIUC进行访问研究。
主要研究方向为自然语言处理与基于文本的社会预测。
在AAAI、EMNLP、COLING等CCF A、B类国际顶级会议和SCI国际期刊发表论文多篇。
目前,我们正处在一个以大数据与人工智能技术为核心的新的工业革命时代,其主要特征是大量各种可利用的数据可以视为一种特殊的生产资料,经过高效的智能数据分析与挖掘以及机器学习等人工智能技术处理后,这些数据可以产生巨大价值,创造智能。
大数据可以用两种方式创造智能。
其一,大量的数据可以作为训练数据,让监督式机器学习方法特别是深度学习,发挥巨大潜力,从大量数据中学得智能,从而使智能机器能够大量代替人力来完成各种任务(此类智能系统可称为自主型智能系统)。
例如,大量的可用于训练无人驾驶车的数据可以很自然地从人的驾驶过程中通过传感器获得,使机器可以自动驾驶车辆;
又如,大量的客户服务记录数据,可以用来训练客户服务机器人,自动回答客户的问题。
其二,大量的数据可以作为对我们生活的世界的感知和观察的结果的描述,用数据挖掘或非监督式机器学习方法对数据加以处理,获得关于被观察系统的各种有用知识,从而拓展人类的感知能力,增强人的智能(此类系统自身往往智能程度不高,可以称为助理型智能系统)。
例如,大量电子病历数据可以用来构造一个医生或病人的辅助诊疗的智能助手系统;
又如,大量金融数据、社交媒体数据以及新闻数据可以用来构造金融方面的决策支持系统。
比较两类基于大数据的智能系统,自主型智能系统能完成的任务不能太复杂(因机器需独立完成任务),且对数据的要求较高,需要有标注的数据,而获取极大量的高质量的标注数据在很多问题领域并不现实,所以这类应用目前只能在少量的特定应用领域起作用。
而且,由于机器的智能主要来自于人工标注的数据,机器的智能不容易超越人的智能。
相反,助理型智能系统由于不需要有标注的数据,任何数据都可以利用,所以在任何领域都可以起作用,有着非常广泛的应用。
而且,有趣的是,尽管助理型智能系统本身的智能不高,甚至没有太多智能,但这样的系统一旦与人结合,人与系统相加以后的综合智能往往能大大超越人的智能。
这种情形下,助理型智能系统的功能有与显微镜及望远镜的功能相似之处,即它们都可以拓展人对世界的感知能力,从而增强人的智能,特别是有助于在复杂应用领域优化决策。
作为一种特殊的大数据,文本数据泛指各种以自然语言形式存在的数据,包括万维网页、新闻报道、社交媒体、产品评论、科学文献、政府文件等;
语音和视频数据,经语音识别后也能产生文本数据。
文本数据有着极其广泛的应用。
第一,文本数据可被视为人,作为一个富有智能的主观“传感器”所产生的数据,它可以与所有其它非文本数据相结合,共同支持助理型智能系统;
又因为任何应用领域都会涉及相关的人群,人们会以各种形式产生可用的文本数据,所以文本数据在任何领域都会有应用价值。
第二,由于人的主观性,文本数据富含关于人的观点、偏好以及需求等信息,所以特别有助于挖掘关于人的各种属性,使智能系统可以更好地理解用户,从而可以对每一个特定的用户进行优化服务(即个性化服务)。
第三,由于文本数据是人们用自然语言交流和通信的产物,它的语义很丰富,相比非文本数据来说,文本数据更加直接地表达知识。
从数据挖掘的角度看,更容易让计算机自动获取知识。
然而,由于自然语言是为人类通信而设计的,需要有大量的常识及推理能力,才能准确理解,所以尽管自然语言理解研究已取得很大进展,计算机目前还不能全面理解不受限的自然语言的结构和语义,所以在所有文本数据的应用中,必须充分利用人的自然语言理解能力,让计算机成为一个智能助理。
《文本数据管理与分析》这本书从文本检索与挖掘的角度,比较全面和系统地介绍了利用文本数据支持助理型智能系统的各种应用技术。
文本检索技术可用于构造各种搜索和推荐系统;
这类系统可帮助用户快速定位到与当前任务最相关的文本数据,从而避免处理大量不必要处理的不相关数据。
而文本分析与挖掘技术则可进一步对相关文本数据进行分析,帮助用户消化相关文本信息,将文本转化为可直接支持任务和决策的知识。
这些技术可以有机地结合在一起支持交互式的智能文本检索与分析系统。
书中介绍的文本检索与分析技术大多为不依赖具体自然语言的基于统计的通用技术,因而可适用于管理、处理与分析包括英语及汉语的任何自然语言文本数据及构造各种应用领域的应用系统。
与书中内容相配的MeTA工具集,可帮助读者进一步理解如何实现书中算法和利用已有算法进行科研或开发应用软件。
目前,大数据及人工智能技术的研究与开发在中国正方兴未艾,机械工业出版社华章公司出版《文本数据管理与分析》一书的中文版,可谓时机甚佳。
作为原书的一位作者,在此特别感谢华章公司姚蕾编辑对此书翻译的大力支持和协调,以及哈尔滨工业大学刘挺教授和他带领的翻译团队,包括宋巍、赵鑫、李璐旸、李洋、赵森栋及段俊文等的杰出翻译工作。
希望此书能有助于许多中文读者学习掌握文本数据检索、分析与挖掘的当前技术,开发基于文本大数据的智能信息应用系统。
2019年3月2日
5. 《文本数据管理与分析:
信息检索与文本挖掘的实用导论》完整目录
第4章 META:一个面向文本数据管理和分析的统一工具箱 33
12.2 文本与非文本数据:人类作为主观传感器 143
17.3.1 最简单的主题模型:一元语言模型 199
17.5 PLSA的扩展及潜在狄利克雷分布 220
第20章 面向一个统一的文本管理和分析系统 260
京东链接:https://item.jd.com/12591034.html
(点击文末“阅读原文”即可访问京东购买页面)
本期责任编辑:崔一鸣
本期编辑:赖勇魁
“哈工大SCIR”公众号
主编:车万翔
副主编:张伟男,丁效
执行编辑:李家琦
责任编辑:张伟男,丁效,崔一鸣,李忠阳
编辑:赖勇魁,王若珂,李照鹏,冯梓娴,顾宇轩
长按下图并点击 “识别图中二维码”,即可关注哈尔滨工业大学社会计算与信息检索研究中心微信公众号:”哈工大SCIR” 。