中科院宗成庆谈文本数据挖掘

2019 年 7 月 16 日 AI科技评论

从长远来看，社会最终认可的一定是扎实有用的技术。

AI 科技评论按，近年来，随着移动通信和互联网技术的快速发展与普及应用，数据挖掘技术得到了越来越多的关注。文本数据挖掘作为自然语言处理、机器学习和数据挖掘等多种技术的交叉研究领域，其研究热度也逐年提升。在学术界，每年都有大量相关论文发表；在工业界，文本数据挖掘被广泛地应用于医疗、金融风控、司法和情报分析等各个领域，极大地帮助了人们提高工作效率和分析挖掘相关信息。

如何更好地入门这项技术呢？相信相关专业的学生和该领域的初学者都非常关心这个问题。近日，由中国科学院自动化所研究员、博士生导师宗成庆、南京理工大学计算机学院教授、博士生导师夏睿和中科院自动化所副研究员张家俊三位老师历时两年多撰写的《文本数据挖掘》问世，为这项技术的推广和应用提供了一部优秀的教学辅导书。该书全面梳理了文本数据挖掘技术各个方向的基本概念和经典方法，并给出了具体的应用案例，对于初学者来说这是一本不可多得的好书，对研究人员也不失一本值得参阅的手边书。

对于宗成庆老师，相信国内任何一位学习和从事 NLP 技术研发的人应该都不会陌生，他撰写的《统计自然语言处理》多年来都是国内 NLP 学习和研究必备的参考书。时隔数年，宗成庆老师再次发表新著，其初衷和意义为何？带着这些问题，AI 科技评论与宗成庆老师进行了深入交流。

文本数据挖掘研究

AI 科技评论：文本数据挖掘作为一个研究方向，它的意义何在？

答：文本数据挖掘具有极其广阔的应用前景，包括金融、医疗、生物医药、司法和情报分析等各个领域。我们所说的自然语言处理技术，其应用目标除了机器翻译和对话系统以外，主要任务就是利用这本书中所介绍的这些文本数据挖掘技术进行文本的分析和处理。

AI 科技评论：您能否简单介绍下这个领域的发展历史？

答：其实，某些技术最早可以追溯到上个世纪的 50 年代，例如，自动文摘。那时候人们就已经在关注如何为图书文献自动生成摘要。之后，应用需求范围不断扩大，尤其是随着互联网技术的快速发展和普及应用，相关技术需求逐渐被提出，如情感分析、主题发现和追踪等。我个人认为，这并不是一个新的领域，而是以自然语言处理为主，结合机器学习、数据挖掘等多种技术的具体应用。

AI 科技评论：文本数据挖掘的主要难点在哪里？

答：不同的任务面临的难点是不一样的。但如果笼统一点来说的话，主要在于如何弄清楚文本作者的意图和观点，这是最根本的问题。不同于从数据库中挖掘和发现知识，文本数据挖掘的处理的都是非结构化的文本数据，因此自然语言处理中面临的问题都是文本数据挖掘中的难点。

计算机和人不一样，对于一段文字，人扫一眼就可以明白了。而计算机理解语言会涉及到太多东西，包括语言学的问题、人的背景知识和常识等。目前我们还无法清楚地知道人脑是如何理解语言的。所以从长远的深层次研究角度，我们要和脑科学研究结合起来。目前我们正在与中科院上海神经所、心理所等从事脑科学和语言认知研究的专家进行合作。当然，这是一个遥远的目标。从应用的角度，我们希望尽快利用机器学习等技术，结合语言学和具体应用需求，建立实用的文本挖掘方法。

AI 科技评论：目前这一研究进展如何？

答：对人脑从事语言认知机理的研究是一个长远的目标，属于基础性的探索研究，很难指望在短时期内看到直接的应用效果。但是，相关研究会给我们很多启发，让我们改进或者解释现有的神经网络模型，或者建立更加有效的新方法。总起来说，这需要持续地研究，甚至需要几代人一点一点地努力，去攻克这个堡垒。

《文本数据挖掘》

AI 科技评论：您写作《文本数据挖掘》这本书的初衷是什么？

答：主要有几方面考虑。一方面，我前一本书《统计自然语言处理》的主要内容是自然语言处理的基础理论和关键技术，而《文本数据挖掘》介绍的目前自然语言处理应用领域中热点的研究方向，如情感分析、主题发现和信息抽取等。另一方面，我在国科大为研究生开设的一门课程名称就是「文本数据挖掘」，需要这样一本教学辅导书。另外，近年来自然语言处理技术的应用需求很大，技术发展非常之快，很多新技术和新方法不断推出，对于我个人而言，撰写这本书的过程也是学习和熟悉最新技术和方法，梳理学科知识的过程。

AI 科技评论：既然《文本数据挖掘》梳理的是最新的技术方法，那么，您此前撰写的《统计自然语言处理》，其内容需要更新吗？

答：当然需要，因为现在的技术发展太快了，很多技术都已经更新。但是，我需要在清楚地掌握这些新技术以后，才能判断哪些新方法需要写进书中，很多技术都需要经过时间的验证。其实，有些新技术已经被写入《文本数据挖掘》这本书里了，如词的分布式表示，深度神经网络方法等。我认为文本数据挖掘实际上就是自然语言处理方向的一个延伸和扩展。

AI 科技评论：文本数据挖掘现在在企业里面有哪些具体的应用案例？

答：文本数据挖掘技术的应用非常广泛。在医学上，它可以用来帮助医生进行诊断，或者为医学研究者提供技术手段或知识支撑，也可以为患者提供帮助，如问诊或查询等；在金融领域，根据财务报告、大众评价等一些公开的信息，可以帮助投资人分析某家公司的信誉如何；它还可以帮助法官根据以往的案例如何量刑和断案等。

AI 科技评论：因为中国人主要使用中文，那么，汉语的文本挖掘和其他语言有区别吗？

答：区别是存在的。首先，中文文本挖掘面临着分词的问题，这是一个基本问题。

虽然其他语言也存在这类问题，如韩国语和日语等，但是中文的分词更麻烦，尤其对于非规范化的文本而言。其次，中文在表达方式上比较复杂，或者说比较灵活，语义表达更复杂，有时候不同的人对同一句话的理解可能也不一样。例如，在中文文本中很多时候作者在表达观点时都比较委婉，甚至在描述一件事情的时候喜欢绕圈子，而不会直接表达自己的意思，而在英文文本中较为直截了当。所以，在进行中文文本挖掘时需要考虑汉语篇章的特殊性。

AI 科技评论：文本数据挖掘这本书里面如何处理机器学习方法和传统方法？

答：从性能和最终结果来看，对于很多任务来说，神经网络或者深度学习方法的结果要优于传统方法，但是传统方法也有它自己的优点，如便于结合先验知识、可解释等。在方法改进和创新研究中，我们不应该完全抛弃原来的方法。如何把这些方法结合起来，让它们在不同的方面发挥作用，最终取得更好的性能，这是我们的目标。创新就是这样，始终在前人工作的基础上一步一步地提升和前进。

在《文本数据挖掘》这本书里面，我们并没有过多地强调深度学习方法，比较有代表性的方法都介绍了。我们希望读者能够完整地了解某个方向的发展历程。在此基础上，读者自己会去进行判断或者研究应该如何建立更加有效的新方法。

AI 科技评论：您刚才提到，传统的方法也很重要。那么，如果您现在修订《统计自然语言处理》，会如何进行内容取舍？

答：一方面，有些内容需要压缩。《统计自然语言处理》中的有些方法在性能表现上有点跟不上时代了。有些方法，如统计机器翻译，只需要介绍起主要思想，而不过多地介绍模型细节。另一方面，需要增加一些深度学习的新方。

进一步学习

AI 科技评论：如果学完了这本书以后，还想要进一步学习，您觉得应该从哪一些方向入手？

答：《文本数据挖掘》这本书讲的主要是一些比较基础的方法，主要目的是带领读者进入这个领域。正如前面所说，这个方向发展得非常快，需要不断地跟进和更新。每年 ACL、COLING 和 EMNLP 等本领域的会议上都会不断推出一些新的方法，需要不断地跟踪。读者在了解和掌握本书的基本知识之后可以通过阅读论文、听学术报告或其他交流形式，跟踪和关注这一领域的最新进展。

AI 科技评论：在国内，很多学生过度依赖开源工具，缺乏自己的思考，您怎么看待这一现象？应该如何改善这一状况？您认为优秀的学生一般应该具有哪些重要的品质？

答：及时学习、跟踪和使用开源工具，了解国际最新的前沿技术，是对学生，包括对硕士研究生和博士研究生最基本的要求。对于初学者来说，使用开源工具是一条捷径，已有的很多创新也都是从模仿开始的。但是，跟踪到一定阶段，学生必须学会独立地思考，提出创新思路。

目前各种诱惑和不合理的评价体系，是导致学生过度依赖开源工具、急功近利的主要原因之一。大家都希望在短时间内尽快出论文、出系统，而不愿静下心来深入思考。

要改变这一状况，每一位从事科研工作的人，尤其老师和学生都有责任和义务，从我做起，从现在做起，不受一时利益和荣誉的诱惑，静下心来，打牢理论基础，扎扎实实地开展工作，坚守「一辈子做好一件事情」的目标和理想，才是改变这一现象的根本出路。

我认为优秀学生应该具备如下重要的品质：能够坐得住，甘于寂寞，持之以恒地用心钻研，不受前人思路的限制和制约，勇于创新和实践。从长远来看，社会最终认可的一定是扎扎实实的有用的技术，而不是故弄玄虚、华而不实的墙上画饼。