《实际应用中的自然语言处理》是一本关于如何应用数据科学和机器学习构建自然语言处理(NLP)解决方案的实用指南。传统的、学术教授的NLP通常附带一个数据源或数据集以帮助构建解决方案,而本书则位于可能不存在丰富数据集的真实世界中。 本书涵盖了NLP和文本处理背后的基本概念,并讨论了在15个行业领域中的应用。从数据源和提取到转换和建模,从经典的机器学习到深度学习和变压器,讨论并实现了NLP的几种流行应用。 本书为任何希望构建NLP解决方案的人提供了一本实践和全面的指南,从计算机科学学生到参与大规模工业项目的人都可以参考。
本书首先介绍了自然语言处理(NLP)、底层概念和流行工具。然后,本书深入探讨了所有与数据相关的内容 - 数据策划、数据提取和数据存储。这些数据需要被清理并转换为机器可以理解的语言。本书实现了几种数据预处理方法、数据转换方法、距离度量、机器学习、深度学习和变压器。在实践意义上,企业利用最能解决他们用例的技术,包括经典/传统模型和最先进的模型。本书通过实践视角覆盖了所有这些内容。具备了关于数据和模型的知识,你就准备好将它们结合起来构建NLP应用了。但是,这些NLP应用是什么,谁使用它们,用于什么呢?本书深入探讨了在15个行业领域中的NLP应用。然后,我们选择最常用的应用,并以多种不同的方式使用Python和各种开源工具来实现它们。接下来,本书描述了在真实世界中,实际商业环境中的NLP项目。你为什么决定构建一个基于NLP的项目?你如何衡量成功?这个项目如何适应你公司的目标?这个模型如何被其他用户和应用消费?所有这些方面都进行了讨论,并使用Python以及从书中前面部分获得的知识来实现这些NLP项目。https://github.com/jsingh811/NLP-in-the-real-world 包含了本书中使用的所有代码。本书的结构如下所示。