本书对基于机器学习的方法在自然语言文本知识发现中的应用提供了一个视角。通过分析各种数据集,可以得出通常不明显的结论,并可用于各种目的和应用。本书解释了应用于文本挖掘的经过时间验证的机器学习算法的原理,并逐步演示了如何使用流行的R语言及其实现的机器学习算法揭示真实世界数据集中的语义内容。这本书不仅面向IT专家,而且面向更广泛的需要处理大量文本文档并具备该主题基本知识的读者,例如电子邮件服务提供商、在线购物者、图书管理员等。 本书首先介绍了基于文本的自然语言数据处理及其目标和问题。它专注于机器学习,介绍各种算法及其用途和可能性,并回顾其优缺点。从初始数据预处理开始,读者可以按照R语言提供的步骤进行操作,包括将各种可用的插件包含到生成的软件工具中。一个很大的优势是R也包含许多实现机器学习算法的库,因此读者可以专注于主要目标,而无需自己实现算法的细节。为了更好地理解结果,本书还对算法进行了解释,以支持对结果的最终评估和解释。这些例子使用来自互联网的真实数据进行演示。 https://www.routledge.com/Text-Mining-with-Machine-Learning-Principles-and-Techniques/Zizka-Darena-Svoboda/p/book/9781032086217