在现实生活中,文本信息无处不在。理解并学习文本数据的内在涵义一直是一个非常活跃的研究课题,这就是自然语言处理。
对于企业而言,利用文本数据可以对新产品的功能进行验证、改进并扩展。在这样的实际应用中,有三大类自然语言处理任务最为常见:
识别不同的用户/客户群(如预测客户流失量、生命周期价值、产品偏好)
准确地检测和提取不同类别的反馈信息(如正面和负面的评论/意见、衣服尺寸等特定属性的提及频率)
根据用户的意图对文本信息进行分类(如请求基本帮助、紧急问题)
尽管自然语言处理领域有很多在线的论文和教程资源,但很少有一些比较高效的指引和提示,以方便我们快速上手并解决这里的问题。这正是我们整理出本文的目的。
在本文中,我们将分八大步骤来介绍如何用机器学习处理文本数据。我们将从最简单的方法开始,逐一讲解,然后分析更具体的方案细节,如特征工程、词向量和深度学习。你可以把本文看作是标准方法的高度概括。
读完本文后,你将学会:
如何收集,准备和检查数据
如何建立简单的模型,有必要的话,应构建深度学习模型
如何解释并理解你的模型,以确保模型学习的是特征信息而不是噪音
此外,本文还附有一个交互式笔记,让你可以随意运行本文中的代码,来演示和应用其中的技术,特别是一些比较抽象的概念:
代码链接 https://github.com/hundredblocks/concrete_NLP_tutorial/blob/master/NLP_notebook.ipynb
步骤1:收集数据
数据样本
每个机器学习问题都始于数据,如一系列的电子邮件、帖子或推文。文本信息的常见来源包括:
产品评论(在亚马逊、Yelp和各种应用商店)
用户生成的内容(推文、Facebook帖子、StackOverflow问答)
用户疑难解答(客户请求、客服支持记录、聊天记录)
转自:人工智能头条
完整内容请点击“阅读原文”