八大步骤,用机器学习解决90%的NLP问题

2018 年 1 月 26 日 机器学习研究会

在现实生活中,文本信息无处不在。理解并学习文本数据的内在涵义一直是一个非常活跃的研究课题,这就是自然语言处理。


对于企业而言,利用文本数据可以对新产品的功能进行验证、改进并扩展。在这样的实际应用中,有三大类自然语言处理任务最为常见:


  • 识别不同的用户/客户群(如预测客户流失量、生命周期价值、产品偏好)

  • 准确地检测和提取不同类别的反馈信息(如正面和负面的评论/意见、衣服尺寸等特定属性的提及频率)

  • 根据用户的意图对文本信息进行分类(如请求基本帮助、紧急问题)


尽管自然语言处理领域有很多在线的论文和教程资源,但很少有一些比较高效的指引和提示,以方便我们快速上手并解决这里的问题。这正是我们整理出本文的目的。


在本文中,我们将分八大步骤来介绍如何用机器学习处理文本数据。我们将从最简单的方法开始,逐一讲解,然后分析更具体的方案细节,如特征工程、词向量和深度学习。你可以把本文看作是标准方法的高度概括。


读完本文后,你将学会:


  • 如何收集,准备和检查数据

  • 如何建立简单的模型,有必要的话,应构建深度学习模型

  • 如何解释并理解你的模型,以确保模型学习的是特征信息而不是噪音


此外,本文还附有一个交互式笔记,让你可以随意运行本文中的代码,来演示和应用其中的技术,特别是一些比较抽象的概念:


代码链接 https://github.com/hundredblocks/concrete_NLP_tutorial/blob/master/NLP_notebook.ipynb



步骤1:收集数据


数据样本


每个机器学习问题都始于数据,如一系列的电子邮件、帖子或推文。文本信息的常见来源包括:


  • 产品评论(在亚马逊、Yelp和各种应用商店)

  • 用户生成的内容(推文、Facebook帖子、StackOverflow问答)

  • 用户疑难解答(客户请求、客服支持记录、聊天记录)


转自:人工智能头条


完整内容请点击“阅读原文”

登录查看更多
5

相关内容

干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
161+阅读 · 2020年5月14日
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
212+阅读 · 2020年4月26日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
354+阅读 · 2020年2月15日
【干货】用BRET进行多标签文本分类(附代码)
专知会员服务
84+阅读 · 2019年12月27日
【机器学习课程】Google机器学习速成课程
专知会员服务
164+阅读 · 2019年12月2日
ML通用指南:文本分类详细教程(上)
论智
19+阅读 · 2018年7月29日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
手把手教你搞定90%的NLP问题
AI前线
3+阅读 · 2018年3月18日
如何解决自然语言处理中 90% 的问题
AI研习社
4+阅读 · 2018年2月15日
教程帖:如何解决90%的NLP问题(上)
论智
3+阅读 · 2018年2月12日
机器学习自动文本分类
AI前线
23+阅读 · 2018年2月4日
解决机器学习问题有通法!看这一篇就够了!
大数据文摘
4+阅读 · 2017年9月18日
Arxiv
5+阅读 · 2019年8月22日
Object Detection in 20 Years: A Survey
Arxiv
48+阅读 · 2019年5月13日
S4Net: Single Stage Salient-Instance Segmentation
Arxiv
10+阅读 · 2019年4月10日
Arxiv
3+阅读 · 2018年12月18日
Adaptive Neural Trees
Arxiv
4+阅读 · 2018年12月10日
Stock Chart Pattern recognition with Deep Learning
Arxiv
6+阅读 · 2018年8月1日
Arxiv
5+阅读 · 2015年9月14日
VIP会员
相关资讯
ML通用指南:文本分类详细教程(上)
论智
19+阅读 · 2018年7月29日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
手把手教你搞定90%的NLP问题
AI前线
3+阅读 · 2018年3月18日
如何解决自然语言处理中 90% 的问题
AI研习社
4+阅读 · 2018年2月15日
教程帖:如何解决90%的NLP问题(上)
论智
3+阅读 · 2018年2月12日
机器学习自动文本分类
AI前线
23+阅读 · 2018年2月4日
解决机器学习问题有通法!看这一篇就够了!
大数据文摘
4+阅读 · 2017年9月18日
相关论文
Arxiv
5+阅读 · 2019年8月22日
Object Detection in 20 Years: A Survey
Arxiv
48+阅读 · 2019年5月13日
S4Net: Single Stage Salient-Instance Segmentation
Arxiv
10+阅读 · 2019年4月10日
Arxiv
3+阅读 · 2018年12月18日
Adaptive Neural Trees
Arxiv
4+阅读 · 2018年12月10日
Stock Chart Pattern recognition with Deep Learning
Arxiv
6+阅读 · 2018年8月1日
Arxiv
5+阅读 · 2015年9月14日
Top
微信扫码咨询专知VIP会员