八大步骤，用机器学习解决90%的NLP问题

会员服务 ·

八大步骤，用机器学习解决90%的NLP问题

2018 年 1 月 26 日 机器学习研究会

在现实生活中，文本信息无处不在。理解并学习文本数据的内在涵义一直是一个非常活跃的研究课题，这就是自然语言处理。

对于企业而言，利用文本数据可以对新产品的功能进行验证、改进并扩展。在这样的实际应用中，有三大类自然语言处理任务最为常见：

识别不同的用户/客户群（如预测客户流失量、生命周期价值、产品偏好）

准确地检测和提取不同类别的反馈信息（如正面和负面的评论/意见、衣服尺寸等特定属性的提及频率）

根据用户的意图对文本信息进行分类（如请求基本帮助、紧急问题）

尽管自然语言处理领域有很多在线的论文和教程资源，但很少有一些比较高效的指引和提示，以方便我们快速上手并解决这里的问题。这正是我们整理出本文的目的。

在本文中，我们将分八大步骤来介绍如何用机器学习处理文本数据。我们将从最简单的方法开始，逐一讲解，然后分析更具体的方案细节，如特征工程、词向量和深度学习。你可以把本文看作是标准方法的高度概括。

读完本文后，你将学会：

如何收集，准备和检查数据

如何建立简单的模型，有必要的话，应构建深度学习模型

如何解释并理解你的模型，以确保模型学习的是特征信息而不是噪音

此外，本文还附有一个交互式笔记，让你可以随意运行本文中的代码，来演示和应用其中的技术，特别是一些比较抽象的概念：

代码链接 https://github.com/hundredblocks/concrete_NLP_tutorial/blob/master/NLP_notebook.ipynb

步骤1：收集数据

数据样本

每个机器学习问题都始于数据，如一系列的电子邮件、帖子或推文。文本信息的常见来源包括：

产品评论（在亚马逊、Yelp和各种应用商店）

用户生成的内容（推文、Facebook帖子、StackOverflow问答）

用户疑难解答（客户请求、客服支持记录、聊天记录）

转自：人工智能头条

完整内容请点击“阅读原文”

登录查看更多

相关内容

文本数据

关注 0

【干货书】用Python构建聊天机器人，205页pdf，使用自然语言处理和机器学习

专知会员服务

220+阅读 · 2020年6月14日

【实用书】Python文本分析第二版，688页pdf带你入门自然语言处理

专知会员服务

162+阅读 · 2020年5月15日

干净的数据：数据清洗入门与实践，204页pdf

专知会员服务

164+阅读 · 2020年5月14日

史上机器学习 &深度学习课程大合集，一站搞定，Deep Learning Drizzle

专知会员服务

176+阅读 · 2020年5月10日

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

专知会员服务

216+阅读 · 2020年4月26日

CMU-卡内基梅隆大学2020《神经网络自然语言处理》课程课件全集，不可错过！

专知会员服务

68+阅读 · 2020年3月20日

【经典书】精通机器学习特征工程，中文版，178页pdf

专知会员服务

360+阅读 · 2020年2月15日

使用深度学习方法解析问题知识图谱存储查询知识点基于医疗垂直领域的对话系统 by Mr.Young GitHub

专知会员服务

44+阅读 · 2020年1月30日

【干货】用BRET进行多标签文本分类（附代码）

专知会员服务

85+阅读 · 2019年12月27日

【机器学习课程】Google机器学习速成课程

专知会员服务

170+阅读 · 2019年12月2日

ML通用指南：文本分类详细教程（上）

论智

19+阅读 · 2018年7月29日

文本分类又来了，用 Scikit-Learn 解决多类文本分类问题

AI研习社

14+阅读 · 2018年7月22日

自然语言处理（NLP）数据集整理

论智

20+阅读 · 2018年4月8日

手把手教你搞定90%的NLP问题

AI前线

3+阅读 · 2018年3月18日

如何解决自然语言处理中 90% 的问题

AI研习社

4+阅读 · 2018年2月15日

教程帖：如何解决90%的NLP问题（上）

论智

3+阅读 · 2018年2月12日

机器学习自动文本分类

AI前线

23+阅读 · 2018年2月4日

【机器学习】先搞懂这八大基础概念，再谈机器学习入门！

产业智能官

7+阅读 · 2018年1月5日

先搞懂这八大基础概念，再谈机器学习入门！

数盟

5+阅读 · 2018年1月4日

解决机器学习问题有通法！看这一篇就够了！

大数据文摘

4+阅读 · 2017年9月18日

Towards Automated Machine Learning: Evaluation and Comparison of AutoML Approaches and Tools

Arxiv

3+阅读 · 2019年9月3日

Text Summarization with Pretrained Encoders

Arxiv

5+阅读 · 2019年8月22日

Object Detection in 20 Years: A Survey

Arxiv

48+阅读 · 2019年5月13日

S4Net: Single Stage Salient-Instance Segmentation

Arxiv

10+阅读 · 2019年4月10日

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

Automatic Summarization of Natural Language

Arxiv

3+阅读 · 2018年12月18日

Multi-task learning to improve natural language understanding

Arxiv

4+阅读 · 2018年12月17日

Adaptive Neural Trees

Arxiv

4+阅读 · 2018年12月10日

Stock Chart Pattern recognition with Deep Learning

Arxiv

6+阅读 · 2018年8月1日

Twitter Sentiment Analysis

Arxiv

5+阅读 · 2015年9月14日

VIP会员