会员服务 ·

初五迎财神，送大家一本保姆级 NLP 学习宝典！

2021 年 2 月 16 日 AI科技评论

机器学习是一门既重理论又重实践的学科，想一口吃下这个老虎是不可能的，因此学习应该是个循环且逐渐细化的过程。

首先要有个全局印象，知道minimum的情况下要学哪些知识点：

之后就可以开始逐个击破，但也不用死磕，控制好目标难度，先用三个月时间进行第一轮学习：

1、读懂机器学习、深度学习原理，不要求手推公式

2、了解经典任务的baseline，动手实践，看懂代码

3、深入一个应用场景，尝试自己修改模型，提升效果

迈过了上面这道坎后，就可以重新回归理论，提高对自己的要求，比如手推公式、盲写模型、拿到比赛Top等。

1

基础原理有哪些？

机器学习最初入门时对数学的要求不是很高，掌握基础的线性代数、概率论就可以了，正常读下来的理工科大学生以上应该都没问题，可以直接开始学，碰到不清楚的概念再去复习。

统计机器学习部分，建议初学者先看懂线性分类、SVM、树模型和图模型，这里推荐李航的「统计学习方法」，薄薄的摸起来没有很大压力，背着也方便，我那本已经翻四五遍了。喜欢视频课程的话可以看吴恩达的「CS229公开课」或者林田轩的「机器学习基石」。但不管哪个教程，都不必要求一口气看完吃透，第一轮先重点看懂以下知识点就够了：

深度学习部分，推荐吴恩达的「深度学习」网课、李宏毅的「深度学习」网课或者邱锡鹏的「神经网络与深度学习」教材。先弄懂神经网络的反向传播推导，然后去了解词向量和其他的编码器的核心思想、前向反向过程：

2

经典模型与技巧

有了上述的基础后，应该就能看懂模型结构和论文里的各种名词公式了。接下来就是了解NLP各个经典任务的baseline，并看懂源码。对于TF和Pytorch的问题不用太纠结，接口都差不多，找到什么就看什么，自己写的话建议Pytorch。

快速了解经典任务脉络可以看综述，建议先了解一两个该任务的经典模型再去看，否则容易云里雾里：

   
   
     
    
    
      2020 A Survey on Text Classification: From Shallow to Deep Learning
2020 A Survey on Recent Advances in Sequence Labeling from Deep Learning Models 
2020 Evolution of Semantic Similarity - A Survey
2017 Neural text generation: A practical guide 
2018 Neural Text Generation: Past, Present and Beyond
2019 The survey: Text generation models in deep learning
2020 Efficient Transformers: A Survey

2.1 文本分类

文本分类是NLP应用最多且入门必备的任务，TextCNN堪称第一baseline，往后的发展就是加RNN、加Attention、用Transformer、用GNN了。第一轮不用看得太细，每类编码器都找个代码看一下即可，顺便也为其他任务打下基础。