复旦NLP实验室NLP上手教程 - 专知

会员服务 ·

0

复旦NLP实验室NLP上手教程

2019 年 5 月 20 日 AINLP

推荐复旦NLP实验室NLP上手教程，点击阅读原文可以直达：

https://github.com/FudanNLP/nlp-beginner

来自邱锡鹏老师回答：

更推荐邱老师的开源书籍：神经网络与深度学习

链接：https://nndl.github.io/

以下来自该 FudanNLP/nlp-beginner：

新加入本实验室的同学，请按要求完成下面练习，并提交报告。

请完成每次练习后把report上传到QQ群中的共享文件夹中的“Reports of nlp-beginner”目录，文件命名格式为“task 1+姓名”。

参考：

深度学习上手指南
《神经网络与深度学习》
不懂问google

任务一：基于机器学习的文本分类

实现基于logistic/softmax regression的文本分类

参考

文本分类
《神经网络与深度学习》第2/3章

数据集：Classify the sentiment of sentences from the Rotten Tomatoes dataset
实现要求：NumPy
需要了解的知识点：

文本特征表示：Bag-of-Word，N-gram
分类器：logistic/softmax regression，损失函数、（随机）梯度下降、特征选择
数据集：训练集/验证集/测试集的划分

实验：

分析不同的特征、损失函数、学习率对最终分类性能的影响
shuffle 、batch、mini-batch

时间：两周

任务二：基于深度学习的文本分类

熟悉Pytorch，用Pytorch重写《任务一》，实现CNN、RNN的文本分类；

参考

https://pytorch.org/
Convolutional Neural Networks for Sentence Classification https://arxiv.org/abs/1408.5882
https://machinelearningmastery.com/sequence-classification-lstm-recurrent-neural-networks-python-keras/

word embedding 的方式初始化
随机embedding的初始化方式
用glove 预训练的embedding进行初始化 https://nlp.stanford.edu/projects/glove/
知识点：

CNN/RNN的特征抽取
词嵌入
Dropout

时间：两周

任务三：基于注意力机制的文本匹配

输入两个句子判断，判断它们之间的关系。参考ESIM（可以只用LSTM，忽略Tree-LSTM），用双向的注意力机制实现。

参考

《神经网络与深度学习》第7章
Reasoning about Entailment with Neural Attention https://arxiv.org/pdf/1509.06664v1.pdf
Enhanced LSTM for Natural Language Inference https://arxiv.org/pdf/1609.06038v3.pdf

数据集：https://nlp.stanford.edu/projects/snli/
实现要求：Pytorch
知识点：

注意力机制
token2token attetnion

时间：两周

任务四：基于LSTM+CRF的序列标注

用LSTM+CRF来训练序列标注模型：以Named Entity Recognition为例。

参考

《神经网络与深度学习》第6、11章
https://arxiv.org/pdf/1603.01354.pdf
https://arxiv.org/pdf/1603.01360.pdf

数据集：CONLL 2003，https://www.clips.uantwerpen.be/conll2003/ner/
实现要求：Pytorch
知识点：

评价指标：precision、recall、F1
无向图模型、CRF

时间：两周

任务五：基于神经网络的语言模型

用LSTM、GRU来训练字符级的语言模型，计算困惑度

参考

《神经网络与深度学习》第6、15章

数据集：poetryFromTang.txt
实现要求：Pytorch
知识点：

语言模型：困惑度等
文本生成

时间：两周

登录查看更多

2

相关内容

NLP

NLP:自然语言处理

NLP基础任务《文本分类算法》大综述最新版, 68页超详细解析

NLP基础任务《文本分类算法》大综述最新版, 68页超详细解析

专知会员服务

75+阅读 · 2020年7月30日

还在修改博士论文？这份《博士论文写作技巧》为你指南

还在修改博士论文？这份《博士论文写作技巧》为你指南

专知会员服务

165+阅读 · 2020年6月9日

《可解释的机器学习》中文版来了：226页pdf理解黑盒模型指南，复旦研究生翻译

《可解释的机器学习》中文版来了：226页pdf理解黑盒模型指南，复旦研究生翻译

专知会员服务

379+阅读 · 2020年5月10日

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

专知会员服务

108+阅读 · 2020年5月1日

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

专知会员服务

216+阅读 · 2020年4月26日

20篇「ACL2020」最新论文抢先看！看自然语言处理2020在研究什么？

20篇「ACL2020」最新论文抢先看！看自然语言处理2020在研究什么？

专知会员服务

97+阅读 · 2020年4月10日

NLP基础任务:文本分类近年发展汇总,68页超详细解析

NLP基础任务:文本分类近年发展汇总,68页超详细解析

专知会员服务

58+阅读 · 2020年1月3日

问答与对话-理论与基础之面向自然语言处理的深度学习基础【邱锡鹏】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第13期

问答与对话-理论与基础之面向自然语言处理的深度学习基础【邱锡鹏】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第13期

专知会员服务

48+阅读 · 2019年10月21日

神经网络与深度学习，复旦大学邱锡鹏老师

神经网络与深度学习，复旦大学邱锡鹏老师

专知会员服务

122+阅读 · 2019年9月24日

下载 | 最全中文文本分类模型库，上手即用

下载 | 最全中文文本分类模型库，上手即用

机器学习算法与Python学习

31+阅读 · 2019年10月17日

【复旦大学邱锡鹏老师】面向自然语言处理的深度学习基础，199页ppt

【复旦大学邱锡鹏老师】面向自然语言处理的深度学习基础，199页ppt

专知

159+阅读 · 2019年9月8日

NLP学习新资料：旧金山大学2019夏季自然语言处理课程

NLP学习新资料：旧金山大学2019夏季自然语言处理课程

AINLP

8+阅读 · 2019年6月11日

一文读懂深度学习文本分类方法

一文读懂深度学习文本分类方法

AINLP

15+阅读 · 2019年6月6日

【资源推荐】复旦大学NLP上手教程

【资源推荐】复旦大学NLP上手教程

专知

41+阅读 · 2019年5月15日

Awesome-Chinese-NLP：中文自然语言处理相关资料

Awesome-Chinese-NLP：中文自然语言处理相关资料

AINLP

30+阅读 · 2019年2月17日

PyTorch自然语言处理实战（附详细代码下载）

PyTorch自然语言处理实战（附详细代码下载）

专知

67+阅读 · 2019年2月12日

NLP - 基于 BERT 的中文命名实体识别（NER)

NLP - 基于 BERT 的中文命名实体识别（NER)

AINLP

466+阅读 · 2019年2月10日

NLP - 15 分钟搭建中文文本分类模型

NLP - 15 分钟搭建中文文本分类模型

AINLP

79+阅读 · 2019年1月29日

直播 | 自然语言处理中的多任务学习 & 复旦大学NLP实验室介绍

直播 | 自然语言处理中的多任务学习 & 复旦大学NLP实验室介绍

AI科技评论

6+阅读 · 2018年10月22日

Do NLP Models Know Numbers? Probing Numeracy in Embeddings

Arxiv

5+阅读 · 2019年9月17日

Question Generation by Transformers

Question Generation by Transformers

Arxiv

5+阅读 · 2019年9月14日

BAM! Born-Again Multi-Task Networks for Natural Language Understanding

BAM! Born-Again Multi-Task Networks for Natural Language Understanding

Arxiv

3+阅读 · 2019年7月10日

Pre-Training with Whole Word Masking for Chinese BERT

Arxiv

11+阅读 · 2019年6月19日

Zero-Shot Entity Linking by Reading Entity Descriptions

Zero-Shot Entity Linking by Reading Entity Descriptions

Arxiv

6+阅读 · 2019年6月18日

ERNIE: Enhanced Language Representation with Informative Entities

Arxiv

5+阅读 · 2019年5月17日

CAN-NER: Convolutional Attention Network forChinese Named Entity Recognition

Arxiv

16+阅读 · 2019年4月3日

Pre-trained Language Model Representations for Language Generation

Arxiv

5+阅读 · 2019年4月1日

A BERT Baseline for the Natural Questions

Arxiv

8+阅读 · 2019年3月21日

Chinese NER Using Lattice LSTM

Arxiv

14+阅读 · 2018年5月15日

VIP会员

相关主题

Softmax回归/软最大化回归

相关VIP内容

NLP基础任务《文本分类算法》大综述最新版, 68页超详细解析

NLP基础任务《文本分类算法》大综述最新版, 68页超详细解析

专知会员服务

75+阅读 · 2020年7月30日

还在修改博士论文？这份《博士论文写作技巧》为你指南

还在修改博士论文？这份《博士论文写作技巧》为你指南

专知会员服务

165+阅读 · 2020年6月9日

《可解释的机器学习》中文版来了：226页pdf理解黑盒模型指南，复旦研究生翻译

《可解释的机器学习》中文版来了：226页pdf理解黑盒模型指南，复旦研究生翻译

专知会员服务

379+阅读 · 2020年5月10日

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

【2020新书】自然语言处理Python与spaCy实践，216页pdf，NLP with Python

专知会员服务

108+阅读 · 2020年5月1日

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

深度学习自然语言处理概述，216页ppt，Jindřich Helcl

专知会员服务

216+阅读 · 2020年4月26日

20篇「ACL2020」最新论文抢先看！看自然语言处理2020在研究什么？

20篇「ACL2020」最新论文抢先看！看自然语言处理2020在研究什么？

专知会员服务

97+阅读 · 2020年4月10日

NLP基础任务:文本分类近年发展汇总,68页超详细解析

NLP基础任务:文本分类近年发展汇总,68页超详细解析

专知会员服务

58+阅读 · 2020年1月3日

问答与对话-理论与基础之面向自然语言处理的深度学习基础【邱锡鹏】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第13期

问答与对话-理论与基础之面向自然语言处理的深度学习基础【邱锡鹏】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第13期

专知会员服务

48+阅读 · 2019年10月21日

神经网络与深度学习，复旦大学邱锡鹏老师

神经网络与深度学习，复旦大学邱锡鹏老师

专知会员服务

122+阅读 · 2019年9月24日

热门VIP内容

开通专知VIP会员享更多权益服务

《为多域数字战场变革装甲力量》报告

《多域训练：利用开放标准将太空与网络域同陆、海、空域训练相整合》报告

面向城市战：欧美徒步作战新装备

《人工智能增强监视分析：利用跨网络、陆地、空中及海上领域的威胁向量实时建模》

相关资讯

下载 | 最全中文文本分类模型库，上手即用

下载 | 最全中文文本分类模型库，上手即用

机器学习算法与Python学习

31+阅读 · 2019年10月17日

【复旦大学邱锡鹏老师】面向自然语言处理的深度学习基础，199页ppt

【复旦大学邱锡鹏老师】面向自然语言处理的深度学习基础，199页ppt

专知

159+阅读 · 2019年9月8日

NLP学习新资料：旧金山大学2019夏季自然语言处理课程

NLP学习新资料：旧金山大学2019夏季自然语言处理课程

AINLP

8+阅读 · 2019年6月11日

一文读懂深度学习文本分类方法

一文读懂深度学习文本分类方法

AINLP

15+阅读 · 2019年6月6日

【资源推荐】复旦大学NLP上手教程

【资源推荐】复旦大学NLP上手教程

专知

41+阅读 · 2019年5月15日

Awesome-Chinese-NLP：中文自然语言处理相关资料

Awesome-Chinese-NLP：中文自然语言处理相关资料

AINLP

30+阅读 · 2019年2月17日

PyTorch自然语言处理实战（附详细代码下载）

PyTorch自然语言处理实战（附详细代码下载）

专知

67+阅读 · 2019年2月12日

NLP - 基于 BERT 的中文命名实体识别（NER)

NLP - 基于 BERT 的中文命名实体识别（NER)

AINLP

466+阅读 · 2019年2月10日

NLP - 15 分钟搭建中文文本分类模型

NLP - 15 分钟搭建中文文本分类模型

AINLP

79+阅读 · 2019年1月29日

直播 | 自然语言处理中的多任务学习 & 复旦大学NLP实验室介绍

直播 | 自然语言处理中的多任务学习 & 复旦大学NLP实验室介绍

AI科技评论

6+阅读 · 2018年10月22日

相关论文

Do NLP Models Know Numbers? Probing Numeracy in Embeddings

Arxiv

5+阅读 · 2019年9月17日

Question Generation by Transformers

Question Generation by Transformers

Arxiv

5+阅读 · 2019年9月14日

BAM! Born-Again Multi-Task Networks for Natural Language Understanding

BAM! Born-Again Multi-Task Networks for Natural Language Understanding

Arxiv

3+阅读 · 2019年7月10日

Pre-Training with Whole Word Masking for Chinese BERT

Arxiv

11+阅读 · 2019年6月19日

Zero-Shot Entity Linking by Reading Entity Descriptions

Zero-Shot Entity Linking by Reading Entity Descriptions

Arxiv

6+阅读 · 2019年6月18日

ERNIE: Enhanced Language Representation with Informative Entities

Arxiv

5+阅读 · 2019年5月17日

CAN-NER: Convolutional Attention Network forChinese Named Entity Recognition

Arxiv

16+阅读 · 2019年4月3日

Pre-trained Language Model Representations for Language Generation

Arxiv

5+阅读 · 2019年4月1日

A BERT Baseline for the Natural Questions

Arxiv

8+阅读 · 2019年3月21日

Chinese NER Using Lattice LSTM

Arxiv

14+阅读 · 2018年5月15日

大家都在搜

大型语言模型

朱克爱德华兹家族

蓝牙安全攻防

模型压缩 | 知识蒸馏经典解读

微信扫码咨询专知VIP会员