【超全资源】自然语言处理(NLP)入门学习资源清单(部分资料下载)

2017 年 6 月 19 日 新智元

  新智元推荐  

来源: THU数据派(datapi)


在公众号回复“170619”下载部分资料。


Melanie Tosik目前就职于旅游搜索公司WayBlazer,她的工作内容是通过自然语言请求来生产个性化旅游推荐路线。回顾她的学习历程,她为期望入门自然语言处理的初学者列出了一份学习资源清单。






displaCy网站上的可视化依赖解析树

https://demos.explosion.ai/displacy/?text=Great%2C%20this%20is%20just%20what%20I%20needed!&model=en&cpu=1&cph=0

 

记得我曾经读到过这样一段话,如果你觉得有必要回答两次同样的问题,那就把答案发到博客上,这可能是一个好主意。根据这一原则,也为了节省回答问题的时间,我在这里给出该问题的标准问法:“我的背景是研究**科学,我对学习NLP很有兴趣。应该从哪说起呢?”


在您一头扎进去阅读本文之前,请注意,下面列表只是提供了非常通用的入门清单(有可能不完整)。 为了帮助读者更好地阅读,我在括号内添加了简短的描述并对难度做了估计。最好具备基本的编程技能(例如Python)。

 

在线课程


•  Dan Jurafsky 和 Chris Manning:自然语言处理[非常棒的视频介绍系列]

https://www.youtube.com/watch?v=nfoudtpBV68&list=PL6397E4B26D00A269

 

•  斯坦福CS224d:自然语言处理的深度学习[更高级的机器学习算法、深度学习和NLP的神经网络架构]

http://cs224d.stanford.edu/syllabus.html

 

•  Coursera:自然语言处理简介[由密西根大学提供的NLP课程]

https://www.coursera.org/learn/natural-language-processing

 

图书馆和开放资源


•  spaCy(网站,博客)[Python; 新兴的开放源码库并自带炫酷的用法示例、API文档和演示应用程序]

网站网址:https://spacy.io/

博客网址:https://explosion.ai/blog/

演示应用网址: https://spacy.io/docs/usage/showcase

 

•  自然语言工具包(NLTK)(网站,图书)[Python; NLP实用编程介绍,主要用于教学目的]

网站网址:http://www.nltk.org

图书网址: http://www.nltk.org/book/

 

•  斯坦福CoreNLP(网站)[由Java开发的高质量的自然语言分析工具包]

网站网址: https://stanfordnlp.github.io/CoreNLP/

 

活跃的博客


•  自然语言处理博客(HalDaumé)

博客网址:https://nlpers.blogspot.com/

 

•  Google研究博客

博客网址:https://research.googleblog.com/

 

•  语言日志博客(Mark Liberman)

博客网址:http://languagelog.ldc.upenn.edu/nll/

 


书籍


•  言语和语言处理(Daniel Jurafsky和James H. Martin)[经典的NLP教科书,涵盖了所有NLP的基础知识,第3版即将出版]

https://web.stanford.edu/~jurafsky/slp3/

 

• 统计自然语言处理的基础(Chris Manning和HinrichSchütze)[更高级的统计NLP方法]

https://nlp.stanford.edu/fsnlp/

 

•  信息检索简介(Chris Manning,Prabhakar Raghavan和HinrichSchütze)[关于排名/搜索的优秀参考书]

https://nlp.stanford.edu/IR-book/

 

•  自然语言处理中的神经网络方法(Yoav Goldberg)[深入介绍NLP的NN方法,和相对应的入门书籍]

https://www.amazon.com/Network-Methods-Natural-Language-Processing/dp/1627052984

入门书籍: http://u.cs.biu.ac.il/~yogo/nnlp.pdf

 

其它杂项


•  如何在TensorFlow中构建word2vec模型[学习指南]

https://www.tensorflow.org/versions/master/tutorials/word2vec/index.html

 

•  NLP深度学习的资源[按主题分类的关于深度学习的顶尖资源的概述]

https://github.com/andrewt3000/dl4nlp

 

•  最后一句话:计算语言学和深度学习——论自然语言处理的重要性。(Chris Manning)[文章]

http://mitp.nautil.us/article/170/last-words-computational-linguistics-and-deep-learning


•  对分布式表征的自然语言的理解(Kyunghyun Cho)[关于NLU的ML / NN方法的独立讲义]

https://github.com/nyu-dl/NLP_DL_Lecture_Note/blob/master/lecture_note.pdf

 

•  带泪水的贝叶斯推论(Kevin Knight)[教程工作簿]

http://www.isi.edu/natural-language/people/bayes-with-tears.pdf

 

•  国际计算语言学协会(ACL)[期刊选集]

http://aclanthology.info/

 

•  果壳问答网站(Quora):我是如何学习自然语言处理的?

https://www.quora.com/How-do-I-learn-Natural-Language-Processing


DIY项目和数据集


资料来源:http://gunshowcomic.com/

 

•  Nicolas Iderhoff已经创建了一份公开的、详尽的NLP数据集的列表。除了这些,这里还有一些项目,可以推荐给那些想要亲自动手实践的NLP新手们:

数据集:https://github.com/niderhoff/nlp-datasets

 

•  基于隐马尔可夫模型(HMM)实现词性标注(POS tagging).

https://en.wikipedia.org/wiki/Part-of-speech_tagging

https://en.wikipedia.org/wiki/Hidden_Markov_model

 

•  使用CYK算法执行上下文无关的语法解析

https://en.wikipedia.org/wiki/CYK_algorithm

https://en.wikipedia.org/wiki/Context-free_grammar

 

•  在文本集合中,计算给定两个单词之间的语义相似度,例如点互信息(PMI,Pointwise Mutual Information)

https://en.wikipedia.org/wiki/Semantic_similarity

https://en.wikipedia.org/wiki/Pointwise_mutual_information

 

•  使用朴素贝叶斯分类器来过滤垃圾邮件

https://en.wikipedia.org/wiki/Naive_Bayes_classifier

https://en.wikipedia.org/wiki/Naive_Bayes_spam_filtering

 

•  根据单词之间的编辑距离执行拼写检查

https://en.wikipedia.org/wiki/Spell_checker

https://en.wikipedia.org/wiki/Edit_distance

 

•  实现一个马尔科夫链文本生成器

https://en.wikipedia.org/wiki/Markov_chain

 

•  使用LDA实现主题模型

https://en.wikipedia.org/wiki/Topic_model

https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation

 

•  使用word2vec从大型文本语料库,例如维基百科,生成单词嵌入。

https://code.google.com/archive/p/word2vec/

https://en.wikipedia.org/wiki/Wikipedia:Database_download

 

NLP在社交媒体上


•  Twitter:#nlproc,NLPers上的文章列表(由Jason Baldrige提供)

https://twitter.com/hashtag/nlproc

https://twitter.com/jasonbaldridge/lists/nlpers

 

•  Reddit 社交新闻站点:/r/LanguageTechnology

https://www.reddit.com/r/LanguageTechnology

 

•  Medium发布平台:Nlp

https://medium.com/tag/nlp

 

原文链接:

https://medium.com/towards-data-science/how-to-get-started-in-nlp-6a62aa4eaeff







登录查看更多
1

相关内容

自然语言处理(NLP)是语言学,计算机科学,信息工程和人工智能的一个子领域,与计算机和人类(自然)语言之间的相互作用有关,尤其是如何对计算机进行编程以处理和分析大量自然语言数据 。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【DeepMind推荐】居家学习的人工智能干货资源大全集
专知会员服务
108+阅读 · 2020年6月27日
斯坦福大学经典《自然语言处理cs224n》2020课件合集
专知会员服务
95+阅读 · 2020年5月25日
【斯坦福新课】CS234:强化学习,附课程PPT下载
专知会员服务
119+阅读 · 2020年1月15日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
94+阅读 · 2019年12月23日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
学习自然语言处理路线图
专知会员服务
137+阅读 · 2019年9月24日
干货 | 适合NLP初学者的8个免费资源分享
THU数据派
4+阅读 · 2019年7月2日
免费自然语言处理(NLP)课程及教材分享
深度学习与NLP
29+阅读 · 2019年1月18日
资源 | 中文NLP资源库
机器学习算法与Python学习
20+阅读 · 2018年11月22日
Python NLP入门教程
七月在线实验室
7+阅读 · 2018年6月5日
收藏!超全机器学习资料合集!(附下载)
数据派THU
14+阅读 · 2018年1月8日
自然语言处理数据集免费资源开放(附学习资料)
Python NLP 入门教程
开源中国
14+阅读 · 2017年10月1日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
Arxiv
38+阅读 · 2020年3月10日
Tutorial on NLP-Inspired Network Embedding
Arxiv
7+阅读 · 2019年10月16日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Arxiv
12+阅读 · 2019年2月26日
Arxiv
53+阅读 · 2018年12月11日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
4+阅读 · 2018年4月17日
Arxiv
6+阅读 · 2016年1月15日
VIP会员
相关VIP内容
【DeepMind推荐】居家学习的人工智能干货资源大全集
专知会员服务
108+阅读 · 2020年6月27日
斯坦福大学经典《自然语言处理cs224n》2020课件合集
专知会员服务
95+阅读 · 2020年5月25日
【斯坦福新课】CS234:强化学习,附课程PPT下载
专知会员服务
119+阅读 · 2020年1月15日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
94+阅读 · 2019年12月23日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
学习自然语言处理路线图
专知会员服务
137+阅读 · 2019年9月24日
相关资讯
干货 | 适合NLP初学者的8个免费资源分享
THU数据派
4+阅读 · 2019年7月2日
免费自然语言处理(NLP)课程及教材分享
深度学习与NLP
29+阅读 · 2019年1月18日
资源 | 中文NLP资源库
机器学习算法与Python学习
20+阅读 · 2018年11月22日
Python NLP入门教程
七月在线实验室
7+阅读 · 2018年6月5日
收藏!超全机器学习资料合集!(附下载)
数据派THU
14+阅读 · 2018年1月8日
自然语言处理数据集免费资源开放(附学习资料)
Python NLP 入门教程
开源中国
14+阅读 · 2017年10月1日
自然语言处理 (NLP)资源大全
机械鸡
35+阅读 · 2017年9月17日
相关论文
Arxiv
38+阅读 · 2020年3月10日
Tutorial on NLP-Inspired Network Embedding
Arxiv
7+阅读 · 2019年10月16日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Arxiv
12+阅读 · 2019年2月26日
Arxiv
53+阅读 · 2018年12月11日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
4+阅读 · 2018年4月17日
Arxiv
6+阅读 · 2016年1月15日
Top
微信扫码咨询专知VIP会员