自然语言处理(NLP)是语言学,计算机科学,信息工程和人工智能的一个子领域,与计算机和人类(自然)语言之间的相互作用有关,尤其是如何对计算机进行编程以处理和分析大量自然语言数据 。

知识荟萃

自然语言处理(NLP) 专知荟萃

2022.2.18更新

领域报告

  1. 《认知智能大门企业如何构建NLP能力》,2021,德勤,[https://www2.deloitte.com/content/dam/Deloitte/cn/Documents/technology/deloitte-cn-tech-corporate-nlp-zh-210226.pdf]
  2. 《中国对话机器人chatbot行业发展研究报告》,2021,艾瑞咨询,[https://pdf.dfcfw.com/pdf/H3_AP202107041501676711_1.pdf]
  3. 《基于神经网络的自然语言处理方法中子词切分方法综述》,52页PPT,华为诺亚方舟实验室,2021.11,[https://liuquncn.github.io/talks/20211128%20China-Ethnic-Minority-Language-Processing-Workshop/Survey-of-Subword-Segmentation-for-Neural-NLP-Models.pdf]
  4. 《GPT-3研究报告》,创新工场,2020,78页PPT,http://qiangli.de/files/Technical%20report%20on%20GPT-3%20and%20its%20applied%20Business%20Scenario.pdf
  5. 自然语言处理研究报告,AMiner 研究报告第八期,2018,[https://static.aminer.cn/misc/article/nlp.pdf]

入门学习/教程

  1. 《数学之美》吴军 这个书写得特别生动形象,没有太多公式,科普性质。看完对于nlp的许多技术原理都会有初步认识。可以说是自然语言处理最好的入门读物。

  2. 如何在NLP领域第一次做成一件事 by 周明 微软亚洲研究院首席研究员、自然语言处理顶会ACL候任主席:

  3. 车万翔教授 哈尔滨工业大学[http://ir.hit.edu.cn/~car/zh/]

  4. 宗成庆研究员 中国科学院自动化研究所模式识别国家重点实验室[http://www.nlpr.ia.ac.cn/cip/cqzong.htm]

  5. 《自然语言处理》讲义

  6. 自然语言处理中的预训练模型

  7. 自然语言处理中的自注意力模型

  8. 从Transformer到BERT——自然语言处理中的表示学习进展

  9. 面向自然语言处理的深度学习基础

  10. 自然语言处理中的多任务学习

  11. Deep learning for natural language processing 自然语言处理中的深度学习 by 邱锡鹏

    • 主要讨论了深度学习在自然语言处理中的应用。其中涉及的模型主要有卷积神经网络,递归神经网络,循环神经网络网络等,应用领域主要包括了文本生成,问答系统,机器翻译以及文本匹配等。
    • [http://nlp.fudan.edu.cn/xpqiu/slides/20160618_DL4NLP@CityU.pdf]
  12. Deep Learning, NLP, and Representations (深度学习,自然语言处理及其表达)

  13. 《中文信息发展报告》 by 中国中文信息学会 2016年12月

  14. Deep Learning in NLP (一)词向量和语言模型 by Lai Siwei(来斯惟) 中科院自动化所 2013

  15. 语义分析的一些方法(一,二,三) by 火光摇曳 腾讯广点通

  16. 我们是这样理解语言的-3 神经网络语言模型 by 火光摇曳 腾讯广点通

  17. 深度学习word2vec笔记之基础篇 by falao_beiliu

  18. Understanding Convolutional Neural Networks for NLP 卷积神经网络在自然语言处理的应用 by WILDML

  19. The Unreasonable Effectiveness of Recurrent Neural Networks. 循环神经网络惊人的有效性 by Andrej Karpathy

  20. Understanding LSTM Networks 理解长短期记忆网络(LSTM NetWorks) by colah

  21. 注意力机制(Attention Mechanism)在自然语言处理中的应用 by robert_ai _

  22. 初学者如何查阅自然语言处理(NLP)领域学术资料  刘知远

  1. 人工智能在自然语言处理中的应用初步研究  刘翔
  1. CS224N来了!斯坦福经典《自然语言处理》2022课程正在进行!Manning讲座。

综述

  1. A Primer on Neural Network Models for Natural Language Processing Yoav Goldberg. October 2015. No new info, 75 page summary of state of the art.
  2. Deep Learning for Web Search and Natural Language Processing - [https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/wsdm2015.v3.pdf]
  3. Probabilistic topic models
  4. Natural language processing: an introduction
  5. A unified architecture for natural language processing: Deep neural networks with multitask learning
  6. A Critical Review of Recurrent Neural Networksfor Sequence Learning - [http://arxiv.org/pdf/1506.00019v1.pdf]
  7. Deep parsing in Watson - [http://nlp.cs.rpi.edu/course/spring14/deepparsing.pdf]
  8. Online named entity recognition method for microtexts in social networking services: A case study of twitter
  9. 《基于神经网络的词和文档语义向量表示方法研究》 by Lai Siwei(来斯惟) 中科院自动化所 2016
    • 来斯惟的博士论文基于神经网络的词和文档语义向量表示方法研究,全面了解词向量、神经网络语言模型相关的内容。
    • [https://arxiv.org/pdf/1611.05962.pdf]
  10. Recent Advances in Natural Language Processing via Large Pre-Trained Language Models: A Survey(基于大型预训练语言模型的自然语言处理研究进展综述)
    • [zhuanzhi.ai/vip/3cb0a285d310fdaf7687dc0a758589a5],2021
  11. Knowledge Enhanced Pretrained Language Models: A Compreshensive Survey(知识增强预训练语言模型:全面综述)
  12. Pretrained Language Models for Text Generation: A Survey(基于预训练语言模型的文本生成研究综述)
  13. Few-shot Knowledge Graph-to-Text Generation with Pretrained Language Models(预训练语言模型的少样本知识图谱文本生成)
  14. 面向自然语言处理的预训练技术研究综述
  15. 自然语言处理预训练模型的研究综述
  16. 自然语言生成综述

进阶论文

Word Vectors

  1. Word2vec Efficient Estimation of Word Representations in Vector Space
  2. ** Doc2vec** Distributed Representations of Words and Phrases and their Compositionality
  3. Word2Vec tutorial
  4. GloVe : Global vectors for word representation
  5. How to Generate a Good Word Embedding? 怎样生成一个好的词向量? Siwei Lai, Kang Liu, Liheng Xu, Jun Zhao
  6. tweet2vec
  7. tweet2vec
  8. author2vec
  9. item2vec
  10. lda2vec
  11. illustration2vec
  12. tag2vec
  13. category2vec
  14. topic2vec
  15. image2vec
  16. app2vec
  17. prod2vec
  18. metaprod2vec
  19. sense2vec
  20. node2vec
  21. subgraph2vec
  22. wordnet2vec
  23. doc2sent2vec
  24. context2vec
  25. rdf2vec
  26. hash2vec
  27. query2vec
  28. gov2vec
  29. novel2vec
  30. emoji2vec
  31. video2vec
  32. video2vec
  33. sen2vec
  34. content2vec
  35. cat2vec
  36. diet2vec
  37. mention2vec
  38. POI2vec
  39. wang2vec
  40. dna2vec
  41. pin2vec
  42. paper2vec
  43. struc2vec
  44. med2vec
  45. net2vec
  46. sub2vec
  47. metapath2vec
  48. concept2vec
  49. graph2vec
  50. doctag2vec
  51. skill2vec
  52. style2vec
  53. ngram2vec

Machine Translation

  1. Neural Machine Translation by jointly learning to align and translate
  2. Sequence to Sequence Learning with Neural Networks
  3. Cross-lingual Pseudo-Projected Expectation Regularization for Weakly Supervised Learning
  4. Generating Chinese Named Entity Data from a Parallel Corpus
  5. IXA pipeline: Efficient and Ready to Use Multilingual NLP tools

Summarization

  1. Extraction of Salient Sentences from Labelled Documents
  2. A Neural Attention Model for Abstractive Sentence Summarization. EMNLP 2015. Facebook AI Research
  3. A Convolutional Attention Network for Extreme Summarization of Source Code
  4. Abstractive Text Summarization Using SequencetoSequence RNNs and Beyond. BM Watson & Université de Montréal
  5. textsum: Text summarization with TensorFlow
  6. How to Run Text Summarization with TensorFlow

Text Classification

  1. Convolutional Neural Networks for Sentence Classification
  2. Recurrent Convolutional Neural Networks for Text Classification
  3. Characterlevel Convolutional Networks for Text Classification.NIPS 2015. "Text Understanding from Scratch"
  4. A CLSTM Neural Network for Text Classification
  5. Text classification using DIGITS and Torch7
  6. Recurrent Neural Network for Text Classification with MultiTask Learning
  7. Deep MultiTask Learning with Shared Memory. EMNLP 2016
  8. Virtual Adversarial Training for SemiSupervised Text
  9. Bag of Tricks for Efficient Text Classification. Facebook AI Research
  10. Actionable and Political Text Classification using Word Embeddings and LSTM
  11. fancycnn: Multiparadigm Sequential Convolutional Neural Networks for text classification
  12. Convolutional Neural Networks for Text Categorization: Shallow Wordlevel vs. Deep Characterlevel
  13. Hierarchical Attention Networks for Document Classification. NAACL 2016
  14. ACBLSTM: Asymmetric Convolutional Bidirectional LSTM Networks for Text Classification
  15. Generative and Discriminative Text Classification with Recurrent Neural Networks. DeepMind
  16. Adversarial Multitask Learning for Text Classification. ACL 2017
  17. Deep Text Classification Can be Fooled. Renmin University of China
  18. Deep neural network framework for multilabel text classification
  19. MultiTask Label Embedding for Text Classification

 Dialogs

  1. A Neural Network Approach toContext-Sensitive Generation of Conversational Responses. by Sordoni 2015. Generates responses to tweets.
  2. Neural Responding Machine for Short-Text Conversation
  3. A Neural Conversation Model
  4. Visual Dialog
  5. Papers, code and data from FAIR for various memory-augmented nets with application to text understanding and dialogue.
  6. Neural Emoji Recommendation in Dialogue Systems

Reading Comprehension

  1. Text Understanding with the Attention Sum Reader Network. ACL 2016
  2. A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task
  3. Consensus Attentionbased Neural Networks for Chinese Reading Comprehension
  4. Separating Answers from Queries for Neural Reading Comprehension
  5. AttentionoverAttention Neural Networks for Reading Comprehension
  6. Teaching Machines to Read and Comprehend CNN News and Children Books using Torch
  7. Reasoning with Memory Augmented Neural Networks for Language Comprehension
  8. Bidirectional Attention Flow: Bidirectional Attention Flow for Machine Comprehension
  9. NewsQA: A Machine Comprehension Dataset
  10. GatedAttention Readers for Text Comprehension
  11. Get To The Point: Summarization with PointerGenerator Networks. ACL 2017. Stanford University & Google Brain

Memory and Attention Models

  1. Reasoning, Attention and Memory RAM workshop at NIPS 2015.
  2. Memory Networks. Weston et. al 2014
  3. End-To-End Memory Networks
  4. Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks
  5. Evaluating prerequisite qualities for learning end to end dialog systems
  6. Neural Turing Machines
  7. Inferring Algorithmic Patterns with Stack-Augmented Recurrent Nets
  8. Reasoning about Neural Attention
  9. A Neural Attention Model for Abstractive Sentence Summarization
  10. Neural Machine Translation by Jointly Learning to Align and Translate
  11. Recurrent Continuous Translation Models
  1. Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation
  1. Teaching Machines to Read and Comprehend

Reinforcement learning in nlp

  1. Generating Text with Deep Reinforcement Learning - [https://arxiv.org/abs/1510.09202]
  2. Improving Information Extraction by Acquiring External Evidence with Reinforcement Learning
  3. Language Understanding for Text-based Games using Deep Reinforcement Learning
  4. On-line Active Reward Learning for Policy Optimisation in Spoken Dialogue Systems
  5. Deep Reinforcement Learning with a Natural Language Action Space
  6. 基于DQN的开放域多轮对话策略学习  宋皓宇, 张伟男 and 刘挺 SMP2017 最佳论文奖 2017

GAN for NLP

  1. Generating Text via Adversarial Training
  2. SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient
  3. Adversarial Learning for Neural Dialogue Generation
  4. GANs for sequence of discrete elements with the Gumbel-softmax distribution
  5. Connecting generative adversarial network and actor-critic methods

视频课程

  1. Introduction to Natural Language Processing(自然语言处理导论) 密歇根大学 - [https://www.coursera.org/learn/natural-language-processing]
  2. 斯坦福 cs224d 2015年课程 Deep Learning for Natural Language Processing by Richard Socher [2015 classes] - [https://www.youtube.com/playlist?list=PLmImxx8Char8dxWB9LRqdpCTmewaml96q]
  3. 斯坦福 cs224d 2016年课程 Deep Learning for Natural Language Processing by Richard Socher. Updated to make use of Tensorflow.
  4. 斯坦福 cs224n 2017年课程 Deep Learning for Natural Language Processing by Chris Manning Richard Socher
  5. Natural Language Processing - by 哥伦比亚大学 Mike Collins - [https://www.coursera.org/learn/nlangp]
  6. NLTK with Python 3 for Natural Language Processing by Harrison Kinsley. Good tutorials with NLTK code implementation.
  7. Computational Linguistics by Jordan Boyd-Graber . Lectures from University of Maryland.
  8. Natural Language Processing - Stanford by Dan Jurafsky & Chris Manning.

Tutorial

  1. Deep Learning for Natural Language Processing (without Magic)

  2. A Primer on Neural Network Models for Natural Language Processing

  3. Deep Learning for Natural Language Processing: Theory and Practice [Tutorial]

  4. Recurrent Neural Networks with Word Embeddings

  5. LSTM Networks for Sentiment Analysis

  6. Semantic Representations of Word Senses and Concepts 语义表示 ACL 2016 Tutorial by José Camacho-Collados, Ignacio Iacobacci, Roberto Navigli and Mohammad Taher Pilehvar

  7. ACL 2016 Tutorial: Understanding Short Texts 短文本理解

  8. Practical Neural Networks for NLP  EMNLP 2016

  9. Structured Neural Networks for NLP: From Idea to Code

  10. Understanding Deep Learning Models in NLP

  11. Deep learning for natural language processing, Part 1

  12. TensorFlow Tutorial on Seq2Seq Models

  13. Natural Language Understanding with Distributed Representation Lecture Note by Cho

  14. Michael Collins

  15. Several tutorials by Radim Řehůřek[https://radimrehurek.com/gensim/tutorial.html] on using Python and genism

  16. Natural Language Processing in Action

图书

  1. Natural Language Processing with Transformers(Transformer自然语言处理),2022年,https://www.oreilly.com/library/view/natural-language-processing/9781098103231/
  2. Real-World Natural Language Processing: Practical applications with deep learning(自然语言处理实战:深度学习应用), 2021, https://www.manning.com/books/real-world-natural-language-processing
  3. Transfer Learning for Natural Language Processing(迁移学习自然语言处理),2021,https://www.manning.com/books/transfer-learning-for-natural-language-processing
  4. High Performance Natural Language Processing(高性能自然语言处理),2020,https://github.com/Eric-Wallace/interpretability-tutorial-emnlp2020/
  5. 《数学之美》(吴军)
    • 科普性质,看完对于nlp的许多技术原理都会有初步认识
  6. 《自然语言处理综论》(Daniel Jurafsky)
    • 这本书是冯志伟老师翻译的 作者是Daniel Jurafsky,在coursera上面有他的课程。
    • 本书第三版正尚未出版,但是英文版已经全部公开。
    • Speech and Language Processing (3rd ed. draft) by Dan Jurafsky and James H. Martin
    • [https://web.stanford.edu/~jurafsky/slp3/]
  7. 《自然语言处理简明教程》(冯志伟)
  8. 《统计自然语言处理(第2版)》(宗成庆)
  9. 清华大学刘知远老师等合著的《互联网时代的机器学习和自然语言处理技术大数据智能》,科普性质。

领域专家

国内

  1. 清华大学
    • NLP研究:孙茂松主要从事一些中文文本处理工作,比如中文文本分类,中文分词。刘知远从事关键词抽取,表示学习,知识图谱以及社会计算。刘洋从事数据驱动的机器学习。
    • 情感分析:黄民烈
    • 信息检索:刘奕群、马少平
    • 语音识别——王东
    • 社会计算:唐杰
  2. 哈尔滨工业大学
    • 社会媒体处理:刘挺、丁效
    • 情感分析:秦兵 车万翔
  3. 中科院
    • 语言认知模型:王少楠,宗成庆
    • 信息抽取:孙乐、韩先培
    • 信息推荐与过滤:王斌(中科院信工所)、鲁骁(国家计算机网络应急中心)
    • 自动问答:赵军、刘康,何世柱(中科院自动化研究所)
    • 机器翻译:张家俊、宗成庆(中科院自动化研究所)
    • 语音 合成——陶建华(中科院自动化研究所)
    • 文字识别:刘成林(中科院自动化研究所)
    • 文本匹配:郭嘉丰
  4. 北京大学
    • 篇章分析:王厚峰、李素建
    • 自动文摘,情感分析:万小军、姚金戈
    • 语音技术:说话人识别——郑方
    • 多模态信息处理:陈晓鸥
    • 冯岩松
  5. 复旦大学
    • 语言表示与深度学习:黄萱菁、邱锡鹏
  6. 苏州大学
    • 词法与句法分析:李正华、陈文亮、张民
    • 语义分析:周国栋、李军
    • 机器翻译:熊德意
  7. 中国人民大学
    • 表示学习,推荐系统:赵鑫
  8. 微软亚洲研究院自然语言计算组
    • 周明 刘铁岩 谢幸
  9. 头条人工智能实验室
    • 李航
  10. 华为诺亚
    • 前任 李航 吕正东

国际

  1. 斯坦福大学
    • 知名的NLP学者:Daniel Jurafsky, Christopher Manning, Percy Liang和Chris Potts, Richard Socher
    • NLP研究:Jurafsky和科罗拉多大学波尔得分校的James Martin合著自然语言处理方面的教材。这个NLP研究组从事几乎所有能够想象到的研究方向。今天NLP领域最被广泛使用的句法分析器和词性标注工具可能都是他们负责开发的。
    • [http://nlp.stanford.edu/]
  2. 加州大学圣巴巴拉分校
    • 知名NLP学者:William Wang(王威廉), Fermin Moscoso del Prado Martin
    • NLP研究:William研究方向为信息抽取和机器学习,Fermin研究方向为心理语言学和计量语言学。
    • [http://www.cs.ucsb.edu/~william] William Wang(王威廉)经常在微博分享关于NLP的最近进展和趣事,几乎每条都提供高质量的信息。
    • 微博:[https://www.weibo.com/u/1657470871]
  3. 加州大学圣迭戈分校
    • 知名的NLP学者:Lawrence Saul(Roger Levy今年加入MIT)
    • NLP研究:主要研究方向是机器学习,NLP相关的工作不是很多,但是在计算心理语言学有些比较有趣的工作。
    • [http://grammar.ucsd.edu/cpl/]
  4. 加州大学圣克鲁兹分校
  5. 卡内基梅隆大学
    • 知名NLP学者:Jaime Carbonell,Alon Lavie, Carolyn Rosé, Lori Levin, Roni Rosenfeld, Chris Dyer (休假中), Alan Black, Tom Mitchell以及Ed Hovy
    • NLP研究:在多个NLP领域做了大量工作,包括机器翻译、文摘、交互式对话系统、语音、信息检索以及工作最为突出的机器学习领域。Chris主要方向为机器学习和机器翻译交叉研究,做了一些非常出色的工作。虽然Tom Mitchell属于机器学习系而不是语言技术研究所,但是由于他在CMU的“永不停息的语言学习者”项目中的重要贡献,我们必须在这里提到他。
    • [http://www.cs.cmu.edu/~nasmith/nlp-cl.html]
    • [http://www.lti.cs.cmu.edu/]
  6. 芝加哥大学(以及芝加哥丰田科技学院TTIC)
    • 知名NLP学者:John Lafferty, John Goldsmith, Karen Livescu, MichelGalley (兼职) 和Kevin Gimpel.
    • NLP研究:芝加哥大学以及丰田科技学院有许多机器学习、语音以及NLP方向的研究人员。John Lafferty是一个传奇性人物,其参与原始IBM MT模型研发,同时也是CRF模型的发明人之一。Goldsmith的团队是无监督的形态归纳法(unsupervised morphology induction)的先驱。Karen主要研究方向为语音,特别是对发音方式的建模。Michel主要研究结构化预测问题,特别是统计机器翻译。Kevin在许多结构化预测问题上都做出出色工作。
    • [http://ai.cs.uchicago.edu/faculty/]
    • [http://www.ttic.edu/faculty.php]
  7. 科罗拉多大学博尔德分校
    • 知名NLP学者:Jordan Boyd-Graber, Martha Palmer, James Martin,Mans Hulden以及Michael Paul
    • NLP研究:Martha Palmer主要研究资源标注和创建,其中代表性有FrameNet, VerbNet, OntoNotes等,此外其也在词汇语义学(Lexical semantics)做了一些工作。Jim Martin主要研究语言的向量空间模型,此外与Dan Jurafsky(以前在科罗拉多大学博尔德分校,之后去了斯坦福)合作编写语音和语言处理的著作。Hulden, Boyd-Graber和Paul最近加入科罗拉多大学博尔德分校。Hulden主要使用有穷状态机相关技术,做一些音位学(phonology)和形态学(morphology)相关工作,Boyd-Graber主要研究主题模型和机器学习在问答、机器翻译上的应用。Michael Paul主要研究机器学习在社交媒体监控(social media monitoring)上的应用。
    • [http://clear.colorado.edu/start/index.php]
  8. 哥伦比亚大学
    • 知名的NLP学者:有多位NLP领域顶级学者,Kathy McKeown, Julia Hirschberg, Michael Collins(休假中), Owen Rambow, Dave Blei, Daniel Hsu和Becky Passonneau
    • NLP研究:在文摘、信息抽取以及机器翻译上面做了大量的研究。Julia团队主要在语音领域做一些研究。Michael Collins是从MIT离职后加入哥伦比亚NLP团队的,其主要研究内容为机器翻译和parsing。DaveBlei 和Daniel Hsu是机器学习领域翘楚,偶尔也会做一些语言相关的工作。
    • [http://www1.cs.columbia.edu/nlp/index.cgi]
  9. 康纳尔大学
    • NLP知名学者:Lillian Lee, Thorsten Joachims, Claire Cardie, Yoav Artzi, John Hale,David Mimno, Cristian Danescu-Niculescu-Mizil以及Mats Rooth
    • NLP研究:在机器学习驱动NLP方面有许多有趣的研究。Lillian与其学生做了许多独辟蹊径的研究,如电影评论分类,情感分析等。Thorsten,支持向量机的先驱之一,SVMlight的作者。John研究内容包括计算心理语言学和认知科学。Mats研究领域包括语义学和音位学。Claire Cardie在欺诈性评论方面的研究室非常有影响的。Yoav Artzi在语义分析和情景化语言理解方面有许多重要的工作。David Mimno在机器学习和数位人文学(digital humanities)交叉研究的顶级学者。
    • [http://nlp.cornell.edu/]
  10. 佐治亚理工学院
    • 知名NLP学者:Jacob Eisenstein和Eric Gilbert
    • NLP研究:Jacob在机器学习和NLP交叉领域做了一些突出性的工作,特别是无监督学习以及社交媒体领域。在MIT,他是Regina Barzilay的学生,在CMU和UIUC分别与Noah Smith、Dan Roth做博士后研究。此外,Eric Gilbert在计算社会学(computationalsocial science)上做了许多研究。这些研究经常与NLP进行交叉。
    • [http://www.cc.gatech.edu/~jeisenst/]
    • [http://smlv.cc.gatech.edu/]
    • [http://comp.social.gatech.edu/]
  11. 伊利诺伊大学厄巴纳-香槟分校
    • 知名的NLP学者:Dan Roth, Julia Hockenmaier, ChengXiang Zhai, Roxana Girju和Mark Hasegawa-Johnson
    • NLP研究:机器学习在NLP应用,NLP在生物学上应用(BioNLP),多语言信息检索,计算社会学,语音识别
    • [http://nlp.cs.illinois.edu/]
  12. 约翰·霍普金斯大学(JHU)
    • 知名NLP学者:Jason Eisner, Sanjeev Khudanpur, David Yarowsky,Mark Dredze, Philipp Koehn以及Ben van Durme,详细情况参考链接
    • NLP研究:约翰·霍普金斯有两个做NLP的研究中心,即 the Center for Language and Speech Processing (CLSP) 和the Human Language Technology Center of Excellence(HLTCOE)。他们的研究几乎涵盖所有NLP领域,其中机器学习、机器翻译、parsing和语音领域尤为突出。Fred Jelinek,语音识别领域的先驱,其于2010年9月去世,但是语音识别研究一直存在至今。在过去十年内,JHU的NLP summer research workshop产生出许多开创性的研究和工具。
    • [http://web.jhu.edu/HLTCOE/People.html]
    • [http://clsp.jhu.edu/]
  13. 马里兰大学学院市分校
    • 知名的NLP学者:Philip Resnik, Hal Daumé, Marine Carpuat, Naomi Feldman
    • NLP研究:和JHU一样,其NLP研究比较全面。比较大的领域包括机器翻译,机器学习,信息检索以及计算社会学。此外,还有一些团队在计算心理语言学上做一些研究工作。
    • [https://wiki.umiacs.umd.edu/clip/index.php/Main_Page]
  14. 马萨诸塞大学阿默斯特分校
    • 知名的NLP学者:Andrew McCallum, James Allan (不是罗彻斯特大学的James Allan), Brendan O'Connor和W. Bruce Croft
    • NLP研究:机器学习和信息检索方向顶尖研究机构之一。Andrew的团队在机器学习在NLP应用方面做出许多重要性的工作,例如CRF和无监督的主题模型。其与Mark Dredze写了一篇指导性文章关于“如何成为一名成功NLP/ML Phd”。 Bruce编写了搜索引擎相关著作“搜索引擎:实践中的信息检索”。James Allan是现代实用信息检索的奠基人之一。IESL实验室在信息抽取领域做了大量的研究工作。另外,其开发的MalletToolkit,是NLP领域非常有用工具包之一。
    • [http://ciir.cs.umass.edu/personnel/index.html]
    • [http://www.iesl.cs.umass.edu/]
    • [http://people.cs.umass.edu/~brenocon/complang_at_umass/]
    • [http://mallet.cs.umass.edu/]
  15. 麻省理工学院
    • 知名的NLP学者:Regina Barzilay, Roger Levy (2016年加入)以及Jim Glass
    • NLP研究:Regina与ISI的Kevin Knight合作在文摘、语义、篇章关系以及古代文献解读做出过极其出色的工作。此外,开展许多机器学习相关的工作。另外,有一个比较大团队在语音领域做一些研究工作,Jim Glass是其中一员。
    • [http://people.csail.mit.edu/regina/]
    • [http://groups.csail.mit.edu/sls//sls-blue-noflash.shtml]
  16. 纽约大学
    • 知名NLP学者:Sam Bowman, Kyunghyun Cho, Ralph Grishman
    • NLP研究:Kyunghyun and Sam刚刚加入NLP团队,主要研究包括机器学习/深度学习在NLP以及计算语言学应用。与CILVR machine learning group、Facebook AI Research以及Google NYC有紧密联系。
    • [https://wp.nyu.edu/ml2/]
  17. 北卡罗来纳大学教堂山分校
    • 知名的NLP学者:Mohit Bansal, Tamara Berg, Alex Berg, Jaime Arguello
    • NLP研究:Mohit于2016年加入该团队,主要研究内容包括parsing、共指消解、分类法(taxonomies)以及世界知识。其最近的工作包括多模态语义、类人语言理解(human-like language understanding)以及生成/对话。Tamara 和Alex Berg在语言和视觉领域发了许多有影响力的论文,现在研究工作主要围绕visual referring expressions和 visual madlibs。Jaime主要研究对话模型、web搜索以及信息检索。UNC语言学系还有CL方面一些研究学者,例如Katya Pertsova(计算形态学(computational morphology))以及Misha Becker(computational language acquisition)
    • [http://www.cs.unc.edu/~mbansal/]
    • [http://www.tamaraberg.com/]
    • [http://acberg.com/]
    • [https://ils.unc.edu/~jarguell/]
  18. 北德克萨斯大学
    • 知名的NLP学者:Rodney Nielsen
    • NLP研究:Rodney主要研究NLP在教育中的应用,包括自动评分、智能教学系统
    • [http://www.rodneynielsen.com/]
  19. 东北大学
    • 知名NLP学者:David A. Smith, Lu Wang, Byron Wallace
    • NLP研究:David在数位人文学(digital humanities)特别是语法方面做了许多重要的工作。另外,其受google资助做一些语法分析工作,调研结构化语言(structural language)的变化。Lu Wang主要在文摘、生成以及论元挖掘(argumentation mining)、对话、计算社会学的应用以及其他交叉领域。Byron Wallace的工作包括文本挖掘、机器学习,以及它们在健康信息学上的应用。
    • [http://www.northeastern.edu/nulab/]
  20. 纽约市立学院(CUNY)
    • 知名NLP学者:Martin Chodorow和WilliamSakas
    • NLP研究:Martin Chodorow,ETS顾问,设计Leacock-Chodorow WordNet相似度指标计算公式,在语料库语言学、心理语言学有一些有意义的工作。此外NLP@CUNY每个月组织一次讨论,有很多高水平的讲者。
    • [http://nlpatcuny.cs.qc.cuny.edu/]
  21. 俄亥俄州立大学(OSU)
    • 知名的NLP学者:Eric Fosler-Lussier, Michael White, William Schuler,Micha Elsner, Marie-Catherine de Marneffe, Simon Dennis, 以及Alan Ritter, Wei Xu
    • NLP研究:Eric的团队研究覆盖从语音到语言模型到对话系统的各个领域。Michael主要研究内容包括自然语言生成和语音合成。William团队研究内容主要有parsing、翻译以及认知科学。Micha在Edinburgh做完博士后工作,刚刚加入OSU,主要研究内容包括parsing、篇章关系、narrative generation以及language acquisition。Simon主要做一些语言认知方面的工作。Alan主要研究NLP在社交媒体中应用和弱监督学习。Wei主要做一些社交媒体、机器学习以及自然语言生成的交叉研究。
    • [http://cllt.osu.edu/]
  22. 宾夕法尼亚大学 -知名的NLP学者:Arvind Joshi, Ani Nenkova, Mitch Marcus, Mark Liberman和Chris Callison-Burch
    • NLP研究:这里是LTAG(Lexicalized Tree Adjoining Grammar)、Penn Treebank的起源地,他们做了大量parsing的工作。Ani从事多文档摘要的工作。同时,他们也有很多机器学习方面的工作。Joshi教授获得ACL终身成就奖。
    • [http://nlp.cis.upenn.edu/]
  23. 匹兹堡大学
  24. 罗切斯特大学
    • 知名的NLP学者:Len Schubert, James Allen和Dan Gildea
    • NLP研究:James Allen是篇章关系和对话任务上最重要的学者之一,他的许多学生在这些领域都很成功,如在AT&T实验室工作的Amanda Stent,在南加州大学资讯科学研究院USC/ISI的David Traum。Len Schubert是计算语义学领域的重要学者,他的许多学生是自然语言处理领域内的重要人物,如在Hopkins(约翰•霍普金斯大学)的Ben Van Durme。Dan在机器学习、机器翻译和parsing的交叉研究上有一些有趣的工作。
    • [http://www.cs.rochester.edu/~james/]
    • [http://www.cs.rochester.edu/~gildea/] -[http://www.cs.rochester.edu/~schubert/]
  25. 罗 格斯大学
    • 知名的NLP学者:Nina Wacholder和Matthew Stone
    • NLP研究:Smaranda和Nina隶属通讯与信息学院(School of Communication and Information)的SALTS(Laboratory for the Study of Applied Language Technology and Society)实验室。他们不属于计算机专业。Smaranda主要做自然语言处理方面的工作,包括机器翻译、信息抽取和语义学。Nina虽然之前从事计算语义学研究,但是目前更专注于认知方向的研究。Matt Stone是计算机专业的,从事形式语义(formal semantics)和多模态交流(multimodal communication)的研究。
    • [http://salts.rutgers.edu/]
    • [http://www.cs.rutgers.edu/~mdstone/]
  26. 南加州大学
    • 知名的NLP学者:信息科学学院有许多优秀的自然语言处理专家,如Kevin Knight, Daniel Marcu, Jerry Hobbs和 Zornitsa Kozareva
    • NLP研究:他们从事几乎所有可能的自然语言处理研究方向。其中主要的领域包括机器翻译、文本解密(decipherment)和信息抽取。Jerry主要从事篇章关系和对话任务的研究工作。Zornitsa从事关系挖掘和信息抽取的研究工作。
    • [http://nlg.isi.edu/]
  27. 加州大学伯克利分校
    • 知名的NLP学者:Dan Klein, Marti Hearst, David Bamman
    • NLP研究:可能是做NLP和机器学习交叉研究的最好研究机构之一。Dan培养了许多优秀学生,如Aria Haghighi, John DeNero和Percy Liang。
    • [http://nlp.cs.berkeley.edu/Members.shtml]
  28. 德克萨斯大学奥斯汀分校
    • 知名的NLP学者:Ray Mooney, Katrin Erk, Jason Baldridge和Matt Lease
    • NLP研究:Ray是自然语言处理与人工智能领域公认的资深教授。他广泛的研究方向包括但不限于机器学习、认知科学、信息抽取和逻辑。他仍然活跃于研究领域并且指导很多学生在非常好的期刊或者会议上发表文章。Katrin 专注于计算语言学的研究并且也是该领域著名研究者之一。Jason从事非常酷的研究,和半监督学习、parsing和篇章关系的交叉领域相关。Matt研究信息检索的多个方面,最近主要发表了许多在信息检索任务上使用众包技术的论文。
    • [http://www.utcompling.com/]
    • [http://www.cs.utexas.edu/~ml/]
  29. 华盛顿大学
    • 知名的NLP学者:Mari Ostendorf, Jeff Bilmes, Katrin Kirchoff, Luke Zettlemoyer, Gina Ann Levow, Emily Bender, Noah Smith, Yejin Choi和 Fei Xia
    • NLP研究:他们的研究主要偏向于语音和parsing,但是他们也有通用机器学习的相关工作。他们最近开始研究机器翻译。Fei从事机器翻译、parsing、语言学和bio-NLP这些广泛的研究工作。Emily从事语言学和自然语言处理的交叉研究工作,并且负责著名的计算语言学相关的专业硕士项目。Gina从事对话、语音和信息检索方向的工作。学院正在扩大规模,引入了曾在卡内基梅隆大学担任教职的Noah和曾在纽约州立大学石溪分校担任教职的Yejin。
    • [https://www.cs.washington.edu/research/nlp]
    • [https://ssli.ee.washington.edu/]
    • [http://turing.cs.washington.edu/]
    • [http://depts.washington.edu/lingweb/]
  30. 威斯康辛大学麦迪逊分校
  31. 剑桥大学
    • 知名的NLP学者:Stephen Clark, Simone Teufel, Bill Byrne和Anna Korhonen
    • NLP研究:有很多基于parsing和信息检索的工作。最近,也在其他领域发表了一些论文。Bill是语音和机器翻译领域非常知名的学者。
    • [http://www.cl.cam.ac.uk/research/nl/]
  32. 爱丁堡大学
    • 知名的NLP学者:Mirella Lapata, Mark Steedman, Miles Osborne, Steve Renals, Bonnie Webber, Ewan Klein, Charles Sutton, Adam Lopez和Shay Cohen
    • NLP研究:他们在几乎所有的领域都有研究,但我最熟悉的工作是他们在统计机器翻译和基于机器学习方法的篇章连贯性方面的研究。
    • [http://www.ilcc.inf.ed.ac.uk/]
  33. 新加坡国立大学
    • 知名的NLP学者:Hwee Tou Ng
    • NLP研究:Hwee Tou的组主要从事机器翻译(自动评价翻译质量是焦点之一)和语法纠错(grammatical error correction)方面的研究。他们也发表了一些词义消歧和自然语言生成方面的工作。Preslav Nakov曾是这里的博士后,但现在去了卡塔尔。
    • [http://www.comp.nus.edu.sg/~nlp/home.html]
  34. 牛津大学
    • 知名的NLP学者:Stephen Pulman和Phil Blunsom
    • NLP研究:Stephen在第二语言学习(second language learning)和语用学方面做了许多工作。Phil很可能是机器学习和机器翻译交叉研究领域的领导者之一。
    • [http://www.clg.ox.ac.uk/people.html]
  35. 亚琛工业大学
    • 知名的NLP学者:Hermann Ney
    • NLP研究:Aachen是世界上研究语音识别和机器翻译最好的地方之一。任何时候,都有10-15名博士生在Hermann Ney的指导下工作。一些统计机器翻译最厉害的人来自Aachen,如Franz Och(Google Translate负责人),Richard Zens(目前在Google)和Nicola Ueffing(目前在NRC国家研究委员会,加拿大)。除了通常的语音和机器翻译的研究,他们同时在翻译和识别手语(sign language)方面有一些有趣的工作。但是,在其他NLP领域没有许多相关的研究。
    • [http://www-i6.informatik.rwth-aachen.de/web/Homepage/index.html]
  36. 谢菲尔德大学
    • 知名的NLP学者:Trevor Cohn, Lucia Specia, Mark Stevenson和Yorick Wilks
    • NLP研究:Trevor从事机器学习与自然语言处理交叉领域的研究工作,主要关注图模型和贝叶斯推理(Bayesian inference)。Lucia是机器翻译领域的知名学者并在这个领域组织(或共同组织)了多个shared tasks和workshops。Mark的组从事计算语义学和信息抽取与检索的研究工作。Yorick获得ACL终身成就奖,并在大量的领域从事研究工作。最近,他研究语用学和信息抽取。
    • [http://nlp.shef.ac.uk/]
  37. 达姆施塔特工业大学, The Ubiquitous Knowledge Processing实验室
    • 知名的NLP学者:Irena Gurevych, Chris Biemann和Torsten Zesch -NLP研究:这个实验室进行许多领域的研究工作:计算词汇语义学(computational lexical semantics)、利用和理解维基百科以及其他形式的wikis、情感分析、面向教育的NL P以及数位人文学(digital humanities)。Irena是计算语言学(CL)和自然语言处理(NLP)领域的著名学者。Chris曾在Powerset工作,现在在语义学领域有一些有趣的项目。Torsten有许多学生从事不同领域的研究。UKP实验室为(NLP)社区提供了许多有用的软件,JWPL(Java Wikipedia Library)就是其中之一。
    • [http://www.ukp.tu-darmstadt.de/]
  38. 多伦多大学
    • 知名的NLP学者:Graeme Hirst, Gerald Penn和Suzanne Stevenson
    • NLP研究:他们有许多词汇语义学(lexical semantics)的研究以及一些parsing方面的研究。Gerald从事语音方面的研究工作。
    • [http://www.cs.utoronto.ca/compling/]
  39. 伦敦大学学院
    • 知名的NLP学者:Sebastian Riedel
    • NLP研究:Sebastian主要从事自然语言理解方面的研究工作,大部分是知识库和语义学相关的工作。
    • [http://mr.cs.ucl.ac.uk/]

会议

自然语言处理国际会议

  1. Association for Computational Linguistics (ACL)
  2. Empirical Methods in Natural Language Processing (EMNLP)
  3. North American Chapter of the Association for Computational Linguistics
  4. International Conference on Computational Linguistics (COLING)
  5. Conference of the European Chapter of the Association for Computational Linguistics (EACL)

相关包含NLP内容的其他会议

  1. SIGIR: Special Interest Group on Information Retrieval
  2. AAAI: Association for the Advancement of Artificial Intelligence
  3. ICML: International Conference on Machine Learning
  4. KDD: Association for Knowledge Discovery and Data Mining
  5. ICDM: International Conference on Data Mining

期刊

  1. Journal of Computational Linguistics
  2. Transactions of the Association for Computational Linguistics
  3. Journal of Information Retrieval
  4. Journal of Machine Learning

国内会议

通常都包含丰富的讲习班和Tutorial 公开的PPT都是很好的学习资源

  1. CCKS 全国知识图谱与语义计算大会
  2. SMP 全国社会媒体处理大会
  3. CCL 全国计算语言学学术会议
  4. NLPCC Natural Language Processing and Chinese Computing
  5. NCMMSC 全国人机语音通讯学术会议

Toolkit Library

Python Libraries

  1. fastText by Facebook
  2. Scikit-learn: Machine learning in Python
  3. Natural Language Toolkit [NLTK]
  4. Pattern
    • [http://www.clips.ua.ac.be/pattern]
    • A web mining module for the Python programming language. It has tools for natural language processing, machine learning, among others.
  5. TextBlob
    • [http://textblob.readthedocs.org/]
    • Providing a consistent API for diving into common natural language processing [NLP] tasks. Stands on the giant shoulders of NLTK and Pattern, and plays nicely with both.
  6. YAlign
  7. jieba
  8. SnowNLP
  9. KoNLPy
  10. Rosetta
  11. BLLIP Parser
  12. PyNLPl
  13. Parserator
  14. python-frog
  15. python-zpar
  16. colibri-core
  17. textacy
  18. PyStanfordDependencies
  19. genism
  20. scattertext
  21. CogComp-NlPy
  22. PyThaiNLP
  23. jPTDP
  24. CLTK
    • [https://github.com/cltk/cltk]: The Classical Language Toolkit is a Python library and collection of texts for doing NLP in ancient languages.
  25. pymorphy2
  1. BigARTM
  1. AllenNLP

C++ Libraries

  1. MIT Information Extraction Toolkit
  1. CRF++
  • [https://taku910.github.io/crfpp/]
  • Open source implementation of Conditional Random Fields [CRFs]for segmenting/labeling sequential data & other Natural Language Processing tasks.
  1. CRFsuite
  1. BLLIP Parser
  1. colibri-core
  • [https://github.com/proycon/colibri-core]
  • C++ library, command line tools, and Python binding for extracting and working with basic linguistic constructions such as n-grams and skipgrams in a quick and memory-efficient way.
  1. ucto
  1. libfolia
  1. frog
  1. MeTA
  1. StarSpace

Java Libraries

  1. Stanford NLP
  2. OpenNLP
  3. ClearNLP
  4. Word2vec in Java
  5. ReVerb
  1. OpenRegex
  2. CogcompNLP
  3. MALLET
  • [http://mallet.cs.umass.edu/]
  • MAchine Learning for LanguagE Toolkit - package for statistical natural language processing, document classification, clustering, topic modeling, information extraction, and other machine learning applications to text.
  1. RDRPOSTagger

中文

  1. THULAC 中文词法分析工具包
  2. NLPIR
  3. LTP 语言技术平台
  4. FudanNLP
  5. HanNLP
  6. SnowNLP
  7. YaYaNLP
  8. DeepNLP
  9. chinese_nlp
  10. Jieba 结巴中文分词
  1. kcws 深度学习中文分词
  1. Genius 中文分词
  1. loso 中文分词
  1. Information-Extraction-Chinese

Datasets

  1. *Apache Software Foundation Public Mail Archives
  2. Blog Authorship Corpus
  3. Amazon Fine Food Reviews Kaggle
  4. Amazon Reviews
  5. ArXiv
  6. ASAP Automated Essay Scoring Kaggle
    • [https://www.kaggle.com/c/asap-aes/data] : For this competition, there are eight essay sets. Each of the sets of essays was generated from a single prompt. Selected essays range from an average length of 150 to 550 words per response. Some of the essays are dependent upon source information and others are not. All responses were written by students ranging in grade levels from Grade 7 to Grade 10. All essays were hand graded and were double-scored. 100 MB
  7. ASAP Short Answer Scoring Kaggle
    • [https://www.kaggle.com/c/asap-sas/data] : Each of the data sets was generated from a single prompt. Selected responses have an average length of 50 words per response. Some of the essays are dependent upon source information and others are not. All responses were written by students primarily in Grade 10. All responses were hand graded and were double-scored. 35 MB
  8. Classification of political social media
  9. CLiPS Stylometry Investigation CSI Corpus
  10. ClueWeb09 FACC
  1. ClueWeb11 FACC
  1. Common Crawl Corpus
  1. Cornell Movie Dialog Corpus
  1. DBpedia
  1. Del.icio.us
  1. Disasters on social media
  1. Economic News Article Tone and Relevance
  1. Enron Email Data
  1. Event Registry
  1. Federal Contracts from the Federal Procurement Data Center [USASpending.gov]
  1. Flickr Personal Taxonomies
  1. Freebase Data Dump
  1. Google Books Ngrams
  1. Google Web 5gram
  1. Gutenberg Ebook List
  1. Harvard Library
  1. Hillary Clinton Emails Kaggle
  1. Machine Translation of European Languages
  1. News article / Wikipedia page pairings
  1. NIPS2015 Papers version 2 Kaggle[https://www.kaggle.com/benhamner/nips-2015-papers/version/2]: full text of all NIPS2015 papers 335 MB
  2. NYTimes Facebook Data
  1. Open Library Data Dumps
  1. Personae Corpus
  1. Reddit Comments
  1. Reddit Comments
  1. Reddit Submission Corpus
  1. Reuters Corpus
  • [http://trec.nist.gov/data/reuters/reuters.html] : a large collection of Reuters News stories for use in research and development of natural language processing, information retrieval, and machine learning systems. This corpus, known as "Reuters Corpus, Volume 1" or RCV1, is significantly larger than the older, well-known Reuters-21578 collection heavily used in the text classification community. Need to sign agreement and sent per post to obtain. 2.5 GB
  1. SMS Spam Collection[http://www.dt.fee.unicamp.br/tiago/smsspamcollection/] : 5,574 English, real and non-enconded SMS messages, tagged according being legitimate ham or spam. [200 KB]
  2. Stackoverflow
  1. Twitter Cheng-Caverlee-Lee Scrape
  1. Twitter New England Patriots Deflategate sentiment
  • [https://www.crowdflower.com/data-for-everyone/] : Before the 2015 Super Bowl, there was a great deal of chatter around deflated footballs and whether the Patriots cheated. This data set looks at Twitter sentiment on important days during the scandal to gauge public sentiment about the whole ordeal. 2 MB
  1. Twitter sentiment analysis: Self-driving cars
  • [https://www.crowdflower.com/data-for-everyone/] : contributors read tweets and classified them as very positive, slightly positive, neutral, slightly negative, or very negative. They were also prompted asked to mark if the tweet was not relevant to self-driving cars. 1 MB
  1. Twitter Tokyo Geolocated Tweets
  1. Twitter US Airline Sentiment Kaggle
  • [https://www.kaggle.com/crowdflower/twitter-airline-sentiment] : A sentiment analysis job about the problems of each major U.S. airline. Twitter data was scraped from February of 2015 and contributors were asked to first classify positive, negative, and neutral tweets, followed by categorizing negative reasons [such as "late flight" or "rude service"]. 2.5 MB
  1. Wikipedia Extraction
  1. Wikipedia XML Data
  1. Yahoo! Answers Comprehensive Questions and Answers
  1. Yahoo! Answers Manner Questions
  1. Yahoo! N-Grams, version 2.0
  1. Yahoo! Search Logs with Relevance Judgments
  1. Yelp
  1. YouTube
  1. 开放知识图谱OpenKG.cn
  1. CLDC中文语言资源联盟
  1. 用于训练中英文对话系统的语料库
  1. 中文 Wikipedia Dump
  1. 98年人民日报词性标注库@百度盘
  1. 百度百科100gb语料@百度盘
  1. 搜狗20061127新闻语料[包含分类]@百度盘
  1. UDChinese
  1. 八卦版問答中文語料
  1. 中文word2vec模型
  1. 中文word2vec模型之维基百科中文
  1. Synonyms:中文近义词工具包
  1. 中文突发事件语料库
  1. dgk_lost_conv 中文对白语料
  1. 漢語拆字字典
  1. 中国股市公告信息爬取
  1. tushare财经数据接口
  1. 保险行业语料库
  1. 最全中华古诗词数据库
  1. 中文语料小数据

初步版本,水平有限,有错误或者不完善的地方,欢迎大家提建议和补充,会一直保持更新,本文为专知内容组原创内容,未经允许不得转载,如需转载请发送邮件至fangquanyi@gmail.com 或 联系微信专知小助手(Rancho_Fang)

敬请关注http://www.zhuanzhi.ai 和关注专知公众号,获取第一手AI相关知识

精品内容

COLING2024 | 面向编程的自然语言处理综述
专知会员服务
19+阅读 · 4月23日
「大型语言模型评测」综述
专知会员服务
61+阅读 · 3月30日
视觉提示学习综述
专知会员服务
46+阅读 · 3月23日
金融领域大型语言模型综述(FinLLMs)
专知会员服务
53+阅读 · 2月6日
《基于自然语言的人工智能军事决策支持》
专知会员服务
65+阅读 · 1月25日
基于深度学习的自然语言处理鲁棒性研究
专知会员服务
27+阅读 · 1月15日
微信扫码咨询专知VIP会员