Google AI研究科学家Jacob Eisenstein 博士的自然语言处理领域新书《Introduction to Natural Language Processing》由MIT出版社在10月份发行。在该教材最新版PDF 在 GitHub 上开放。这本书的内容主要分为四大章节,即 NLP 中监督与无监等学习问题、序列与解析树等自然语言的建模方式、语篇语义的理解,以及后这些技术最在信息抽取、机器翻译和文本生成等具体任务中的应用。整本开放书共四部分,19章,587页pdf,是了解最新自然语言处理进展的不可多得的教材。
这本书的主要章节如下可分为四部分:
学习:这一章节介绍了一套机器学习工具,它也是整本教科书对不同问题建模的基础。由于重点在于介绍机器学习,因此我们使用的语言任务都非常简单,即以词袋文本分类为模型示例。第四章介绍了一些更具语言意义的文本分类应用。
序列与树:这一章节将自然语言作为结构化的数据进行处理,它描述了语言用序列和树进行表示的方法,以及这些表示所添加的限制。第 9 章介绍了有限状态自动机(finite state automata)。
语义:本章节从广泛的角度看待基于文本表达和计算语义的努力,包括形式逻辑和神经词嵌入等方面。
应用:最后一章介绍了三种自然语言处理中最重要的应用:信息抽取、机器翻译和文本生成。我们不仅将了解使用前面章节技术所构建的知名系统,同时还会理解神经网络注意力机制等前沿问题。