Google AI科学家Jacob《自然语言处理导论》最新经典教材,587页pdf

【导读】 Google AI研究科学家Jacob Eisenstein 博士的自然语言处理领域新书《Introduction to Natural Language Processing》由MIT出版社在10月份发行。在该教材最新版PDF 在 GitHub 上开放。这本书的内容主要分为四大章节,即 NLP 中监督与无监等学习问题、序列与解析树等自然语言的建模方式、语篇语义的理解,以及后这些技术最在信息抽取、机器翻译和文本生成等具体任务中的应用。整本开放书共四部分,19章,587页pdf,是了解最新自然语言处理进展的不可多得的教材。



Jacob Eisenstein是谷歌的一名研究科学家。他之前在乔治亚理工学院的交互计算学院任教。https://jacobeisenstein.github.io/



开放地址:

https://github.com/jacobeisenstein/gt-nlp-class/tree/master/notes


这本教科书提供了一个关于自然语言处理方法的技术观点,用于构建理解、生成和操作人类语言的计算机软件。它强调当代的数据驱动方法,侧重于监督和非监督机器学习的技术。第一部分通过构建一组贯穿全书的工具,并将它们应用于基于单词的文本分析,为机器学习奠定了基础。第二部分介绍了语言的结构化表示,包括序列、树和图。第三部分探讨了不同的语言意义表示和分析方法,从形式逻辑到神经词嵌入。最后一节详细介绍了自然语言处理的三种变革性应用: 信息提取、机器翻译和文本生成。最后的练习包括纸笔分析和软件实现。


本文综合和提炼了广泛和多样的研究文献,将当代机器学习技术与该领域的语言和计算基础联系起来。它适合用于高等本科和研究生水平的课程,并作为软件工程师和数据科学家的参考。读者应该有计算机编程和大学水平的数学背景。在掌握材料后,学生将具备建立和分析新的自然语言处理系统的技术技能,并了解该领域的最新研究。

这本书的主要章节如下可分为四部分:


  • 学习:这一章节介绍了一套机器学习工具,它也是整本教科书对不同问题建模的基础。由于重点在于介绍机器学习,因此我们使用的语言任务都非常简单,即以词袋文本分类为模型示例。第四章介绍了一些更具语言意义的文本分类应用。


  • 序列与树:这一章节将自然语言作为结构化的数据进行处理,它描述了语言用序列和树进行表示的方法,以及这些表示所添加的限制。第 9 章介绍了有限状态自动机(finite state automata)。


  • 语义:本章节从广泛的角度看待基于文本表达和计算语义的努力,包括形式逻辑和神经词嵌入等方面。


  • 应用:最后一章介绍了三种自然语言处理中最重要的应用:信息抽取机器翻译和文本生成。我们不仅将了解使用前面章节技术所构建的知名系统,同时还会理解神经网络注意力机制等前沿问题。



便捷下载:关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“INLP” 获取Jacob Eisenstein《自然语言处理pdf链接下载索引~



本书目录:




-END-
专 · 知


专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询
请加专知小助手微信(扫一扫如下二维码添加), 获取专知VIP会员码 加入专知人工智能主题群,咨询技术商务合作~
点击“阅读原文”,了解使用专知,查看5000+AI主题知识资料
展开全文
Top
微信扫码咨询专知VIP会员