【开放新书】东北大学《机器翻译:统计建模与深度学习方法》477页pdf纵览机器翻译技术发展脉络

2020 年 5 月 17 日 专知
【导读】来自东北大学自然语言处理实验室 · 小牛翻译的肖桐 (Tong Xiao) 朱靖波 (Jingbo Zhu)撰写的《机器翻译:统计建模与深度学习方法》,这是一个教程,目的是对机器翻译的统计建模和深度学习方法进行较为系统的介绍。其内容被编纂成书,可以供计算机相关专业高年级本科生及研究生学习之用,亦可作为自然语言处理,特别是机器翻译相关研究人员的参考资料。本书用tex编写,所有源代码均已开放。



作者:肖桐 (Tong Xiao) 朱靖波 (Jingbo Zhu)

单位:东北大学自然语言处理实验室 (NEUNLPLab) / 小牛翻译 (NiuTrans Research)

顾问:姚天顺 (Tianshun Yao) 王宝库 (Baoku Wang)

网站:https://opensource.niutrans.com/mtbook/index.html

GitHub:https://github.com/NiuTrans/MTBook


让计算机进行自然语言的翻译是人类长期的梦想,也是人工智能的终极目标之一。自上世纪九十年代起,机器翻译迈入了基于统计建模的时代,发展到今天,深度学习等机器学习方法已经在机器翻译中得到了大量的应用,取得了令人瞩目的进步。

在这个时代背景下,对机器翻译的模型、方法和实现技术进行深入了解是自然语言处理领域研究者和实践者所渴望的。本书全面回顾了近三十年内机器翻译的技术发展历程,并围绕统计建模和深度学习两个主题对机器翻译的技术方法进行了全面介绍。在写作中,笔者力求用朴实的语言和简洁的实例阐述机器翻译的基本模型和方法,同时对相关的技术前沿进行讨论。本书可以供计算机相关专业高年级本科生及研究生学习之用,也可以作为自然语言处理,特别是机器翻译领域相关研究人员的参考资料。

本书共分为七个章节,章节的顺序参考了机器翻译技术发展的时间脉络,同时兼顾了机器翻译知识体系的内在逻辑。各章节的主要内容包括:


  • 第一章:机器翻译简介

  • 第二章:词法、语法及统计建模基础

  • 第三章:基于词的机器翻译模型

  • 第四章:基于短语和句法的机器翻译模型

  • 第五章:人工神经网络和神经语言建模

  • 第六章:神经机器翻译模型

  • 第七章:神经机器翻译实战参加一次比赛


其中,第一章是对机器翻译的整体介绍。第二章和第五章是对统计建模和深度学习方法的介绍,分别建立了两个机器翻译范式的基础知识体系——统计机器翻译和神经机器翻译。统计机器翻译部分(第三、四章)涉及早期的基于单词的翻译模型,以及本世纪初流行的基于短语和句法的翻译模型。神经机器翻译(第六、七章)代表了当今机器翻译的前沿,内容主要涉及了基于端到端表示学习的机器翻译建模方法。特别的,第七章对一些最新的神经机器翻译方法进行了讨论,为相关科学问题的研究和实用系统的开发提供了可落地的思路。1展示了本书各个章节及核心概念之间的关系。


用最简单的方式阐述机器翻译的基本思想是笔者所期望达到的目标。但是,书中不可避免会使用一些形式化定义和算法的抽象描述,因此,笔者尽所能通过图例进行解释(本书共320张插图)。不过,本书所包含的内容较为广泛,难免会有疏漏,望读者海涵,并指出不当之处。



目录内容:


Part I 机器翻译基础

  1. 机器翻译简介

  • 1.1 机器翻译的概念

  • 1.2 机器翻译简史

  • 1.3 机器翻译现状

  • 1.4 机器翻译方法

  • 1.5 翻译质量评价

  • 1.6 机器翻译应用

  • 1.7 开源项目与评测

  • 1.8 推荐学习资源

  1. 词法、语法及统计建模基础

  • 2.1 问题概述

  • 2.2 概率论基础

  • 2.3 中文分词

  • 2.4 n-gram 语言模型

  • 2.5 句法分析(短语结构分析)

  • 2.6 小结及深入阅读

Part II 统计机器翻译

  1. 基于词的机器翻译模型

  • 3.1 什么是基于词的翻译模型

  • 3.2 构建一个简单的机器翻译系统

  • 3.3 基于词的翻译建模

  • 3.4 IBM 模型 1-2

  • 3.5 IBM 模型 3-5 及隐马尔可夫模型

  • 3.6 问题分析

  • 3.7 小结及深入阅读

  1. 基于短语和句法的机器翻译模型

  • 4.1 翻译中的结构信息

  • 4.2 基于短语的翻译模型

  • 4.3 基于层次短语的模型

  • 4.4 基于语言学句法的模型

  • 4.5 小结及深入阅读

Part III 神经机器翻译

  1. 人工神经网络和神经语言建模

  • 5.1 深度学习与人工神经网络

  • 5.2 神经网络基础

  • 5.3 神经网络的张量实现

  • 5.4 神经网络的参数训练

  • 5.5 神经语言模型

  • 5.6 小结及深入阅读

  1. 神经机器翻译模型

  • 6.1 神经机器翻译的发展简史

  • 6.2 编码器-解码器框架

  • 6.3 基于循环神经网络的翻译模型及注意力机制

  • 6.4 Transformer

  • 6.5 序列到序列问题及应用

  • 6.6 小结及深入阅读

  1. 神经机器翻译实战 —— 参加一次比赛

  • 7.1 神经机器翻译并不简单

  • 7.2 数据处理

  • 7.3 建模与训练

  • 7.4 推断

  • 7.5 进阶技术

  • 7.6 小结及深入阅读

Part IV 附录

  • 附录 A:基准数据集和评价工具

  • 附录 B:IBM模型3-5训练方法

参考文献



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“MT477” 可以获取《东北大学《机器翻译:统计建模与深度学习方法》477页pdf纵览机器翻译技术发展脉络》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
0

相关内容

统计建模是以计算机统计分析软件为工具,利用各种统计分析方法对批量数据建立统计模型和探索处理的过程,用于揭示数据背后的因素,诠释社会经济现象,或对经济和社会发展作出预测或判断。通过统计建模课程学习,可有助于培养统计专业人员利用统计方法解决实际问题的能力
【经典书】人工智能及机器学习导论,457页pdf
专知会员服务
160+阅读 · 2020年7月5日
深度学习目标检测方法及其主流框架综述
专知会员服务
147+阅读 · 2020年6月26日
【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
【经典书】机器学习:贝叶斯和优化方法,1075页pdf
专知会员服务
404+阅读 · 2020年6月8日
专知会员服务
199+阅读 · 2020年3月6日
机器翻译深度学习最新综述
专知会员服务
98+阅读 · 2020年2月20日
深度学习自然语言处理综述,266篇参考文献
专知会员服务
229+阅读 · 2019年10月12日
《AutoML:方法,系统,挑战》新书免费下载
新智元
24+阅读 · 2019年5月28日
资源 | 《自然语言处理综论》中文版 PDF 高清版
AI科技评论
104+阅读 · 2019年2月23日
自然语言处理中注意力机制综述
Python开发者
11+阅读 · 2019年1月31日
清华大学NLP组年末巨献:机器翻译必读论文列表
机器之心
13+阅读 · 2018年12月30日
深度神经网络机器翻译
机器学习研究会
5+阅读 · 2017年10月16日
【人工智能】人工智能中的语义分析技术及其应用
产业智能官
3+阅读 · 2017年9月4日
Talking-Heads Attention
Arxiv
15+阅读 · 2020年3月5日
Arxiv
22+阅读 · 2019年11月24日
Arxiv
6+阅读 · 2019年9月25日
Arxiv
6+阅读 · 2019年7月11日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
3+阅读 · 2018年3月27日
VIP会员
相关VIP内容
【经典书】人工智能及机器学习导论,457页pdf
专知会员服务
160+阅读 · 2020年7月5日
深度学习目标检测方法及其主流框架综述
专知会员服务
147+阅读 · 2020年6月26日
【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
【经典书】机器学习:贝叶斯和优化方法,1075页pdf
专知会员服务
404+阅读 · 2020年6月8日
专知会员服务
199+阅读 · 2020年3月6日
机器翻译深度学习最新综述
专知会员服务
98+阅读 · 2020年2月20日
深度学习自然语言处理综述,266篇参考文献
专知会员服务
229+阅读 · 2019年10月12日
相关论文
Talking-Heads Attention
Arxiv
15+阅读 · 2020年3月5日
Arxiv
22+阅读 · 2019年11月24日
Arxiv
6+阅读 · 2019年9月25日
Arxiv
6+阅读 · 2019年7月11日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
3+阅读 · 2018年3月27日
Top
微信扫码咨询专知VIP会员