新加坡科技设计大学杨杰博士莅临我校，并做了报告：Recent Advances in Sequence Labeling

2018 年 9 月 13 日 黑龙江大学自然语言处理实验室

之前了解杨杰博士是从导师那里得知的，模模糊糊，当时也只是知道这个名字而已，谁知道几个月后自己竟然还能作为迎宾亲自去迎接。O(∩_∩)O哈哈~ 路上交流了很多，发现大牛都是这么谦虚，平易近人的吗？

好啦步入正题，以下内容为事实和自己的部分理解。

简历

杨杰博士 ，刚刚毕业于新加坡科技设计大学，获计算机科学博士学位；2014年取得中国科学院大学硕士学位；2011年获重庆大学电子工程和物理学双学士学位。本科和研究生都几乎没有接触编程，可以说博士是用了四年时间入门到NLP大牛的华丽转身！现在计划去哈佛读博士后。

博士期间曾在牛津大学量化金融研究所（OMI）从事访问研究。主要研究领域为 深度学习与自然语言处理 ，包括中文分词、命名实体识别、金融新闻分析和医疗文本分析等具体方向。是ACL / COLING / AAAI等学术会议程序委员会成员、是中国计算机协会中文信息技术专委会青年工作委员会委员。曾获得COLING最佳论文奖，ACL最佳演示论文提名，被评为 ACL 2018 和 COLING 2018杰出审稿人（Outstanding Reviewer）。主导开发了 NCRF++ / YEDDA 等多款自然语言处理开源工具，Github收藏量超过1200。

github： https://github.com/jiesutd

报告内容

标题：

Recent Advances in Sequence Labeling

序列标注的最新进展

大致分为4个内容：

Introduction（简单介绍序列标注任务）
Neural Sequence Labeling Models（回顾往年的序列标注模型）
Chinese Sequence Labeling Models（提出自己的模型）
Toolkits for Data Annotation and Neural Models（提出自己的两个工具包）

Introduction

Sequence Labeling序列标注：

比如上述的例子，给一句话中的每个词进行标注，标注内容为X-Y。其中X为B（begin）或者I（insert），B表示开始，I表示跟前面的是一起的，这样表示一个完整的序列，单个词用B，多个词用B I I...。Y可以为ORG（organization），PER（person），当然也可以由LOC（local）等。

序列标注运用十分广泛！比如

Word Segmentation 分词
Part-of-speech（POS）tagging词性标注
Named Entity Recognition （NER）命名实体识别
Chunking, CCG Supertagging, etc

Neural Sequence Labeling Models

基本的序列标注神经网络模型：

之后的一些改进：

将word（词）和char（字母）同时作为特征输入，中间的网络可以用CNN，LSTM，解码端为Softmax or CRF。

对于这方面的论文，做了一下总结：

Training Improvement 训练的改进

Joint training with language model 联合训练

Training the sequence labeling with joint training the language model，Marek Rei, ACL 2017. Liyuan Liu, et, al. AAAI 2018

Adversarial training 对抗训练

Joint training models in multi-criteria datasets, using adversarial learning to integrate shared knowledge，Xinchi Chen et,al. ACL 2017.

Pre-training Improvement 预训练改进

Pretrain Word/Char Embeddings 预训练词 / 字 Embedding

Pretrain word/char embeddings using external information，Jie Yang et,al ACL 2017, Hao Zhou et, al EMNLP 2017.

Pretrain LSTM (ELMo) 预训练LSTM

Pretrain bidirectional LSTM representation in a large-scale language model data. Peters, et, al NAACL 2018 (best paper)

歧义

Chinese Sequence Labeling Models

对于中文来说，不像英文一样一个单词就是一个词，比如

基于词的NER：

基于字的NER：

中文的基于字的效果要比词的效果好，这样不会因为词金标原本的错误导致最终训练效果的不佳，而如果基于字的话，就不会有这样的顾虑。

比如

会有歧义。

这样，引出了自己提出的新的模型 Lattice LSTM ：

每一个路径连接一个可能性词的首尾

用之前的传统模型和自己的模型对对比

Character-based model

Word-based model

Lattice model

该模型是在Standard LSTM上改进的，先看看标准的模型们：

RNN

LSTM

Coupled LSTM

而该模型就是在Coupled LSTM上进行了稍微的修改

其中X^w_{b, e}是匹配词（比如这里的市长等）的embeddings

正则化所有的门

对所有路径加权和

Standard LSTM 和 Lattice LSTM 对比

Lattice LSTM是coupled LSTM 的一种扩展，可以用于多路径输入。

Lattice LSTM 的优势

在句子中有很多信息的路径
有门控制多个路径的输入
字词序列之间建立关联
相似的词可以通过word embedding被利用起来

对于上述第四条，举个例子

比如左边是train语料，右边是test，我们都知道江泽民和胡锦涛是同一类型的词，其他的模型识别不出来右边的，但是Lattice LSTM可以。可以说有一定的泛化能力。

baselines：

而Lattice LSTM CRF：

在最终的baseline对比数据中，发现Lattice LSTM模型是遥遥领先的

还做了进一步的一些实验

OneNotes NER 与金标分词做对比

MSRA NER 测试集中没有金标分词

微博或个人简历 NER 没有金标分词且数据小

具体案例分析

Toolkits for Data Annotation and Neural Models

主要是介绍杨杰博士自己的博士期间做的 两个重要工具包 。

1. 标注平台 YEDDA （github 174 stars）

（我们实验室也在做我们自己的标注平台ing）

YEDDA的优点是：

效率：在shortcut key上比SOTA快2倍
智能：系统可以根据历史标注推荐注释
强大分析能力：从不同的标注pairs上生成一份diff 报告
ACL best demo nomination

github链接：https://github.com/jiesutd/YEDDA

2. NCRF++：神经网络序列标注（github 699 stars）

基本信息：

神经网络版本的CRF++，支持n-best 输出
不需要额外的code，只需要用config文件即可。
支持12个SOTA神经网络模型，支持任何神经网络特征
并行计算，在CoNLL NER 解码能达到大于2000句每秒

github 地址：https://github.com/jiesutd/NCRFpp

推荐阅读

基础 | TreeLSTM Sentiment Classification

基础 | 详解依存树的来龙去脉及用法

基础 | 基于注意力机制的seq2seq网络

原创 | Simple Recurrent Unit For Sentence Classification

原创 | Attention Modeling for Targeted Sentiment

原创 | cw2vec理论及其实现

基础 | 中英文词向量评测理论与实践

欢迎关注交流

登录查看更多

相关内容

序列标注

关注 0

【AAAI2020-Tutorial-Penn】迁移表示学习最新进展，Recent Advances in Transferable Representation Learning

专知会员服务

52+阅读 · 2020年2月8日

【IJCAI 2019 | tutorial】大数据中的小数据挑战Small Data Challenges in Big Data Era ，华为|Guo-Jun Qi，柯达|Jiebo Luo

专知会员服务

30+阅读 · 2019年11月30日

【ACL 2019 Tutorials】论据挖掘研究进展（Advances in Argument Mining）

专知会员服务

16+阅读 · 2019年11月18日

【CCL 2019】表示学习--自然语言处理中的图神经网络（Graph Neural Networks in NLP），西湖大学长聘副教授张岳

专知会员服务

64+阅读 · 2019年11月12日

【CCL 2019】2019信息检索趋势，山东大学教授任昭春博士

专知会员服务

30+阅读 · 2019年11月12日

【CCL 2019】人机对话--开放领域对话系统的最新进展（Recent Advances towards Dialogue Systems in Open Domain），北京大学助理教授严睿

专知会员服务

30+阅读 · 2019年11月12日

【CCL 2019】ATT-第19期：预训练模型--自然语言处理的新范式（车万翔）

专知会员服务

41+阅读 · 2019年11月12日

【EMNLP2019Keynote报告】神经序列模型， Neural Sequence Models，63页ppt

专知会员服务

27+阅读 · 2019年11月10日

【2019 北京智源大会】预训练语言模型的研究与应用刘群/华为诺亚方舟实验室

专知会员服务

31+阅读 · 2019年11月1日

问答与对话-理论与基础之面向自然语言处理的深度学习基础【颜航】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第13期

专知会员服务

22+阅读 · 2019年10月21日

【前沿】预训练语言模型的研究与应用，华为诺亚方舟实验室语音语义首席科学家刘群，附报告下载

专知

8+阅读 · 2019年11月3日

南洋理工最新《命名实体识别深度学习方法》综述论文，25页pdf

专知

46+阅读 · 2018年12月28日

基于Lattice LSTM的命名实体识别

微信AI

47+阅读 · 2018年10月19日

COLING 2018 最佳论文解读：序列标注经典模型复现

PaperWeekly

11+阅读 · 2018年7月2日

【论文笔记】用图卷积网络( GCN)来做语义角色标注

专知

61+阅读 · 2018年5月26日

【论文推荐】最新五篇命名实体识别相关论文—深度主动学习、Lattice LSTM、混合马尔可夫CRF

专知

26+阅读 · 2018年5月22日

春节充电系列：李宏毅2017机器学习课程学习笔记26之结构化学习-序列标注 Sequence Labeling（part 2）

专知

12+阅读 · 2018年3月13日

春节充电系列：李宏毅2017机器学习课程学习笔记25之结构化学习-序列标注 Sequence Labeling（part 1）

专知

4+阅读 · 2018年3月12日

论文笔记 | How NOT To Evaluate Your Dialogue System

科技创新与创业

13+阅读 · 2017年12月23日

论文报告 | Graph-based Neural Multi-Document Summarization

科技创新与创业

15+阅读 · 2017年12月15日

Advances and Open Problems in Federated Learning

Arxiv

18+阅读 · 2019年12月10日

Towards Open-Domain Named Entity Recognition via Neural Correction Models

Arxiv

5+阅读 · 2019年9月13日

Language Modeling with Deep Transformers

Arxiv

6+阅读 · 2019年7月11日

Linguistically-Informed Self-Attention for Semantic Role Labeling

Arxiv

17+阅读 · 2018年8月28日

Hybrid semi-Markov CRF for Neural Sequence Labeling

Arxiv

5+阅读 · 2018年5月10日

A Tidy Data Model for Natural Language Processing using cleanNLP

Arxiv

4+阅读 · 2018年5月3日

The Best of Both Worlds: Combining Recent Advances in Neural Machine Translation

Arxiv

4+阅读 · 2018年4月26日

A Study of Recent Contributions on Information Extraction

Arxiv

6+阅读 · 2018年3月15日

Recent Trends in Deep Learning Based Natural Language Processing

Arxiv

7+阅读 · 2018年2月20日

State-of-the-art Speech Recognition With Sequence-to-Sequence Models

Arxiv

7+阅读 · 2018年1月18日

VIP会员