新加坡科技设计大学杨杰博士莅临我校,并做了报告:Recent Advances in Sequence Labeling

2018 年 9 月 13 日 黑龙江大学自然语言处理实验室



之前了解杨杰博士是从导师那里得知的,模模糊糊,当时也只是知道这个名字而已,谁知道几个月后自己竟然还能作为迎宾亲自去迎接。O(∩_∩)O哈哈~  路上交流了很多,发现大牛都是这么谦虚,平易近人的吗?


好啦 步入正题,以下内容为事实和自己的部分理解。


简历

杨杰博士 ,刚刚毕业于新加坡科技设计大学,获计算机科学博士学位;2014年取得中国科学院大学硕士学位;2011年获重庆大学电子工程和物理学双学士学位。本科和研究生都几乎没有接触编程,可以说博士是用了四年时间入门到NLP大牛的华丽转身!现在计划去哈佛读博士后。

博士期间曾在牛津大学量化金融研究所(OMI)从事访问研究。主要研究领域为 深度学习与自然语言处理 ,包括中文分词、命名实体识别、金融新闻分析和医疗文本分析等具体方向。是ACL / COLING / AAAI等学术会议程序委员会成员、是中国计算机协会中文信息技术专委会青年工作委员会委员。曾获得COLING最佳论文奖,ACL最佳演示论文提名,被评为 ACL 2018 和 COLING 2018杰出审稿人 (Outstanding Reviewer)。主导开发了 NCRF++ / YEDDA 等多款自然语言处理开源工具 ,Github收藏量超过1200。

github: https://github.com/jiesutd


报告内容

标题:
Recent Advances in Sequence Labeling
序列标注的最新进展

大致分为4个内容:
  1. Introduction(简单介绍序列标注任务)

  2. Neural Sequence Labeling Models(回顾往年的序列标注模型)

  3. Chinese Sequence Labeling Models(提出自己的模型)

  4. Toolkits for Data Annotation and Neural Models(提出自己的两个工具包)


Introduction

Sequence Labeling序列标注:

比如上述的例子,给一句话中的每个词进行标注,标注内容为X-Y。其中X为B(begin)或者I(insert),B表示开始,I表示跟前面的是一起的,这样表示一个完整的序列,单个词用B,多个词用B I I...。Y可以为ORG(organization),PER(person),当然也可以由LOC(local)等。


序列标注运用十分广泛!比如


  1. Word Segmentation 分词

  2. Part-of-speech(POS)tagging词性标注

  3. Named Entity Recognition (NER)命名实体识别

  4. Chunking, CCG Supertagging, etc


Neural Sequence Labeling Models

基本的序列标注神经网络模型


之后的一些改进
将word(词)和char(字母)同时作为特征输入,中间的网络可以用CNN,LSTM,解码端为Softmax or CRF。


对于这方面的论文,做了一下总结

`


Training Improvement 训练的改进


Joint training with language model 联合训练        

Training the sequence labeling with joint training the language model,Marek Rei, ACL 2017.  Liyuan Liu, et, al. AAAI 2018



Adversarial training 对抗训练

Joint training models in multi-criteria datasets, using adversarial learning to integrate shared knowledge,Xinchi Chen et,al. ACL 2017.


Pre-training Improvement 预训练改进


Pretrain Word/Char Embeddings 预训练词 / 字 Embedding

Pretrain word/char embeddings using external information,Jie Yang et,al ACL 2017, Hao Zhou et, al EMNLP 2017.



Pretrain LSTM (ELMo) 预训练LSTM

Pretrain bidirectional LSTM representation in a large-scale language model data.  Peters, et, al NAACL 2018 (best paper) 


歧义


Chinese Sequence Labeling Models

对于中文来说,不像英文一样一个单词就是一个词,比如


基于 的NER:

基于 的NER:


中文的基于字的效果要比词的效果好,这样不会因为词金标原本的错误导致最终训练效果的不佳,而如果基于字的话,就不会有这样的顾虑。


比如

会有歧义。


这样,引出了自己提出的新的模型 Lattice LSTM :


每一个路径连接一个可能性词的首尾


用之前的传统模型和自己的模型对对比


Character-based model

Word-based model

Lattice model


该模型是在Standard LSTM上改进的,先看看标准的模型们:


RNN

LSTM

Coupled LSTM


而该模型就是在Coupled LSTM上进行了稍微的修改

其中X^w_{b, e}是匹配词(比如这里的市长等)的embeddings


正则化所有的门


对所有路径加权和


Standard LSTM 和 Lattice LSTM 对比


Lattice LSTM是coupled LSTM 的一种扩展,可以用于多路径输入。


Lattice LSTM 的优势

  1. 在句子中有很多信息的路径

  2. 有门控制多个路径的输入

  3. 字词序列之间建立关联

  4. 相似的词可以通过word embedding被利用起来

对于上述第四条,举个例子

比如左边是train语料,右边是test,我们都知道江泽民和胡锦涛是同一类型的词,其他的模型识别不出来右边的,但是Lattice LSTM可以。可以说有一定的泛化能力。


baselines



而Lattice LSTM CRF:



在最终的baseline对比数据中,发现Lattice LSTM模型是遥遥领先的



还做了进一步的一些实验



OneNotes NER 与金标分词做对比


MSRA NER 测试集中没有金标分词


微博或个人简历 NER 没有金标分词且数据小


具体案例分析


Toolkits for Data Annotation and Neural Models

主要是介绍杨杰博士自己的博士期间做的 两个重要工具包

1. 标注平台 YEDDA   (github 174 stars)


(我们实验室也在做我们自己的标注平台ing)

YEDDA的优点是:
  1. 效率:在shortcut key上  比SOTA快2倍

  2. 智能:系统可以根据历史标注推荐注释

  3. 强大分析能力:从不同的标注pairs上生成一份diff 报告

  4. ACL best demo nomination


github链接:https://github.com/jiesutd/YEDDA


2. NCRF++:神经网络序列标注(github 699 stars)


基本信息:

  1. 神经网络版本的CRF++,支持n-best 输出

  2. 不需要额外的code,只需要用config文件即可。

  3. 支持12个SOTA神经网络模型,支持任何神经网络特征

  4. 并行计算,在CoNLL NER 解码能达到大于2000句每秒



github 地址:https://github.com/jiesutd/NCRFpp




推荐阅读

基础 | TreeLSTM Sentiment Classification

基础 | 详解依存树的来龙去脉及用法

基础 | 基于注意力机制的seq2seq网络

原创 | Simple Recurrent Unit For Sentence Classification

原创 | Attention Modeling for Targeted Sentiment

原创 | cw2vec理论及其实现

基础 | 中英文词向量评测理论与实践


欢迎关注交流


登录查看更多
4

相关内容

【CCL 2019】2019信息检索趋势,山东大学教授任昭春博士
专知会员服务
28+阅读 · 2019年11月12日
基于Lattice LSTM的命名实体识别
微信AI
47+阅读 · 2018年10月19日
COLING 2018 最佳论文解读:序列标注经典模型复现
论文笔记 | How NOT To Evaluate Your Dialogue System
科技创新与创业
13+阅读 · 2017年12月23日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
Advances and Open Problems in Federated Learning
Arxiv
17+阅读 · 2019年12月10日
Arxiv
6+阅读 · 2019年7月11日
Arxiv
5+阅读 · 2018年5月10日
VIP会员
相关VIP内容
【CCL 2019】2019信息检索趋势,山东大学教授任昭春博士
专知会员服务
28+阅读 · 2019年11月12日
Top
微信扫码咨询专知VIP会员