各刷五大数据集新高，创新工场两篇论文入选 ACL 2020

会员服务 ·

各刷五大数据集新高，创新工场两篇论文入选 ACL 2020

2020 年 7 月 9 日 AI科技评论

ACL 2020 正在如火如荼地线上召开，不知大家参会体验如何？

今年，ACL 共收到了3429篇论文投稿，最终接收了778篇论文，其中长论文570篇，短论文208篇，论文总接收率为22.7%。

创新工场大湾区人工智能研究院，作为创新工程人工智能工程院下设的专注于 NLP 领域研究的研究院之一，本次在 ACL 上交出了2篇论文入选的成绩单。

论文地址：https://www.aclweb.org/anthology/2020.acl-main.734.pdf

开源地址：https://github.com/SVAIGBA/WMSeg

论文地址：https://www.aclweb.org/anthology/2020.acl-main.734.pdf

开源地址：https://github.com/SVAIGBA/TwASP

创新工场大湾区人工智能研究院执行院长宋彦，为这两项工作亲自做了解读。

研究背景

中文分词和词性标注是中文自然语言处理的两个基本任务。长期以来，这两个基本任务一直对中文信息处理（NLP）有着非常重要的意义，因为它们是任何其它后续处理的一个最重要的基础。

近年来，大家在中文分词领域会有一些不同的见解。尤其是随着预训练模型的提出，有一些人提出质疑是否还有必要进行中文分词的处理。对此我们提出了不同的意见——特别考虑到词汇级别的信息依然是中文信息处理最重要的基础。一个例子就是，虽然BERT大行其道，但是中文上基于全词覆盖（whole word masking）的预训练模型，比直接使用单字编码的效果更好，由此说明：引入词信息能够达到更好的效果。

而且对于工业界对于分词的诉求来看，关于中文分词的研究依然是我们需要持续去努力的一个方向。针对在工业场景的分词，我们可以看到，虽然字模型对于各种字的编码器能够达到非常好的效果，但是依然无法达到效率和性能的平衡，尤其在很多场景下需要进行人工干预及后处理，如果能够对一句话进行分词处理，对于后续的很多工业应用都会有非常大的价值。

这两项 ACL 工作的出发点，便是基于现存的模型没有一个比较好的一体化解决方案。

所谓的一体化解决方案，需要强调的是如何融合几个对立的方面：

第一个方面，使用基于字编码技术进行NLP时，可能比较难融汇一些大颗粒度的词汇信息，在预训练模型中使用 whole word masking 等，实际上就是融入这种词汇信息的方法。然而针对分词和词性标注类似这样的任务，目前还没有一个非常好的能够在上面加入类似信息的方法。

第二个方面是融合数据驱动和加入知识的矛盾。目前普遍采用基于深度学习和统计的方法，基于大量的数据去学习NLP模型，在此基础上，模型学到内容都是从数据出发，那么对于一些已经人工整理好的知识，或者是自动学到的知识，怎么把这些知识加入到通过数据学习的模型中去，是需要融合的一个天平的两端，这也就是在这样的一体化解决中需要解决的问题。

中文分词和词性标注任务技术难点

我们将这个例子——"我学习计算机"进行分词和词性标注。分完词以后，分词结果为：“我”、“学习”、“计算机”，这三个词分开来了。进一步在“我”上面打上代词（PN）标签，在”学习“上面打上动词（VV）标签，在”计算机“上面打上名词（NN）标签。

对于这两个任务，有两个特别重要、特别普遍的技术难点：

第一个是歧义现象。比如上图中列出来的这三句话，人去理解完全没问题，但是当计算机对它进行分词的时候，可能会错误得切分开来一些词，这会使得计算机在后续处理中得到一个不正确的结果。

第二个是未登录词问题。一般基于数据驱动的方法，我们会有一个训练集，在训练集上训练出来的模型，在测试集上面进行测试的时候，而一旦有一些词在训练集里面没有出现的时候，这些词就叫做未登录词，这些未登录词，会非常影响分词和词性标注模型和系统的性能。

一个很典型的例子是将在新闻领域的的训练集上训练出来的模型使用到科学领域或者社交媒体领域，一些例如经济、医疗、科技领域的专业术语，或者说是社交媒体上的人名等，可能就不一定能够被之前学到的模型分辨出来。而如果事先构建一个词典的方法进行分词的话，这个词典也很难保证它的覆盖率，即无法能够把所有的新词包含在内。

前两年的中国计算机学会的终身成就奖获得者黄昌宁老师，就有一篇文章叫做《中文分词十年回顾》，文中特别提到了未登录词是分词领域的重大难点。

解决方法

我们的这两项研究中，就针对上述问题，提出了解决方案：

一方面，针对中文分词，利用了一些n元组的信息，提供每个字的wordhood信息。wordhood一般指一个字或者一个n元组“长得像”一个词或者词的某个部分的程度。针对这样一句话“他从小学习计算机”，针对“学”这个字，我们通常可以判断出来，对于很多词来说，它在一个词的词首，“习”这个字则通常是一个词的词尾。类似这样的信息，在很大程度上就能够指示我们的模型，判断各种字组合在一起的程度，那么这些“程度”就能够有效地帮助模型进行词和词边界的判断。

另一方面，词性标注本质上是一个句法任务，很多时候都需要使用更高阶的句法知识。针对词性标注，研究中用到了大量的句法知识，并将其有效加入词性标注模型里面。

1、中文分词

针对中文分词，我们提出了如上图所示的模型架构。这个模型图分成上下两部分：

上半部分是一个基于传统字标注的模型。左侧的编码器对输入的字序列进行编码；右侧的解码器输出每个字的分词标签。我们的工作及贡献主要体现在中间的”键-值记忆神经网路“，以及下半部分的”键-值记忆对“。

而下半部分的”键-值记忆对“，包含了每个字，在一个从上下文中抽取出来n元组中的对成词的功能。比如，对于”民“这个字，它在”居民“中构成了词尾，而在”民生“中构成了词头。这种功能的信息，以及这个字在n元组中所处的位置，对后续的分词过程会有一定的帮助。

一般的模型在处理带有歧义的句子时，比如上图中的例子：”部分居民生活水平“，由于歧义的存在（比如”部分“、”分居“、”居民“、”民生“等），它们往往很难在这些有歧义的字序列中间找到一个非常好的切分点。

而我们的模型在处理这样的输入时，能够通过对”键-值记忆对“中所携带的、包含某个字的成词功能的信息进行建模——用”键-值神经网络“对这种信息加权，以达到在不同语境下，区别地利用这些信息，帮助模型性能的提升。

下面来看一个模型利用上述信息的实例：

在这句话“他从小学电脑技术”中，“从小学”三个字可能会被错误地分割成“从”、“小学”。但是在这里，正确的分词结果应该是"从小”、“学（习）”。

针对这样输入，我们的“键-值记忆网络”能够把“从小”这个词，和“学”这个字，通过给予它们比较高的权重，在输入句子里正确区分开来。

2、词性标注

针对联合分词和词性标注任务，我们的工作是从使用句法知识的角度出发，考虑到词性标注很多时候往往需要更高阶的句法知识辅导，而这种句法知识，尤其是人工标注句法知识非常难获得，而通过外部工具自动获取的句法知识，在很多情况下可能非常不准确，特别是目前在很多特定领域，句法分析的效果可能远远低于词法以及其它层面的处理效果。

所以，在这篇文章里面，我们提出了一种“双通道注意力机制”的方式，来整合自动句法知识，对其进行加权，从中间挑取好的，摒弃不好的，通过这样的方式加入到分词及词性标注的模型里。

在上图中，有这么一句输入，“原子结合成分子时”，存在大量分词歧义，可以看到“结合”、“合成”、“成分”、“分子”，都是合法中文词，但是真正的正确切分结果只有一个，就是“原子”、“结合”、“成“、”分子“、”时“。

针对这个输入，如果引入基于依存的句法知识，可以形成一些基于词的上下文信息和基于依存句法结构的句法知识。这两部分通过我们的双通道注意力模型，可以分别加入到上下文特征通道和句法知识通道，通过两个通道的知识组合，最终加入到输出层，然后在输出层输出分词和词性标注的结果。

通过使用这个模型，就能够识别特定语境下不同上下文特征和句法知识的贡献。也就是说，这个贡献可以被有效区分出来，模型因此可以判断哪些信息对当前的这个分词和词性标注结果是重要的，哪些信息对这部分是不重要的。

再展示一个词性标注的例子：”他马上功夫很好“。当使用外部的句法知识时，可能会存在“马上”这个词被分错的情况，正确的结果应该是“马”和“上”分开，但是这儿如果被分成一个词，就会被识别为一个副词。在这种情况下，句法知识是不准确的，如果加入到BERT的模型里进行分词和词性标注，就会带来错误错误。然而依存句法的其他部分却很可能是有用的，如果可以有效区分这样的信息，并且把其中有用的信息拿出来，就能得到一个正确的结果了。

实验结果

1、中文分词

上面的例子已经直观地展示了，在处理一些有歧义的中文句子的时候，我们的分词模型能够做到什么样的程度。

进入到实验结果部分，这里简单地列举了一些比较重要的结果，更多结果请大家参考原论文中的数据。

我们的方法在五个经常使用的标准中文分词数据集上面，都达到了最好的效果，分数都刷到了历史新高。

尤其要提到一点是，这个模型在跨领域实践上得到了非常好的效果。正如前面所说，当模型从一个领域跨到另一个领域时，模型在在原领域所训练出来的结果，在目标领域往往可能面临很多未登录词的问题，或者面临一些句法、句式、或者语言的使用方式跟原领域很不一样的情况。在这种情况下，通常跨领域模型的效果会大打折扣。

而我们的模型，则能够有效升从一个领域到另外一个领域的效果，尤其是在未登录词召回率上相对基础模型（baseline）会有一个非常大的提升。

上图更进一步地说明我们的中文分词模型跨领域的实验效果。一般而言，在新闻语料上面训练出来的模型（因为CTB的语料大部分来自新闻），如果用到另外一个领域的测试集的时候，性能会急剧下降。比如，斯坦福大学CoreNLP工具在对话测试集上的的F值仅为不到82%。

但是，当我们利用斯坦福大学CoreNLP工具所生成的句法知识加入到我们的模型中时，即使其知识不够准确，依然可以显著提升我们的模型在跨领域方面的性能，最终F值达到接近90%。

2、词性标注

上图展示了我们的模型在一般领域的实验结果。如表格所示，从CTB5到CTB9，然后再到UD1、UD2，这些都是在学界广泛使用的用于评测数据集。

结果显示，我们的模型在这五个数据集上的表现已经超过前人所有的工作，将效果刷新到历史最高。

值得一提的是，学界和业界广泛知名的斯坦福大学的CoreNLP工具和伯克利句法分析器在这些数据集上的性能虽然还不错，但是如果把他们的这些深层句法信息进一步加到我们的模型里面，进行去粗取精，就能把里面比较好的信息通过加权的方式甄选出来，同时把一些错误的信息给去掉，最终能够在其基础上进一步提升模型性能。

另外需要注意的是，尽管UD数据集使用了跟CTB不同的词性标注规范，跨规范的句法信息对于我们的模型依然有非常有效的帮助。

斯坦福句法分析器和伯克利句法分析器因为都是在CTB的这个语料上面进行训练的，所以他们在UD数据集上的效果会非常差。不过它们他们的的标注标准完全不一致，在其结果非常差的情况下直接将其信息加入到我们的模型中时，依然可以有效地把模型效果提升超过六个百分点，这是一个巨大的进步。

技术创新总结

首先，从创新角度来说，可以用两句话来描述。第一句话是，”他山之石，可以攻玉“。这一点体现在，通过引入知识，模型的性能得到了提升。很多时候，对于当前任务有用的知识，不一定跟当前任务直接相关。比如上述提到的，像N元组的信息不一定是跟分词直接相关；句法知识信息也不一定跟分词、词性标注的任务直接相关。然而这些”他山之石“可以有效地提升模模型性能。针对这一点，我们采用非监督的方法来构建词表，然后使用更高层次的句法知识来帮助词性标注。这些都属于使用有效的知识来对这两个任务进行帮助。

第二点，就是“三个臭皮匠，顶个诸葛亮”。为什么这么说呢？实际上我们在进行基础NLP处理的时候，这些外部获取的知识可能都会有错误，我们可以把每一种知识来源都当作一个”臭皮匠“，“臭皮匠”说的每一句话不一定都有用，但是加在一起，可能就能够整合出来一些有用的信息。那么我们的模型怎么样主动吸收和分辨外部的不同信息，从而有效地提升模型性能呢？我们提出的“键-值记忆网络”，加上”双通道注意机制“等等，都是有效提升分辨这些信息的方法。

第三点需要特别强调的是，从研究到应用场景的衔接。如果从这个角度来看，那么跨领域的实际效果其实很好地能够说明我们的研究工作在未来工业使用场景环节的意义。因为在很多情况下，都要需要进行跨领域的实验，然而跨领域的实验往往面对目标领域没有数据，或者数据没有标注等情况，而我们的模型则能够有效提升目标领域未登录词的召回率。

在工业应用上，这样的方法不但可以证明在模型分词和词性标注上面可以实现这么好的效果，而且也可以将利用外部知识这种思路应用到其他任务上。

回过头说，在应用场景下，我们在分词和词性标注领域所取得的结果，可能在比如广告匹配或者内容推荐或者其他顶层的NLP的应用端提供比较好的基础结结果。尤其是对于某些特定的任务，比方说像命名实体识别，如果分词和词性标注做得比较好，那么它们所提供的结果可能可以有效地提供一些命名实体识别的边界信息，并且这些边界信息可以有效地去帮助命名实体识别进行进一步的处理。当然除了命名实体识别这个任务之外，这样的模型也能够在其它类似的下游任务中提供帮助。