创新工场两篇论文入选 ACL 2020，将中文分词数据刷至新高

2020 年 7 月 8 日 学术头条

2020 年 7 月 5 日至 7 月 10 日，第 58 届自然语言处理领域（NLP）顶级学术会议 ACL 2020 (Association for Computational Linguistics) 在线上成功举行。

ACL（The Association for Computational Linguistics）国际计算语言学协会是自然语言处理领域影响力最大、最具活力的国际学术组织之一，自 1962 年创立以来已有 58 年历史，其每年夏天举办的年会是该领域学术顶会。横跨了与自然语言的计算方法有关的广泛的不同研究领域。

与往年不同的是，受新冠疫情影响，ACL 2020 全部转为线上进行，不过这丝毫没有减弱热度。根据之前公布的数据，今年大会投稿数量超过 3000 篇，共接收 779 篇论文，包括 571 篇长论文和 208 篇短论文，接收率为 25.2%。在全球疫情冲击下， ACL 也迎来了有史以来最盛大的一届会议。

令人振奋的是，来自创新工场大湾区人工智能研究院的两篇论文入选。 这两篇论文均聚焦中文分词领域，是深度学习引入知识后的有益尝试，将该领域近年来广泛使用的各数据集上的分数全部刷至新高，在工业中也有着可观的应用前景。

两篇文章主要针对的是对于计算机语言处理中的中文分词及词性标注的问题。中文分词普遍存在歧义以及未登录词的难题，并且当且也没有比较好的一体化方案来适应工业场景对计算机分词处理的需要。

基于此，两篇论文各自提出了 “键 - 值记忆神经网络的中文分词模型” 和 “基于双通道注意力机制的分词及词性标注模型”，将外部知识（信息）创造性融入分词及词性标注模型，有效剔除了分词 “噪音” 误导，大幅度提升了分词及词性标注效果。

"Improving Chinese Word Segmentation with Wordhood Memory Networks"

"Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-way Attentions of Auto-analyzed Knowledge"

7 月 8 日上午，创新工场大湾区人工智能研究院执行院长宋彦针对这两篇入选论文进行了线上的分享解读。 他指出，虽然现有的很多文字编码器，例如像贝尔模型，虽然你能大到很好的效果，但是依然无法达到效果和性能的额平衡。尤其是在工业场景下，我们需要进行人工干预以及后续处理，才能将一句话进行合理的 fenci 处理。

研究的出发点是基于现在的场景，创造出目前所并没有的一体化解决方案。并且在此基础上，院长强调了两个方面的对立。第一方面是，基于现在的文字技术很难去融汇大词汇颗粒度的信息；第二方面是，数据驱动和加入芝士这两个不同层面的矛盾。

那么如何平衡这个天平呢，在被选中的论文中，院长带领的团队提出了创新性的一体化解决方案。

利用记忆神经网络，将中文分词性能刷到历史新高

中文分词目的是在中文的字序列中插入分隔符，将其切分为词。例如，“我喜欢音乐” 将被切分为 “我 / 喜欢 / 音乐”(“/” 表示分隔符)。

中文语言因其特殊性，在分词时面临着两个主要难点。

一是歧义问题 ，由于中文存在大量歧义，一般的分词工具在切分句子时可能会出错。例如，“部分居民生活水平”，其正确的切分应为 “部分 / 居民 / 生活 / 水平”，但存在 “分居”、“民生” 等歧义词。“他从小学电脑技术”，正确的分词是：他 / 从小 / 学 / 电脑技术，但也存在 “小学” 这种歧义词。

二是未登录词问题 。未登录词指的是不在词表，或者是模型在训练的过程中没有遇见过的词。例如经济、医疗、科技等科学领域的专业术语或者社交媒体上的新词，或者是人名。这类问题在跨领域分词任务中尤其明显。

对此，Improving Chinese Word Segmentation with Wordhood Memory Networks 这篇论文提出了基于键 - 值记忆神经网络的中文分词模型。

该模型利用 n 元组（即一个由连续 n 个字组成的序列，比如 “居民” 是一个 2 元组，“生活水平” 是一个 4 元组）提供的每个字的构词能力，通过加（降）权重实现特定语境下的歧义消解。并通过非监督方法构建词表，实现对特定领域的未标注文本的利用，进而提升对未登录词的识别。

例如，在 “部分居民生活水平” 这句话中，到底有多少可能成为词的组块？单字可成词，如 “民”；每两个字的组合可能成词，如 “居民”；甚至四个字的组合也可能成词，例如 “居民生活”。

“ 民 ” → 单字词

“居民 ” → 词尾

“民生 ”→ 词首

“居民生活” → 词中

（根据构词能力，找到所有的成词组合）

把这些可能成词的组合全部找到以后，加入到该分词模型中。通过神经网络，学习哪些词对于最后完整表达句意的帮助更大，进而分配不同的权重。像 “部分”、“居民”、“生活”、“水平” 这些词都会被突出出来，但 “分居”、“民生” 这些词就会被降权处理，从而预测出正确的结果。

在 “他从小学电脑技术” 这句话中，对于有歧义的部分 “从小学”（有 “从 / 小学” 和 “从小 / 学” 两种分法），该模型能够对 “从小” 和 “学” 分配更高的权重，而对错误的 n 元组 ——“小学” 分配较低的权重。

为了检验该模型的分词效果，论文进行了严格的标准实验和跨领域实验。

实验结果显示，该模型在 5 个数据集（MSR、PKU、AS、CityU、CTB6）上的表现，均达了最好的成绩（F 值越高，性能越好）。（注：所选择的五个数据集是中文分词领域目前全世界唯一通用的标准数据集）

创新工场大湾区人工智能研究院执行院长宋彦表示，与前人的模型进行比较发现，该模型在所有数据集上的表现均超过了之前的工作，“把中文分词领域广泛使用的标准数据集上的性能全部刷到了新高。”

在跨领域实验中，论文使用网络博客数据集（CTB7）测试。实验结果显示，在整体 F 值以及未登陆词的召回率上都有比较大提升。

双通道注意力机制，有效剔除“噪音”误导

第二篇论文 Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-way Attentions of Auto-analyzed Knowledge 提供了一种基于双通道注意力机制的分词及词性标注模型。

中文分词和词性标注是两个不同的任务。词性标注是在已经切分好的文本中，给每一个词标注其所属的词类，例如动词、名词、代词、形容词。词性标注对后续的句子理解有重要的作用。

在词性标注中，歧义仍然是个老大难的问题。例如，对于 “他要向全班同学报告书上的内容” 中，“报告书” 的正确的切分和标注应为 “报告_VV / 书_N”。但由于 “报告书” 本身也是一个常见词，一般的工具可能会将其标注为 “报告书_NN”。

句法标注本身需要大量的时间和人力成本。在以往的标注工作中，使用外部自动工具获取句法知识是主流方法。在这种情况下，如果模型不能识别并正确处理带有杂音的句法知识，很可能会被不准确的句法知识误导，做出错误的预测。

例如，在句子 “他马上功夫很好” 中，“马” 和 “上” 应该分开（正确的标注应为 “马_NN / 上_NN”）。但按照一般的句法知识，却可能得到不准确的切分及句法关系，如 “马上”。

针对这一问题，该论文提出了一个基于双通道注意力机制的分词及词性标注模型。该模型将中文分词和词性标注视作联合任务，可一体化完成。模型分别对自动获取的上下文特征和句法知识加权，预测每个字的分词和词性标签，不同的上下文特征和句法知识在各自所属的注意力通道内进行比较、加权，从而识别特定语境下不同上下文特征和句法知识的贡献。

这样一来，那些不准确的，对模型预测贡献小的上下文特征和句法知识就能被识别出来，并被分配小的权重，从而避免模型被这些有噪音的信息误导。

即便在自动获取的句法知识不准确的时候，该模型仍能有效识别并利用这种知识。例如，将前文有歧义、句法知识不准确的句子（“他马上功夫很好”），输入该双通道注意力模型后，便得到了正确的分词和词性标注结果。

分词及词性标注实例

为了测试该模型的性能，论文在一般领域和跨领域分别进行了实验。

一般领域实验结果显示，该模型在 5 个数据集（CTB5，CTB6，CTB7，CTB9，Universal Dependencies）的表现（F 值）均超过前人的工作，也大幅度超过了斯坦福大学的 CoreNLP 工具，和伯克利大学的句法分析器。

即使是在与 CTB 词性标注规范不同的 UD 数据集中，该模型依然能吸收不同标注带来的知识，并使用这种知识，得到更好的效果。

该模型在所有数据集上均超过了之前的工作

CTB5（CTB5 是使用最多的中文分词和词性标注的数据集）结果

而在跨领域的实验中，和斯坦福大学的 CoreNLP 工具相比，该模型也有近 10 个百分点的提升。

跨领域分词实验（对话测试集）的结果

主动引入和分辨知识，实现中文分词技术突破

中文分词在中国科研领域已经有几十年的历史。最初的中文分词是基于词典构建，词典的好坏会直接影响到最后分析的效果。如果某个新词在词典里没有，那么模型是死活都分不出来的。

这种方式的局限性还在于，词典和分词两件事情中间始终有一条鸿沟，尽管词典可以编撰得非常全面，但在处理分词的时候，因为每一句话都有上下文语境，往往会产生多种不同的切分方法，从而无法有效地在当前语境下对分词结构进行恰当的指导。

从 2003 年开始，分词方法出现了新的突破。研究人员提出了打标签的方式，通过给每一个字打词首、词尾、词中的标签，不再需要构建词典，大幅度提升了未登录词的召回效果。

到了 2014 年左右，深度学习和神经网络开始被广泛应用到中文分词中，打标签的模型从之前的浅层学习变成了深度学习，但算法本质没有发生变化，所以提升作用并不太大。

近两年，学界开始研究怎么在打标签的过程中加入外部知识和信息。创新工场的这两篇文章就是沿着这个路径，用记忆神经网络的方式记录对分词结果有影响的 n 元组，并引入对词性标注有影响的句法知识，将分词结果和自动获得的知识衔接起来，既发挥了神经网络的优势，也把知识的优势用上，实现了分词技术上小而有效的改进和突破。

宋彦表示，“从技术创新的角度，我们的贡献主要有两点。一是在现有技术的基础上，建立了一个一体化的模型框架，使用非监督方法构建词表，并把知识（信息）融入进来，使用更高层次的句法知识，来帮助词性标注，起到 ' 他山之石，可以攻玉’的效果。”

“二是主动吸收和分辨不同的外部知识（信息）。通过键 - 值记忆神经网络和双通道注意力机制，进行动态权重的分配，能够有效分辨知识，区分哪些是有效的，哪些是无效的。虽然这些知识是自动获取的、不准确的，但‘三个臭皮匠，顶个诸葛亮’，经过有效利用，总能凑出一些有用的信息。如何实现模型的主动吸收和分辨，就变得更加重要。”

据了解，今年的 ACL 大会，在分词领域一共收录了 18 篇论文，创新工场人工智能工程院同时有 2 篇入选，也表现出 ACL 官方对这一贡献的认可。

具备跨领域分词能力，提升工业应用效率

中文分词和词性标注是最底层的应用，对于接下来的应用和任务处理非常重要。例如对于文本分类、情感分析，文本摘要、机器翻译等，分词都是不可或缺的基本 “元件”。

宋彦表示，做此项研究的目的是主要为了拓展其工业场景的应用，正确的分词能够平衡公司应用开发的效率和性能，同时方便人工干预及（预）后处理。

这也是创新工场人工智能工程院的努力方向之一。工程院成立于 2016 年 9 月，宗旨是衔接科技创新和行业赋能，做嫁接科研和产业应用的桥梁，为行业改造业务流程、提升业务效率。

工程院下设北京总部、南京研究院和大湾区研究院。大湾区研究院再下设信息感知和理解实验室，专注于对自然语言处理（NLP）领域的研究。执行院长宋彦本人也有超过 15 年的 NLP 领域的科研经验。

创新工场人工智能工程院架构图

“在工业场景使用的时候，跨领域的模型能力是一个非常直接的诉求。” 宋彦表示，在某个领域的训练模型，大概率也需要应用到其他领域。

“如何在新领域缺少数据，或者新领域只有少量未标注数据的情况下，实现模型的冷启动，依然是项巨大的挑战。如果能利用外部知识，提高模型性能，就能有效地召回很多在训练集中没有出现过的新词。”

例如搜索引擎的广告系统，最初也是通过组词匹配的方式，在某个特定领域训练其分词模型，但在进入一个新的领域时，例如从新闻领域进入医疗领域或体育领域，效果往往会大打折扣，甚至频频出错。

而使用跨领域特性后，广告系统在进入新领域时，便无需额外的数据，就可以对它进行比较准确的分词和标注，从而有效匹配广告和客户，大大提升系统运行的效率和稳定性。

模型的应用前景

针对一体化解决方案的可能应用前景，宋院长也做了简要的概述。

因为更好的分词结果往往能够在更大的词汇层面带来更好的语义信息。所以，如果有更精准的分词结果，往往会对翻译或者类似这样的下游任务有更好的帮助。

其中，一个非常典型的应用前景就是搜索引擎的广告匹配应用。搜索引擎的广告系统，最初也是通过组词匹配的方式，在某个特定领域训练其分词模型，但在进入一个新的领域时，例如从新闻领域进入医疗领域或体育领域，效果往往会大打折扣，甚至频频出错。

而新兴的解决方案可能可以进一步能加强这方面的性能，比方说广告匹配、内容推荐等等，可能更多地是在现有基础上面进一步提升系统能力并进行拓展，惠及所有跨领域需要进行词汇级别抽取的相关工作。当然，本身上从这个方法层面上，我们也可以把这个技术用到其他的 NLP 任务，不仅限于分词，所以，从应用环节上看，我个人觉得作为一个底层任务的改进方案，其实很多应用领域都能够被用到。

再比方说在新闻领域学到的模型，如果碰到一个体育领域的广告，或者是服装领域的广告文本，那么这个时候其中很多词会没办法正确切分出来。如果存在这样的情况，在使用我们的模型时候，在新领域进行广告内容推荐，可以讲新领域的知识和事先准备的关键词等，加入我们的模型，从而把目标文本中一些比较有效的关键词，通过更好的分词结果呈现出来，而这些关键词，可能会匹配到用户输入的一些词，或者说用户在特定的网页浏览背景下面他所碰到的一些内容。

所以如果分词结果正确，就能够有效的把这两部分内的内容衔接，使得用户在搜索的时候，得到的广告内容跟搜索结果是匹配的。考虑到模型是从另外的一个领域训练出来的，那么这样得到的一个结果，依然可以有效地实现广告在不同领域进行内容匹配的冷启动。

目前，这两篇论文的工具都已经开源，在下面两个链接中，可以找到对应的所有代码和模型，各位朋友可按需自取：

分词工具： https://github.com/SVAIGBA/WMSeg

分词及词性标注工具： https://github.com/SVAIGBA/TwASP