中文分词和词性标注是中文自然语言处理的两个基本任务。长期以来,这两个基本任务一直对中文信息处理(NLP)有着非常重要的意义,因为它们是任何其它后续处理的一个最重要的基础。近年来,大家在中文分词领域会有一些不同的见解。尤其是随着预训练模型的提出,有一些人提出质疑是否还有必要进行中文分词的处理。对此我们提出了不同的意见——特别考虑到词汇级别的信息依然是中文信息处理最重要的基础。一个例子就是,虽然BERT大行其道,但是中文上基于全词覆盖 (whole word masking)的预训练模型,比直接使用单字编码的效果更好,由此说明:引入词信息能够达到更好的效果。而且对于工业界对于分词的诉求来看,关于中文分词的研究依然是我们需要持续去努力的一个方向。针对在工业场景的分词,我们可以看到,虽然字模型对于各种字的编码器能够达到非常好的效果,但是依然无法达到效率和性能的平衡,尤其在很多场景下需要进行人工干预及后处理,如果能够对一句话进行分词处理,对于后续的很多工业应用都会有非常大的价值。这两项 ACL 工作的出发点,便是基于现存的模型没有一个比较好的一体化解决方案。所谓的一体化解决方案,需要强调的是如何融合几个对立的方面:第一个方面,使用基于字编码技术进行NLP时,可能比较难融汇一些大颗粒度的词汇信息,在预训练模型中使用 whole word masking 等,实际上就是融入这种词汇信息的方法。然而针对分词和词性标注类似这样的任务,目前还没有一个非常好的能够在上面加入类似信息的方法。第二个方面是融合数据驱动和加入知识的矛盾。目前普遍采用基于深度学习和统计的方法,基于大量的数据去学习NLP模型,在此基础上,模型学到内容都是从数据出发,那么对于一些已经人工整理好的知识,或者是自动学到的知识,怎么把这些知识加入到通过数据学习的模型中去,是需要融合的一个天平的两端,这也就是在这样的一体化解决中需要解决的问题。2