Soft-Masked BERT：文本纠错与BERT的最新结合

会员服务 ·

Soft-Masked BERT：文本纠错与BERT的最新结合

2020 年 8 月 19 日 深度学习自然语言处理

点击上方，选择星标或置顶，每天给你送干货

！

阅读大概需要10分钟

跟随小博主，每天进步一丢丢

每日英文

Reading makes a full man, conference a ready man, and writing an exact man. - Francis Bacon, English philosopher

读书使人充实，谈话使人敏捷，写作使人准确。——弗朗西斯·培根，英国哲学家

Recommender：云不见

作者：Giant

链接：https://zhuanlan.zhihu.com/p/144995580

编辑：王萌 (深度学习自然语言处理公众号)

文本纠错 ，是自然语言处理领域检测一段文字是否存在错别字、以及将错别字纠正过来的技术，一般用于文本预处理阶段，同时能显著缓解智能客服等场景下语音识别（ASR）不准确的问题。

本文将通过以下几个章节简要介绍文本纠错相关知识。

  
  
    
   
   
     1. 文本纠错示例与难点
2. 文本纠错常用技术
3. 如何将 BERT 应用于文本纠错
4. 文本纠错最优模型：Soft-Masked BERT（2020-ACL）
5. 立马上手的纠错工具推荐

一.文本纠错示例与难点

生活中常见的文本错误可以分为（1）字形相似引起的错误（2）拼音相似引起的错误两大类；如：“咳数”->“咳嗽”；“哈蜜”->“哈密”。错别字往往来自于如下的“相似字典”。

其他错误还包括方言、口语化、重复输入导致的错误，在ASR中较为常见。

现有的NLP技术已经能解决多数文本拼写错误。剩余的纠错难点主要在于，部分文本拼写错误需要常识背景（world-knowledge）才能识别。例如：

  
  
    
   
   
     Wrong: "我想去埃及金子塔旅游。"
Right: "我想去埃及金字塔旅游。"

将其中的“金子塔”纠正为“金字塔”需要一定的背景知识。

同时，一些错误需要模型像人一样具备一定的推理和分析能力才能识破。例如：

  
  
    
   
   
     Wrong: "他的求胜欲很强，为了越狱在挖洞。"
Right: "他的求生欲很强，为了越狱在挖洞。"

“求胜欲”和“求生欲”在自然语言中都是正确的，但是结合上下文语境来分析，显然后者更为合适。

最后，文本纠错技术对于误判率有严格的要求，一般要求低于0.5%。如果纠错方法的误判率很高（将正确的词“纠正”成错误的），会对系统和用户体验有很差的负面效果。

二.文本纠错常用技术

错别字纠正已经有很多年的研究历史。常用的方法可以归纳为错别字词典、编辑距离、语言模型等。

构建错别字词典人工成本较高，适用于错别字有限的部分垂直领域；编辑距离采用类似字符串模糊匹配的方法，通过对照正确样本可以纠正部分常见错别字和语病，但是通用性不足。

所以，现阶段学术界和工业界研究的重点一般都是基于语言模型的纠错技术。2018年之前，语言模型的方法可以分为传统的n-gram LM和DNN LM，可以以字或词为纠错粒度。其中“字粒度”的语义信息相对较弱，因此误判率会高于“词粒度”的纠错；“词粒度”则较依赖于分词模型的准确率。

为了降低误判率，往往在模型的输出层加入CRF层校对，通过学习转移概率和全局最优路径避免不合理的错别字输出。

2018年之后，预训练语言模型开始流行，研究人员很快把BERT类的模型迁移到了文本纠错中，并取得了新的最优效果。

三、将BERT应用于文本纠错

BERT与以往深度学习模型的主要区别在于：预训练阶段使用了“掩码语言模型”MLM和“判断s1是否为s2下一句”NSP两个任务，特征抽取使用12层双向Transformer，更大的训练语料和机器「More Money，More Power」。其中，MLM任务使得模型并不知道输入位置的词汇是否为正确的词汇（10%概率），这就迫使模型更多地依赖于上下文信息去预测词汇，赋予了模型一定的纠错能力。

一种简单的使用方式为，依次将文本s中的每一个字c做mask掩码，依赖c的上下文来预测c位置最合适的字（假设词表大小为20000，相当于在句子中的每一个位置做了一个“20000分类”）。设置一个容错阈值k=5，如果原先的字c出现在预测结果的top5中，就认为该位置不是错别字，否则是错别字。

当然这种方法过于粗暴，很可能造成高误判率。作为优化，我们可以采用预训练的方式对BERT进行微调，显著改进纠错效果。纠错的领域最好和微调领域相同（如果需要在新闻类文章中纠错，可以使用“人民日报语料”对模型微调）。

四、文本纠错最优模型：Soft-Masked BERT

为了弥补baseline方法的不足，最大限度发挥BERT功效，复旦大学的研究人员在2020 ACL上发表了最新论文：Spelling Error Correction with Soft-Masked BERT

论文首次提出了Soft-Masked BERT模型，主要创新点在于：

（1）将文本纠错划分为检测网络（Detection）和纠正网络（Correction）两部分，纠正网络的输入来自于检测网络输出。

（2）以检测网络的输出作为权重，将 masking-embedding以“soft方式”添加到各个字符特征上，即“Soft-Masked”。

论文简要分析

具体来看，模型Input是字粒度的word-embedding，可以使用BERT-Embedding层的输出或者word2vec。检测网络由Bi-GRU组成，充分学习输入的上下文信息，输出是每个位置 i 可能为错别字的概率 p(i)，值越大表示该位置出错的可能性越大。

检测网络与 Soft Masking

Soft Masking 部分，将每个位置的特征以

的概率乘上 masking 字符的特征

，以

的概率乘上原始的输入特征，最后两部分相加作为每一个字符的特征，输入到纠正网络中。原文描述：

纠正网络

纠正网络部分，是一个基于BERT的序列多分类标记模型。检测网络输出的特征作为BERT 12层Transformer模块的输入，最后一层的输出 + Input部分的Embedding特征

（残差连接）作为每个字符最终的特征表示。

最后，将每个字特征过一层 Softmax 分类器，从候选词表中输出概率最大的字符认为是每个位置的正确字符。

整个网络的训练端到端进行，损失函数由检测网络和纠正网络加权构成。

实验结果

作者在“SIGHAN”和“NEWs Title”两份数据集上做了对比实验。其中“SIGHAN”是2013年开源的中文文本纠错数据集，规模在1000条左右。”NEWs Title”是从今日头条新闻标题中自动构建的纠错数据集（根据文章开头展示的相似字形、相似拼音字典），有500万条语料。

Soft-Masked BERT 在两份数据集上几乎都取得了最好结果。同时我们发现，Finetune对于原始BERT的表现具有巨大的促进作用。

论文代码作者暂未开源，但是论文的模型和思路应该是非常清晰易懂的，实现起来不会太难。这儿先立个flag，有时间自己来实现一下。

五、立马上手的纠错工具推荐

笔者简单调研发现，文本纠错网上已经有不少的开源工具包供大家使用了。其中最知名的应该是pycorrector。

它支持kenlm、rnn_crf、seq2seq、BERT等各种模型。结合具体领域的微调和少量规则修正，应该可以满足大部分场景中的文本纠错需求了。

Demo中笔者使用了经人民日报语料微调过的BERT模型，通过pycorrect加载来做基于MLM的文本纠错。识别结果还算可以，甚至“金字塔”这种需要常识的错别字都纠正出来了。

当然pycorrect还支持各种语言模型和DNN模型，留给大家自行把玩 : )

此外，笔者还找到一个京东客服机器人语料做的纠错模型，

主要解决同音字自动纠错问题，比如：

  
  
    
   
   
     对京东新人度大打折扣 --> 对京东信任度大打折扣
我想买哥苹果手机 --> 我想买个苹果手机

不过仓库上一次更新在5年前，年代久远估计效果有限。

以上是笔者近期调研文本纠错后的一些思考，刚好上周在实验室组会中做了分享，就顺便写了这篇文章。如果大家发现有好的纠错方法或论文，欢迎留言分享一起交流哈

Reference

1. 中文文本纠错算法--错别字纠正的二三事: https://zhuanlan.zhihu.com/p/40806718

2. Spelling Error Correction with Soft-Masked BERT: https://arxiv.org/pdf/2005.07421.pdf

3. pycorrector：https://github.com/shibing624/pycorrector

4. 京东客服-文本纠错：https://github.com/taozhijiang/chinese_correct_wsd

5. SIGHAN 2013 Bake-off: Chinese Spelling Check Task: http://ir.itc.ntnu.edu.tw/lre/sighan7csc.html

推荐两个专辑给大家：

专辑 | 李宏毅人类语言处理2020笔记

专辑 | NLP论文解读

登录查看更多

相关内容

SOFT

关注 0

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

NLP基础任务《文本分类算法》大综述最新版, 68页超详细解析

专知会员服务

75+阅读 · 2020年7月30日

商业数据分析，39页ppt

专知会员服务

165+阅读 · 2020年6月2日

【斯坦福大学AI】BERT, ELMo， & GPT-2:上下文化的单词表示是怎样的?

专知会员服务

35+阅读 · 2020年3月28日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

70+阅读 · 2020年1月17日

预训练语言模型BERT，Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑，35页ppt

专知会员服务

114+阅读 · 2020年1月7日

NLP基础任务:文本分类近年发展汇总,68页超详细解析

专知会员服务

58+阅读 · 2020年1月3日

BERT进展2019四篇必读论文

专知会员服务

69+阅读 · 2020年1月2日

【CCL 2019】信息抽取前沿动态，中科院自动化模式识别国家重点实验室助理研究员陈玉博博士

专知会员服务

86+阅读 · 2019年11月12日

【AAAI2020接受论文】Emu:使用语义专门化增强多语言句子嵌入，Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

专知会员服务

26+阅读 · 2019年11月11日

基于BERT的ASR纠错

深度学习自然语言处理

8+阅读 · 2020年7月16日

使用BERT做文本摘要

专知

23+阅读 · 2019年12月7日

AAAI 2020论文解读：关注实体以更好地理解文本

AI科技评论

17+阅读 · 2019年11月20日

ACL 2019 | 多语言BERT的语言表征探索

AI科技评论

21+阅读 · 2019年9月6日

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

万字长文详解文本抽取：从算法理论到实践

PaperWeekly

7+阅读 · 2019年8月13日

博客 | 谷歌最强 NLP 模型 BERT 解读

AI研习社

4+阅读 · 2018年10月28日

谷歌最强 NLP 模型 BERT 解读

雷锋网

7+阅读 · 2018年10月23日

使用fasttext实现文本处理及文本预测

数据挖掘入门与实战

5+阅读 · 2018年1月13日

论文动态 | 基于知识图谱的问答系统关键技术研究 #04

开放知识图谱

10+阅读 · 2017年7月9日

Sequence Labeling vs. Clause Classification for English Emotion Stimulus Detection

Arxiv

0+阅读 · 2020年10月15日

BERT-Based Multi-Head Selection for Joint Entity-Relation Extraction

Arxiv

6+阅读 · 2019年9月26日

Enriching BERT with Knowledge Graph Embeddings for Document Classification

Arxiv

6+阅读 · 2019年9月18日

Semantics-aware BERT for Language Understanding

Arxiv

4+阅读 · 2019年9月5日

Text Summarization with Pretrained Encoders

Arxiv

5+阅读 · 2019年8月22日

DocBERT: BERT for Document Classification

Arxiv

6+阅读 · 2019年8月22日

What Does BERT Look At? An Analysis of BERT's Attention

Arxiv

4+阅读 · 2019年6月11日

BERTScore: Evaluating Text Generation with BERT

Arxiv

5+阅读 · 2019年4月21日

Utilizing BERT for Aspect-Based Sentiment Analysis via Constructing Auxiliary Sentence

Arxiv

8+阅读 · 2019年3月22日

Mask R-CNN

Arxiv

7+阅读 · 2018年1月24日

VIP会员