别再无脑wwm了！在下游任务中不一定有效！ - 专知

会员服务 ·

0

别再无脑wwm了！在下游任务中不一定有效！

2022 年 4 月 14 日 大数据文摘

大数据文摘授权转载自夕小瑶的卖萌屋

作者：python

近几年来，整词遮掩（whole word masking, wwm）作为一种（几乎）不增加计算量，却能大大提升模型表现的方法，被广泛地运用在预训练语言模型中，以促进粗粒度语义的整体建模[1]。

然而，这种方法真的是通用的么？

论文作者认为，中文里词是一个组合单元，而非英文中的独立单元。因此，对中文的整词遮掩预训练并非天然有效的。论文作者在中文语法改错任务上做了实验。结果表明，在字级别纠错任务上，wwm效果反而不如逐字遮掩效果好。而在整体任务效果上，将逐字遮掩与整词遮掩结合表现更佳。

该论文为复旦自然语言处理组与腾讯AI lab的工作，发表于ACL 2022 findings.

论文题目：
"Is Whole Word Masking Always Better for Chinese BERT?": Probing on Chinese Grammatical Error Correction

论文链接：
（ACL Findings 2022） https://arxiv.org/abs/2203.00286v2

背景

掩码语言模型与整词遮掩

掩码语言模型是预训练模型中的一个常用的自监督任务。通过遮掩部分输入内容，让模型预测还原的方式，增强模型的语言建模能力。

而整词遮掩方法，利用中文分词的结果，在掩码预测时以词为单位进行遮掩，可以提高对粗粒度语义的建模能力。如下图所示，original masking只遮掩的“模”，模型可以很容易地利用输入的“型”来预测被遮掩的内容，从而减低语言模型建模难度。而WWM（whole word masking）将“模型”两字均遮掩掉，可以促进模型整体建模这个词汇，促进长距离依赖的建模。

语法改错任务

论文在中文语法改错任务上展开了任务探索。具体而言，可以分为替换和插入两个任务。如下图所示。替换任务中，给定句子和需要替换的语段，模型生成替换内容以构成通顺语句；插入任务中，给定句子，插入点与插入长度，模型生成插入内容以形成通顺的语句。

实验结果

实验结果如下图所示。其中，Ours的三个模型是该论文作者自己从头预训练的三个模型，用以公平比较。-clm仅使用字级别掩码预测，-wwm使用整词掩码预测，-clm-wwm同时使用两种掩码预测方式。

从中可以看出，在长度为1时，即对单字进行补充或替换，clm具有明显的优势。而随着需要替换的长度增加，wwm的优势更为明显。整体而言，看average的结果，clm和wwm同时使用可以取得更好的表现。

而在下游任务上的实验表明，同时使用clm与wwm，在几种预训练设置下，都能在下游任务上取得和wwm相当的表现。

总结

整体而言，这篇文章其实比较tricky。选择语法改错中按字插入、替换这种任务，字级别语言建模任务自然可以取得更好的表现。因为字级别遮掩能够促进模型建模词内的依赖关系。

这种因地制宜，因材炼丹的思想是有价值的。在做具体任务的时候，必然要考虑具体任务的特点。不会有一种方法简单有效又能通吃所有任务的。

当然，因地制宜选择预训练任务肯定是最合适的，但如果拿不准的话，wwm+clm可能是一种更稳妥的选择。

类似的思想，还有一些字词多粒度预训练语言模型，如AMBERT[2]，LatticeBERT[3]等，通过在预训练输入中将字词同时考虑进去，以提升下游任务表现。

参考文献：

[1] Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Ziqing Yang, Shijin Wang, and Guoping Hu. 2019. Pre-training with whole word masking for chinese bert. arXiv preprint arXiv:1906.08101.

[2] Xinsong Zhang and Hang Li. 2020. Ambert: A pre- trained language model with multi-grained tokeniza- tion. arXiv preprint arXiv:2008.11869.

[3] Yuxuan Lai, Yijia Liu, Yansong Feng, Songfang Huang, and Dongyan Zhao. 2021. Lattice-bert: Leveraging multi-granularity representations in chi- nese pre-trained language models. arXiv preprint arXiv:2104.07204.

点「在看」的人都变好看了哦！

登录查看更多

0

相关内容

下游任务

WWW 2022 ：基于纯MLP架构的序列推荐模型

WWW 2022 ：基于纯MLP架构的序列推荐模型

专知会员服务

16+阅读 · 2022年3月20日

对比学习简述

专知会员服务

90+阅读 · 2021年6月29日

【AAAI2021】预训练用户表示提升推荐

【AAAI2021】预训练用户表示提升推荐

专知会员服务

44+阅读 · 2021年2月8日

中文预训练语言模型回顾

专知会员服务

34+阅读 · 2020年11月25日

【EMNLP 2020】融合自训练和自监督方法的无监督文本顺滑研究

【EMNLP 2020】融合自训练和自监督方法的无监督文本顺滑研究

专知会员服务

24+阅读 · 2020年10月18日

【NeurIPS 2020】融入BERT到并行序列模型

【NeurIPS 2020】融入BERT到并行序列模型

专知会员服务

26+阅读 · 2020年10月15日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知会员服务

41+阅读 · 2020年8月31日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【论文】使用编码器进行命名实体识别（TENER: Adapting Transformer Encoder for Named Entity Recognition）

【论文】使用编码器进行命名实体识别（TENER: Adapting Transformer Encoder for Named Entity Recognition）

专知会员服务

52+阅读 · 2019年12月28日

ExBert — 可视化分析Transformer学到的表示

ExBert — 可视化分析Transformer学到的表示

专知会员服务

32+阅读 · 2019年10月16日

AAAI2022 预训练中的多模态信息融合与表征探究

AAAI2022 预训练中的多模态信息融合与表征探究

RUC AI Box

3+阅读 · 2022年3月15日

EMNLP 2021 最新综述：语言模型中的关系性知识

EMNLP 2021 最新综述：语言模型中的关系性知识

PaperWeekly

0+阅读 · 2021年12月3日

颠覆大规模预训练！清华杨植麟组提出全新NLP学习框架TLM，学习效率×100倍

颠覆大规模预训练！清华杨植麟组提出全新NLP学习框架TLM，学习效率×100倍

新智元

0+阅读 · 2021年11月25日

再谈对比学习：更好的对比样本选择，更好的对比效果

再谈对比学习：更好的对比样本选择，更好的对比效果

PaperWeekly

0+阅读 · 2021年10月26日

面向Transformer模型的高效预训练方法

面向Transformer模型的高效预训练方法

哈工大SCIR

1+阅读 · 2021年6月5日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

18+阅读 · 2020年8月31日

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

NLP预训练模型大集合！

NLP预训练模型大集合！

全球人工智能

31+阅读 · 2018年12月29日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

基于神经网络的跨语言实体链指研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于SysML和MARTE的异构数据模型转换方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

组排序学习方法的研究与应用

国家自然科学基金

0+阅读 · 2013年12月31日

神经网络随机学习算法的泛化性研究

国家自然科学基金

2+阅读 · 2013年12月31日

高维近似因子模型的极大似然分析：理论与方法

国家自然科学基金

0+阅读 · 2012年12月31日

模型参数辨识中的试验优化设计问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

非线性协整模型的有效估计、检验及其应用

国家自然科学基金

0+阅读 · 2012年12月31日

粒子滤波在复杂系统模型辨识与状态估计中的应用研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于图论方法的生物神经网络结构与功能研究

国家自然科学基金

0+阅读 · 2009年12月31日

集团化企业中基于社会网络分析的知识资源整合研究

国家自然科学基金

1+阅读 · 2008年12月31日

H4D: Human 4D Modeling by Learning Neural Compositional Representation

Arxiv

0+阅读 · 2022年4月19日

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

Arxiv

0+阅读 · 2022年4月18日

Contrastive Learning with Hard Negative Entities for Entity Set Expansion

Arxiv

0+阅读 · 2022年4月16日

Dense Contrastive Learning for Self-Supervised Visual Pre-Training

Arxiv

18+阅读 · 2021年4月4日

Contrastive Triple Extraction with Generative Transformer

Arxiv

13+阅读 · 2021年2月4日

Pre-training Text Representations as Meta Learning

Arxiv

13+阅读 · 2020年4月12日

Few-shot Natural Language Generation for Task-Oriented Dialog

Few-shot Natural Language Generation for Task-Oriented Dialog

Arxiv

30+阅读 · 2020年2月27日

Graph Transformer Networks

Arxiv

15+阅读 · 2020年2月5日

K-BERT: Enabling Language Representation with Knowledge Graph

K-BERT: Enabling Language Representation with Knowledge Graph

Arxiv

19+阅读 · 2019年9月17日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

VIP会员

相关主题

预训练语言模型

相关VIP内容

WWW 2022 ：基于纯MLP架构的序列推荐模型

WWW 2022 ：基于纯MLP架构的序列推荐模型

专知会员服务

16+阅读 · 2022年3月20日

对比学习简述

专知会员服务

90+阅读 · 2021年6月29日

【AAAI2021】预训练用户表示提升推荐

【AAAI2021】预训练用户表示提升推荐

专知会员服务

44+阅读 · 2021年2月8日

中文预训练语言模型回顾

专知会员服务

34+阅读 · 2020年11月25日

【EMNLP 2020】融合自训练和自监督方法的无监督文本顺滑研究

【EMNLP 2020】融合自训练和自监督方法的无监督文本顺滑研究

专知会员服务

24+阅读 · 2020年10月18日

【NeurIPS 2020】融入BERT到并行序列模型

【NeurIPS 2020】融入BERT到并行序列模型

专知会员服务

26+阅读 · 2020年10月15日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知会员服务

41+阅读 · 2020年8月31日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【论文】使用编码器进行命名实体识别（TENER: Adapting Transformer Encoder for Named Entity Recognition）

【论文】使用编码器进行命名实体识别（TENER: Adapting Transformer Encoder for Named Entity Recognition）

专知会员服务

52+阅读 · 2019年12月28日

ExBert — 可视化分析Transformer学到的表示

ExBert — 可视化分析Transformer学到的表示

专知会员服务

32+阅读 · 2019年10月16日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

AAAI2022 预训练中的多模态信息融合与表征探究

AAAI2022 预训练中的多模态信息融合与表征探究

RUC AI Box

3+阅读 · 2022年3月15日

EMNLP 2021 最新综述：语言模型中的关系性知识

EMNLP 2021 最新综述：语言模型中的关系性知识

PaperWeekly

0+阅读 · 2021年12月3日

颠覆大规模预训练！清华杨植麟组提出全新NLP学习框架TLM，学习效率×100倍

颠覆大规模预训练！清华杨植麟组提出全新NLP学习框架TLM，学习效率×100倍

新智元

0+阅读 · 2021年11月25日

再谈对比学习：更好的对比样本选择，更好的对比效果

再谈对比学习：更好的对比样本选择，更好的对比效果

PaperWeekly

0+阅读 · 2021年10月26日

面向Transformer模型的高效预训练方法

面向Transformer模型的高效预训练方法

哈工大SCIR

1+阅读 · 2021年6月5日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

18+阅读 · 2020年8月31日

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

NLP预训练模型大集合！

NLP预训练模型大集合！

全球人工智能

31+阅读 · 2018年12月29日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

相关基金

基于神经网络的跨语言实体链指研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于SysML和MARTE的异构数据模型转换方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

组排序学习方法的研究与应用

国家自然科学基金

0+阅读 · 2013年12月31日

神经网络随机学习算法的泛化性研究

国家自然科学基金

2+阅读 · 2013年12月31日

高维近似因子模型的极大似然分析：理论与方法

国家自然科学基金

0+阅读 · 2012年12月31日

模型参数辨识中的试验优化设计问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

非线性协整模型的有效估计、检验及其应用

国家自然科学基金

0+阅读 · 2012年12月31日

粒子滤波在复杂系统模型辨识与状态估计中的应用研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于图论方法的生物神经网络结构与功能研究

国家自然科学基金

0+阅读 · 2009年12月31日

集团化企业中基于社会网络分析的知识资源整合研究

国家自然科学基金

1+阅读 · 2008年12月31日

相关论文

H4D: Human 4D Modeling by Learning Neural Compositional Representation

Arxiv

0+阅读 · 2022年4月19日

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking

Arxiv

0+阅读 · 2022年4月18日

Contrastive Learning with Hard Negative Entities for Entity Set Expansion

Arxiv

0+阅读 · 2022年4月16日

Dense Contrastive Learning for Self-Supervised Visual Pre-Training

Arxiv

18+阅读 · 2021年4月4日

Contrastive Triple Extraction with Generative Transformer

Arxiv

13+阅读 · 2021年2月4日

Pre-training Text Representations as Meta Learning

Arxiv

13+阅读 · 2020年4月12日

Few-shot Natural Language Generation for Task-Oriented Dialog

Few-shot Natural Language Generation for Task-Oriented Dialog

Arxiv

30+阅读 · 2020年2月27日

Graph Transformer Networks

Arxiv

15+阅读 · 2020年2月5日

K-BERT: Enabling Language Representation with Knowledge Graph

K-BERT: Enabling Language Representation with Knowledge Graph

Arxiv

19+阅读 · 2019年9月17日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

大家都在搜

CMU博士论文

无人机集群

久别重逢话双塔

国防科技创新

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员