【NeurIPS 2020】依图推出预训练语言理解模型ConvBERT - 专知VIP

会员服务 ·

0

预训练语言模型 · ConvBERT ·

2020 年 11 月 13 日

【NeurIPS 2020】依图推出预训练语言理解模型ConvBERT

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

最近 BERT 这一类基于预训练的语言理解模型十分流行，也有很多工作从改进预训练任务或者利用知识蒸馏的方法优化模型的训练，但是少有改进模型结构的工作。依图研发团队从模型结构本身的冗余出发，提出了一种基于跨度的动态卷积操作，并基于此提出了 ConvBERT 模型。

这一模型在节省了训练时间和参数的情况下，在衡量模型语言理解能力的 GLUE benchmark 上相较于之前的 State-of-the-art 方法，如 BERT 和 ELECTRA，都取得了显著的性能提升。其中 ConvBERT-base 模型利用比 ELECTRA-base 1/4 的训练时间达到了 0.7 个点的平均 GLUE score 的提升。

之前 BERT 这类模型主要通过引入自注意力机制来达到高性能，但是依图团队观察到 BERT 模型中的 attention map 有着如下图的分布（注：attention map 可以理解成词与词之间的关系），这表明了大多注意力主要集中在对角线，即主要学习到的是局部的注意力。这就意味着其中存在着冗余，也就是说很多 attention map 中远距离关系值是没有必要计算的。

于是依图团队考虑用局部操作，如卷积来代替一部分自注意力机制，从而在减少冗余的同时达到减少计算量和参数量的效果。

另一方面，考虑到传统的卷积采用固定的卷积核，不利于处理语言这种关系复杂的数据，所以依图提出了一种新的基于跨度的卷积，如下图所示。原始的自注意力机制是通过计算每一对词与词之间的关系得到一个全局的 attention map。

此前有文章提出过动态卷积，但其卷积的卷积核并不固定，由当前位置的词语所代表的特征通过一个小网络生成卷积核。这样的问题就是在不同语境下，同样的词只能产生同样的卷积核。但是同样的词在不同语境中可以有截然不同的意思，所以这会大大限制网络的表达能力。

基于这一观察，依图提出了基于跨度的动态卷积，通过接收当前词和前后的一些词作为输入，来产生卷积核进行动态卷积，这在减少了自注意力机制冗余的同时，也很好地考虑到了语境和对应卷积核的多样性。

成为VIP会员查看完整内容

12

相关内容

预训练语言模型

预训练语言模型

近年来，预训练模型（例如ELMo、GPT、BERT和XLNet等）的快速发展大幅提升了诸多NLP任务的整体水平，同时也使得很多应用场景进入到实际落地阶段。预训练语言模型本身就是神经网络语言模型，它的特点包括：第一，可以使用大规模无标注纯文本语料进行训练；第二，可以用于各类下游NLP任务，不是针对某项定制的，但以后可用在下游NIP任务上，你不需要为下游任务专门设计一种神经网络，或者提供一种结构，直接在几种给定的固定框架中选择一种进行 fine-tune，就可以从而得到很好的结果。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

陈丹琦新作：关系抽取新SOTA，用pipeline方式挫败joint模型

专知会员服务

48+阅读 · 2020年11月7日

【NeurIPS 2020】通过双向传播的可扩展图神经网络

【NeurIPS 2020】通过双向传播的可扩展图神经网络

专知会员服务

30+阅读 · 2020年11月3日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

【NeurIPS 2020】融入BERT到并行序列模型

【NeurIPS 2020】融入BERT到并行序列模型

专知会员服务

26+阅读 · 2020年10月15日

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

专知会员服务

44+阅读 · 2020年4月28日

ACL 2019 | 理解 BERT 每一层都学到了什么

ACL 2019 | 理解 BERT 每一层都学到了什么

AI科技评论

9+阅读 · 2019年9月4日

谷歌更强 NLP 模型 XLNet 开源：20 项任务全面碾压 BERT！

谷歌更强 NLP 模型 XLNet 开源：20 项任务全面碾压 BERT！

雷锋网

5+阅读 · 2019年6月20日

注意力能提高模型可解释性？实验表明：并没有

注意力能提高模型可解释性？实验表明：并没有

黑龙江大学自然语言处理实验室

11+阅读 · 2019年4月16日

GLUE排行榜上全面超越BERT的模型近日公布了！

GLUE排行榜上全面超越BERT的模型近日公布了！

机器之心

9+阅读 · 2019年2月13日

阅读理解得分超越人类：谷歌推出最强预训练语言理解模型BERT

阅读理解得分超越人类：谷歌推出最强预训练语言理解模型BERT

DeepTech深科技

5+阅读 · 2018年10月14日

Context-Guided BERT for Targeted Aspect-Based Sentiment Analysis

Context-Guided BERT for Targeted Aspect-Based Sentiment Analysis

Arxiv

0+阅读 · 2020年12月14日

Beyond Scaling: Calculable Error Bounds of the Power-of-Two-Choices Mean-Field Model in Heavy-Traffic

Arxiv

0+阅读 · 2020年12月11日

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Arxiv

11+阅读 · 2019年10月30日

SDNet: Contextualized Attention-based Deep Network for Conversational Question Answering

Arxiv

8+阅读 · 2019年1月2日

Towards Scalable Spectral Clustering via Spectrum-Preserving Sparsification

Towards Scalable Spectral Clustering via Spectrum-Preserving Sparsification

Arxiv

4+阅读 · 2018年10月11日

VIP会员

相关主题

预训练语言模型

相关VIP内容

陈丹琦新作：关系抽取新SOTA，用pipeline方式挫败joint模型

专知会员服务

48+阅读 · 2020年11月7日

【NeurIPS 2020】通过双向传播的可扩展图神经网络

【NeurIPS 2020】通过双向传播的可扩展图神经网络

专知会员服务

30+阅读 · 2020年11月3日

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

替换Transformer！谷歌提出 Performer 模型，全面提升注意力机制！

专知会员服务

43+阅读 · 2020年10月29日

【NeurIPS 2020】融入BERT到并行序列模型

【NeurIPS 2020】融入BERT到并行序列模型

专知会员服务

26+阅读 · 2020年10月15日

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

专知会员服务

44+阅读 · 2020年4月28日

热门VIP内容

开通专知VIP会员享更多权益服务

【MIT博士论文】弱监督学习：理论、方法与应用

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

锚定情报：合成欺骗时代的地面真相

NeurIPS 2025 | NMKE：基于神经元归因与动态稀疏掩码的终身知识编辑

相关资讯

ACL 2019 | 理解 BERT 每一层都学到了什么

ACL 2019 | 理解 BERT 每一层都学到了什么

AI科技评论

9+阅读 · 2019年9月4日

谷歌更强 NLP 模型 XLNet 开源：20 项任务全面碾压 BERT！

谷歌更强 NLP 模型 XLNet 开源：20 项任务全面碾压 BERT！

雷锋网

5+阅读 · 2019年6月20日

注意力能提高模型可解释性？实验表明：并没有

注意力能提高模型可解释性？实验表明：并没有

黑龙江大学自然语言处理实验室

11+阅读 · 2019年4月16日

GLUE排行榜上全面超越BERT的模型近日公布了！

GLUE排行榜上全面超越BERT的模型近日公布了！

机器之心

9+阅读 · 2019年2月13日

阅读理解得分超越人类：谷歌推出最强预训练语言理解模型BERT

阅读理解得分超越人类：谷歌推出最强预训练语言理解模型BERT

DeepTech深科技

5+阅读 · 2018年10月14日

相关论文

Context-Guided BERT for Targeted Aspect-Based Sentiment Analysis

Context-Guided BERT for Targeted Aspect-Based Sentiment Analysis

Arxiv

0+阅读 · 2020年12月14日

Beyond Scaling: Calculable Error Bounds of the Power-of-Two-Choices Mean-Field Model in Heavy-Traffic

Arxiv

0+阅读 · 2020年12月11日

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

Arxiv

11+阅读 · 2019年10月30日

SDNet: Contextualized Attention-based Deep Network for Conversational Question Answering

Arxiv

8+阅读 · 2019年1月2日

Towards Scalable Spectral Clustering via Spectrum-Preserving Sparsification

Towards Scalable Spectral Clustering via Spectrum-Preserving Sparsification

Arxiv

4+阅读 · 2018年10月11日

微信扫码咨询专知VIP会员