加速隐蔽语言模型预培训和推断 (NarrowBERT: Accelerating Masked Language Model Pretraining and Inference) - 专知论文

会员服务 ·

0

掩码语言模型化 · 语言模型化 · Performer · MoDELS · 掩码 ·

2023 年 1 月 11 日

NarrowBERT: Accelerating Masked Language Model Pretraining and Inference

翻译：加速隐蔽语言模型预培训和推断

Haoxin Li,Phillip Keung,Daniel Cheng,Jungo Kasai,Noah A. Smith

from arxiv, Under review (ACL Rolling Review)

Large-scale language model pretraining is a very successful form of self-supervised learning in natural language processing, but it is increasingly expensive to perform as the models and pretraining corpora have become larger over time. We propose NarrowBERT, a modified transformer encoder that increases the throughput for masked language model pretraining by more than $2\times$. NarrowBERT sparsifies the transformer model such that the self-attention queries and feedforward layers only operate on the masked tokens of each sentence during pretraining, rather than all of the tokens as with the usual transformer encoder. We also show that NarrowBERT increases the throughput at inference time by as much as $3.5\times$ with minimal (or no) performance degradation on sentence encoding tasks like MNLI. Finally, we examine the performance of NarrowBERT on the IMDB and Amazon reviews classification and CoNLL NER tasks and show that it is also comparable to standard BERT performance.

翻译：大型语言模型预培训是自然语言处理中一种非常成功的自我监督学习形式,但随着模型和预培训公司逐渐扩大,其运作成本越来越昂贵。我们建议使用一个经过改造的变压器编码器,将隐形语言模型预培训的吞吐量增加2美元以上。狭义测试器将变压器模型的吞吐量增加2美元以上。狭义测试器将变压器模型改装成变压器,使自我注意查询和进料层只能在每个句子的蒙面牌上操作,而不是像通常的变压器编码器一样使用所有代号。我们还表明,纳罗BERT将发酵时的吞吐量增加3.5美元,而像MNLI这样的句码任务,其性能降低到最低限度(或没有)。最后,我们检查纳罗巴热器在IMDB和亚马孙审查分类和CONL NER任务时的表现,并表明它也与标准BERT的性能相当。

0

相关内容

掩码语言模型化

掩码语言模型化

NeurlPS 2022 | 自然语言处理相关论文分类整理

NeurlPS 2022 | 自然语言处理相关论文分类整理

专知会员服务

51+阅读 · 2022年10月2日

【NUS-Xavier 教授】图神经网络应用概述，15页ppt

专知会员服务

52+阅读 · 2021年6月30日

NLP必读经典文献100篇

专知会员服务

124+阅读 · 2020年9月8日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

165+阅读 · 2020年3月18日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

最新BERT相关论文清单，BERT-related Papers

最新BERT相关论文清单，BERT-related Papers

专知会员服务

53+阅读 · 2019年9月29日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

VCIP 2022 Call for Special Session Proposals

VCIP 2022 Call for Special Session Proposals

CCF多媒体专委会

1+阅读 · 2022年4月1日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

【推荐】MXNet深度情感分析实战

【推荐】MXNet深度情感分析实战

机器学习研究会

16+阅读 · 2017年10月4日

基于植被指数斜率的地表覆盖变化检测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

同型半胱氨酸经组蛋白和DNA甲基化相互作用调控ERO1α促内质网应激的分子机制

国家自然科学基金

0+阅读 · 2014年12月31日

地表净辐射的多源遥感数据同化方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

Intraflagellar Transport运输纤毛蛋白的分子机理

国家自然科学基金

0+阅读 · 2012年12月31日

基于微裂纹演化的岩石蠕变损伤跨层次分析

国家自然科学基金

1+阅读 · 2012年12月31日

准晶材料非线性断裂理论研究

国家自然科学基金

0+阅读 · 2012年12月31日

新疆维汉两民族缺血性脑卒中伴颈动脉粥样硬化患者与前蛋白转化酶枯草溶菌素9基因多态性的研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于粗糙集与概念格相韵合的数据分析理论与方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

功能梯度板、壳和压电材料裂纹问题的Williams型解及数值模拟

国家自然科学基金

0+阅读 · 2011年12月31日

气溶胶对大气边界层温度红外遥感的影响校正研究

国家自然科学基金

0+阅读 · 2008年12月31日

Denoising Masked AutoEncoders Help Robust Classification

Arxiv

0+阅读 · 2023年3月7日

Masked Images Are Counterfactual Samples for Robust Fine-tuning

Arxiv

0+阅读 · 2023年3月6日

Effectiveness of Data Augmentation for Prefix Tuning with Limited Data

Arxiv

0+阅读 · 2023年3月5日

Enhancing Multivariate Time Series Classifiers through Self-Attention and Relative Positioning Infusion

Arxiv

0+阅读 · 2023年3月3日

Recent Advances in Natural Language Processing via Large Pre-Trained Language Models: A Survey

Arxiv

31+阅读 · 2021年11月1日

AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing

Arxiv

23+阅读 · 2021年8月12日

Data Augmentation using Pre-trained Transformer Models

Arxiv

17+阅读 · 2020年3月4日

TinyBERT: Distilling BERT for Natural Language Understanding

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Arxiv

14+阅读 · 2019年6月19日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

VIP会员

文章信息

相关主题

掩码语言模型化

语言模型化

相关VIP内容

NeurlPS 2022 | 自然语言处理相关论文分类整理

NeurlPS 2022 | 自然语言处理相关论文分类整理

专知会员服务

51+阅读 · 2022年10月2日

【NUS-Xavier 教授】图神经网络应用概述，15页ppt

专知会员服务

52+阅读 · 2021年6月30日

NLP必读经典文献100篇

专知会员服务

124+阅读 · 2020年9月8日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

165+阅读 · 2020年3月18日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

最新BERT相关论文清单，BERT-related Papers

最新BERT相关论文清单，BERT-related Papers

专知会员服务

53+阅读 · 2019年9月29日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

VCIP 2022 Call for Special Session Proposals

VCIP 2022 Call for Special Session Proposals

CCF多媒体专委会

1+阅读 · 2022年4月1日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

【推荐】MXNet深度情感分析实战

【推荐】MXNet深度情感分析实战

机器学习研究会

16+阅读 · 2017年10月4日

相关论文

Denoising Masked AutoEncoders Help Robust Classification

Arxiv

0+阅读 · 2023年3月7日

Masked Images Are Counterfactual Samples for Robust Fine-tuning

Arxiv

0+阅读 · 2023年3月6日

Effectiveness of Data Augmentation for Prefix Tuning with Limited Data

Arxiv

0+阅读 · 2023年3月5日

Enhancing Multivariate Time Series Classifiers through Self-Attention and Relative Positioning Infusion

Arxiv

0+阅读 · 2023年3月3日

Recent Advances in Natural Language Processing via Large Pre-Trained Language Models: A Survey

Arxiv

31+阅读 · 2021年11月1日

AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing

Arxiv

23+阅读 · 2021年8月12日

Data Augmentation using Pre-trained Transformer Models

Arxiv

17+阅读 · 2020年3月4日

TinyBERT: Distilling BERT for Natural Language Understanding

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Arxiv

14+阅读 · 2019年6月19日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

相关基金

基于植被指数斜率的地表覆盖变化检测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

同型半胱氨酸经组蛋白和DNA甲基化相互作用调控ERO1α促内质网应激的分子机制

国家自然科学基金

0+阅读 · 2014年12月31日

地表净辐射的多源遥感数据同化方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

Intraflagellar Transport运输纤毛蛋白的分子机理

国家自然科学基金

0+阅读 · 2012年12月31日

基于微裂纹演化的岩石蠕变损伤跨层次分析

国家自然科学基金

1+阅读 · 2012年12月31日

准晶材料非线性断裂理论研究

国家自然科学基金

0+阅读 · 2012年12月31日

新疆维汉两民族缺血性脑卒中伴颈动脉粥样硬化患者与前蛋白转化酶枯草溶菌素9基因多态性的研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于粗糙集与概念格相韵合的数据分析理论与方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

功能梯度板、壳和压电材料裂纹问题的Williams型解及数值模拟

国家自然科学基金

0+阅读 · 2011年12月31日

气溶胶对大气边界层温度红外遥感的影响校正研究

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员