The Bidirectional Encoder Representations from Transformers (BERT) model has been radically improving the performance of many Natural Language Processing (NLP) tasks such as Text Classification and Named Entity Recognition (NER) applications. However, it is challenging to scale BERT for low-latency and high-throughput industrial use cases due to its enormous size. We successfully optimize a Query-Title Relevance (QTR) classifier for deployment via a compact model, which we name BERT Bidirectional Long Short-Term Memory (BertBiLSTM). The model is capable of inferring an input in at most 0.2ms on CPU. BertBiLSTM exceeds the off-the-shelf BERT model's performance in terms of accuracy and efficiency for the aforementioned real-world production task. We achieve this result in two phases. First, we create a pre-trained model, called eBERT, which is the original BERT architecture trained with our unique item title corpus. We then fine-tune eBERT for the QTR task. Second, we train the BertBiLSTM model to mimic the eBERT model's performance through a process called Knowledge Distillation (KD) and show the effect of data augmentation to achieve the resembling goal. Experimental results show that the proposed model outperforms other compact and production-ready models.


翻译:变换器(变换器)的双向编码显示模型极大地改善了许多自然语言处理(NLP)任务(如文本分类和名称实体识别(NNER)应用软件等)的绩效。然而,由于该模型的大小巨大,在低纬度和高通量工业使用案例中,很难对低流和高通量工业使用案例进行BERT的升级。我们成功地优化了用于通过一个紧凑模型部署的Query-Title相关性(QTRT)分类,我们将它命名为BERT双向长期短期内存(BertBILSTM) 。该模型能够推断在最多0.2米的 CPU 和命名实体识别(NNER) 应用程序中的投入。 BertBLSTM 在上述真实世界生产任务中,在准确性和效率方面超过了现成的BERT模型的性能。我们分两个阶段就取得了这一结果。首先,我们创建了一种预先培训的模型,称为eBERT,这是我们用独有的项目名的模型培训的原始模型。我们随后对QTRBERT任务进行微调的eBERT。第二,我们训练BERT模型,我们用BERT模型,我们训练了BT的模型,我们训练了BSTM模型,我们要BILSTM模型的BSBStor化了BS 以通过演示BAVAF的模型的模型,然后通过SAVAVAD 显示SBAFAVAVAVAVAVAD结果显示一个模拟的模型,以显示电子化数据效果。

0
下载
关闭预览

相关内容

专知会员服务
88+阅读 · 2021年6月29日
深度学习界圣经“花书”《Deep Learning》中文版来了
专知会员服务
230+阅读 · 2019年10月26日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
3+阅读 · 2019年9月5日
VIP会员
相关资讯
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员