【导读】BERT的出现革新了众多自然语言处理任务中的模型架构范式,由此以BERT为代表预训练语言模型(PLM)在多项任务中刷新了榜单,引起了学术界和工业界的大量关注。斯坦福大学经典自然语言处理课程2020年CS224N邀请了BERT一作、Google 研究员Jacob Devlin做了关于上下文词表示BERT以及预训练语言模型的课程讲座,亲授大厂实战经验,值得关注!
预训练好的词嵌入是NLP深度学习成功的关键,因为它们允许模型利用web上几乎无限数量的未注释文本。在过去的几年里,条件语言模型被用来生成预训练上下文表示,这比简单的嵌入更加丰富和强大。本文介绍BERT(来自Transformers的双向编码器表示),它可以生成深度双向的预训练语言表示。BERT在Stanford Question Answering Dataset, MultiNLI, Stanford Sentiment Treebank和许多其他任务上获得了最先进的结果。
预先训练的双向语言模型非常有效
然而,这些模型非常昂贵
遗憾的是,改进似乎主要来自更昂贵的模型和更多的数据
推理/服务问题大多通过蒸馏“解决”
Jacob Devlin是谷歌的研究员。在谷歌,他的主要研究兴趣是开发用于信息检索、问题回答和其他语言理解任务的快速、强大和可扩展的深度学习模型。2014年至2017年,他在微软研究院担任首席研究员,领导微软翻译从基于短语的翻译过渡到神经机器翻译(NMT)。Devlin先生是ACL 2014年最佳长论文奖和NAACL 2012年最佳短论文奖的获得者。2009年,他在马里兰大学(University of Maryland)获得了计算机科学硕士学位,导师是邦尼·多尔(Bonnie Dorr)博士。
https://web.stanford.edu/class/cs224n/index.html#schedule
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“B43” 就可以获取《Google BERT作者Jacob斯坦福亲授《上下文词向量与预训练语言模型: BERT到T5》43页ppt》专知下载链接