【导读】BERT的出现革新了众多自然语言处理任务中的模型架构范式,由此以BERT、为代表预训练语言模型(PLM)在多项任务中刷新了榜单,引起了学术界和工业界的大量关注。斯坦福大学经典自然语言处理课程CS224N邀请了BERT一作、Google 研究员Jacob Devlin做了关于上下文词表示BERT以及预训练语言模型的课程讲座,亲授大厂实战经验,值得关注!
预训练好的词嵌入是NLP深度学习成功的关键,因为它们允许模型利用web上几乎无限数量的未注释文本。在过去的几年里,条件语言模型被用来生成预训练上下文表示,这比简单的嵌入更加丰富和强大。本文介绍BERT(来自Transformers的双向编码器表示),它可以生成深度双向的预训练语言表示。BERT在Stanford Question Answering Dataset, MultiNLI, Stanford Sentiment Treebank和许多其他任务上获得了最先进的结果。
Jacob Devlin是谷歌的研究员。在谷歌,他的主要研究兴趣是开发用于信息检索、问题回答和其他语言理解任务的快速、强大和可扩展的深度学习模型。2014年至2017年,他在微软研究院担任首席研究员,领导微软翻译从基于短语的翻译过渡到神经机器翻译(NMT)。Devlin先生是ACL 2014年最佳长论文奖和NAACL 2012年最佳短论文奖的获得者。2009年,他在马里兰大学(University of Maryland)获得了计算机科学硕士学位,导师是邦尼·多尔(Bonnie Dorr)博士。