【前沿】预训练语言模型的研究与应用,华为诺亚方舟实验室语音语义首席科学家刘群,附报告下载

2019 年 11 月 3 日 专知

导读

由北京智源人工智能研究院主办的2019北京智源大会(BAAI2019)在国家会议中心开幕,会期两天(2019年10月31日–11月1日)。 华为诺亚方舟实验室语音语义首席科学家刘群发表《预训练语言模型的研究与应用》主题演讲,分享华为诺亚方舟实验室在预训练语言模型的研究和应用实践。

 

刘群表示,预训练语言模型本身就是神经网络语言模型,它有个很大的优点是使用大规模无标注纯文本语料进行训练。在预训练语言模型的应用上,华为推出了中文预训练语言模型“哪吒”;将实体知识融入BERT并开发了“ERNIE”;基于GPT模型的中国古诗词生成方法,推出“乐府”作诗机,在场同学立即玩起“乐府”来。

 

谈及未来,刘群表示他们将会研究更好、更强大的预训练语言模型,融入更多的知识,跟语音和图像结合后,希望能应用到更多领域。另外在模型压缩和优化方面的研究期待能在终端落地。目前他们和华为海思合作,把预训练语言模型在华为自己的芯片上实现。

https://slides.baai.ac.cn/2019/


刘群,男,华为诺亚方舟实验室,语音语义首席科学家,主导语音和自然语言处理领域的前沿研究和技术创新。1989 年毕业于中国科学技术大学计算机系,1992 年于中国科学院计算技术研究所获得硕士学位。刘群博士是自然语言处理和机器翻译领域的国际著名专家,他的研究方向包括多语言信息处理、机器翻译模型、方法与评价等。



预训练语言模型本身就是神经网络语言模型 它的特点 包括: 第一 可以使用大规模无标注纯文本语料进行训练 第二 以用于各类下游NLP任务 不是针对某项定制的 但以后可用在下游NIP任务上 你不需要为下游任务专门设计一种神经网络 或者提供一种结构 直接在几种给定的固定框架中选择一种进行 fine-tune 就可以从而得到很好的结果 这是预训练模型特别厉害的一点


预训练语言模型有两个大类型 一类是Encoder 用于自然语言理解 输入整个文章 用于自然语言理解 另一类是Decoder 是解码式的 用于自然语言生成 只能来看到已经生成的内容 看不到没有生成的内容 这两类模型有所区别。



从上面的图中我们可以看出 近两年预训练模型的发展非常快 从很早的Word2Vec 之后ULMFiT CoVe Elmo OpenAI GPT随之出现 最后影响最大的是Bert BERT之后有OpenAI Gpt-2 后面我又补充了 GPT-2 8B MegatronLM RoBERTa Ernie-Tsinghua Ernie-Baidu XLNet UNILM MASS MT-DNN XLM 最近有几个模型非常有意思 比如 Ernie Roberta 然后是Megatronlm 做到了GPT-2 8EB。


这是模型的参数大小 跟早期的 ResNet相比 视觉模型 我们看到GPT1 是 100M BERT large是340M GPT2是 1.5BN GPT-2 8B是 8.3BN 再到计算量GPU的使用数量 可以看出大家都在拼数据 拼算力。


华为诺亚方舟实验室在预训练语言模型研究方面,内部重现了 Google Bert-base和Bert-large的实验;利用BERT的代码,实现了OpenAI GPT-2模型;实现基于GPU多卡多机并行训练,并且对训练过程进行了优化,提高了训练效率。

其次,对模型细节进行了多方面的改进。 这是尝试很多方法后得到的结果,我们拿出有效的部分。此外,我们还尝试了很多模型压缩优化方案。我们希望这些成果能真正部署在我们的产品上,特别是手机上。虽然华为做手机已经很好了,但是这种GPT模型太大了,想直接用在手机上还是做不到,我们尝试很多压缩的方法,现在还没有完全能够压缩到手机上,但是已经能够压缩比较小了。
 

在模型应用方面做了很多有意思的事情,预训练语言模型特别好,有很多应用。


哪吒,诺亚方舟实验室的中文预训练语言模型在哪吒模型中,我们有两个模型改进的工作,一是函数式相对位置编码,二是实现全词覆盖。


Ernie:实体表示增强的预训练语言模型,为语言理解注入外部知识



报告便捷下载:

请关注专知公众号(点击上方蓝色关注

  • 后台回复“PTM” 就可以获取《预训练语言模型的研究与应用》下载链接


参考资料:

刘群:华为诺亚方舟NLP预训练模型工作的研究与应用 | AI ProCon 2019


-END-
专 · 知


专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取更多AI知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询
请加专知小助手微信(扫一扫如下二维码添加), 获取专知VIP会员码 ,加入专知人工智能主题群,咨询技术商务合作~
点击“阅读原文”,了解注册成为 专知VIP会员 
登录查看更多
8

相关内容

刘群,华为诺亚方舟实验室语音语义首席科学家,负责语音和自然语言处理研究,研究方向主要是自然语言理解、语言模型、机器翻译、问答、对话等。他的研究成果包括汉语词语切分和词性标注系统、基于句法的统计机器翻译方法、篇章机器翻译、机器翻译评价方法等。刘群承担或参与过多项中国、爱尔兰和欧盟大型科研项目,在国际会议和期刊发表论文 300 余篇,被引用 10000 多次,培养国内外博士硕士毕业生 50 多人,获得过 Google Research Award、ACL Best Long Paper、钱伟长中文信息处理科学技术奖一等奖、国家科技进步二等奖等奖项。他曾任爱尔兰都柏林城市大学教授、爱尔兰 ADAPT 中心自然语言处理主题负责人、中国科学院计算技术研究所研究员、自然语言处理研究组负责人,分别在中国科学技术大学、中科院计算所、北京大学获得计算机学士、硕士和博士学位。
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
212+阅读 · 2020年4月26日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
3分钟看懂史上最强NLP模型BERT
新智元
23+阅读 · 2019年2月27日
基于深度学习的文本生成【附217页PPT下载】
专知
35+阅读 · 2018年11月24日
自然语言处理(NLP)前沿进展报告
人工智能学家
20+阅读 · 2018年9月30日
自然语言处理(NLP)前沿进展报告(PPT下载)
Arxiv
6+阅读 · 2019年7月11日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Conditional BERT Contextual Augmentation
Arxiv
8+阅读 · 2018年12月17日
Arxiv
11+阅读 · 2018年4月8日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
相关VIP内容
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
212+阅读 · 2020年4月26日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
相关论文
Arxiv
6+阅读 · 2019年7月11日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Conditional BERT Contextual Augmentation
Arxiv
8+阅读 · 2018年12月17日
Arxiv
11+阅读 · 2018年4月8日
Arxiv
5+阅读 · 2018年1月18日
Top
微信扫码咨询专知VIP会员