5·4青年节专场直播 | 微软MiniLM:任务无关的预训练语言模型压缩

2020 年 4 月 30 日 DataFunTalk



DataFunLive 25——青年节专场:

5月4日 (周一) 晚19点DataFunTalk 联合 CLUE 中文任务基准测评将为您带来微软亚洲研究院研究员王文辉分享的:“MiniLM:任务无关的预训练语言模型压缩”。


01

直播信息

主题: 5·4青年节专场直播
主办:DataFunTalk、CLUE 中文任务基准测评
嘉宾: 微软亚洲研究院 研究员  王文辉
时间: 5月4日 (周一) 19:00
地点:网络直播间

02

内容摘要

大规模预训练语言模型在自然语言处理各个任务上都取得了优异的性能。 但是其数以 亿计的参数使得这些大模型在任务微调和推理解码时速度慢,计算成本也很大,因而将大模型直接部署到线上的产品是很大的挑战。 如何利用模型压缩技术,将大模型压缩成更快更好的小模型是一个重要的研究方向。

本次分享将主要介绍我们任务无关的预训练模型压缩工作:“MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers”。本文提出了一种将基于Transformer的预训练大模型压缩成预训练小模型(更少的层数和更小的隐层维度)的通用方法:深度自注意力知识蒸馏(Deep Self-Attention Distillation)。核心思想是最大程度上将预训练Transformer模型中非常重要的自注意力(Self-Attention)知识迁移给小模型。我们的模型(称为MiniLM)在英文自然语言理解和生成任务上都取得了很好的结果。多语言MiniLM在跨语言理解任务上也取了很好的效果。

目前预训练模型和微调代码都已开源:

https://github.com/microsoft/unilm/tree/master/minilm

NLPCC:NLPCC2020 轻量化语言模型比赛是由中文基准测评组织CLUE和NLPCC一起举办的面相中文的比赛,奖金总计两万元人名币,并包括NLPCC和CCF中国信息技术技术委员会认证的证书。guideline:

http://tcci.ccf.org.cn/conference/2020/dldoc/taskgline01.pdf

CLUE 中文任务基准测评:

https://www.CLUEbenchmark.com/

本次分享会对比赛做出一定的介绍和作者本人的建议。

听众收益:
  • 任务无关的预训练语言模型压缩方法介绍

  • NLPCC-轻量级语言模型大赛建议

新技术/实用技术点:

  • 深度自注意力知识蒸馏 ( Deep Self-Attention Distillation )

03

嘉宾介绍

王文辉 |  微软亚洲研究院研究员

王文辉,微软亚洲研究院自然语言计算组研究员,毕业于北京大学。主要研究方向为预训练语言模型及机器阅读理解/问答。多篇论文发表于 ACL/EMNLP/NeurIPS 等顶级会议上。

04
收看方式
识别海报中二维码,回复“ 青年节 ”,即可邀您入群收看。

——END——
文章推荐:
PTMs:NLP预训练模型的全面总结
Tiny-NEZHA:预训练语言模型与蒸馏压缩技术

关于 CLUE:

CLUE benchmark是由国内外的中文自然语言处理爱好者自发成立的开源组织,为更好的服务中文语言理解、任务和产业界,做为通用语言模型测评的补充,通过完善中文语言理解基础设施的方式来促进中文语言模型的发展。

成立至今,CLUE已经在arxiv上发表三篇技术报告,包括ner,pretrained model以及CLUE,在github上的项目star数已经破千。

CLUE的模型排行榜目前已经吸引了阿里、腾讯、华为、google、Stanford、人大等大厂名校的同学的参与,第一名暂时为华为的NEZHA,欢迎各路大神前来踢馆。

CLUE成员包括来自google、百度、阿里、腾讯等在内的大厂成员,也有来自Stanford,CMU,爱丁堡,北大,人大等国内外知名院校的同学,也欢迎大家加入我们,一起为中文NLP做出贡献。

联系邮箱: 

CLUEbenchmark@163.com

CLUE 网址:

https://www.CLUEbenchmark.com/

关于 DataFunTalk:

DataFunTalk 专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100场线下沙龙、论坛及峰会,已邀请近500位专家和学者参与分享。其公众号DataFunTalk累计生产原创文章400+百万+阅读,5万+精准粉丝。

一个在看,一段时光👇

登录查看更多
1

相关内容

模型压缩,多指AI领域,多学习生成的模型进行压缩,简化,同时又要保证一定的可靠性,便于模型在低端设备上部署。
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
23+阅读 · 2019年11月4日
基于知识蒸馏的BERT模型压缩
大数据文摘
18+阅读 · 2019年10月14日
一大批中文(BERT等)预训练模型等你认领!
PaperWeekly
14+阅读 · 2019年6月25日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
5+阅读 · 2019年4月21日
Arxiv
13+阅读 · 2017年12月5日
VIP会员
相关VIP内容
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
23+阅读 · 2019年11月4日
Top
微信扫码咨询专知VIP会员