DataFunLive 25——青年节专场:
5月4日 (周一) 晚19点,DataFunTalk 联合 CLUE 中文任务基准测评将为您带来微软亚洲研究院研究员王文辉分享的:“MiniLM:任务无关的预训练语言模型压缩”。
01
直播信息
02
内容摘要
本次分享将主要介绍我们任务无关的预训练模型压缩工作:“MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers”。本文提出了一种将基于Transformer的预训练大模型压缩成预训练小模型(更少的层数和更小的隐层维度)的通用方法:深度自注意力知识蒸馏(Deep Self-Attention Distillation)。核心思想是最大程度上将预训练Transformer模型中非常重要的自注意力(Self-Attention)知识迁移给小模型。我们的模型(称为MiniLM)在英文自然语言理解和生成任务上都取得了很好的结果。多语言MiniLM在跨语言理解任务上也取了很好的效果。
目前预训练模型和微调代码都已开源:
https://github.com/microsoft/unilm/tree/master/minilm
NLPCC:NLPCC2020 轻量化语言模型比赛是由中文基准测评组织CLUE和NLPCC一起举办的面相中文的比赛,奖金总计两万元人名币,并包括NLPCC和CCF中国信息技术技术委员会认证的证书。guideline:
http://tcci.ccf.org.cn/conference/2020/dldoc/taskgline01.pdf
CLUE 中文任务基准测评:
https://www.CLUEbenchmark.com/
本次分享会对比赛做出一定的介绍和作者本人的建议。
任务无关的预训练语言模型压缩方法介绍
NLPCC-轻量级语言模型大赛建议
新技术/实用技术点:
深度自注意力知识蒸馏 ( Deep Self-Attention Distillation )
03
嘉宾介绍
王文辉,微软亚洲研究院自然语言计算组研究员,毕业于北京大学。主要研究方向为预训练语言模型及机器阅读理解/问答。多篇论文发表于 ACL/EMNLP/NeurIPS 等顶级会议上。
关于 CLUE:
CLUE benchmark是由国内外的中文自然语言处理爱好者自发成立的开源组织,为更好的服务中文语言理解、任务和产业界,做为通用语言模型测评的补充,通过完善中文语言理解基础设施的方式来促进中文语言模型的发展。
成立至今,CLUE已经在arxiv上发表三篇技术报告,包括ner,pretrained model以及CLUE,在github上的项目star数已经破千。
CLUE的模型排行榜目前已经吸引了阿里、腾讯、华为、google、Stanford、人大等大厂名校的同学的参与,第一名暂时为华为的NEZHA,欢迎各路大神前来踢馆。
CLUE成员包括来自google、百度、阿里、腾讯等在内的大厂成员,也有来自Stanford,CMU,爱丁堡,北大,人大等国内外知名院校的同学,也欢迎大家加入我们,一起为中文NLP做出贡献。
联系邮箱:
CLUEbenchmark@163.com
CLUE 网址:
https://www.CLUEbenchmark.com/
关于 DataFunTalk:
一个在看,一段时光!👇