明天直播 | 忒修斯之BERT：通过渐进替换压缩模型

会员服务 ·

明天直播 | 忒修斯之BERT：通过渐进替换压缩模型

2020 年 11 月 3 日 微软研究院AI头条

明天（11月4日）20:00-20:30，加州大学圣迭戈分校博士生、微软亚洲研究院自然语言计算组实习生许灿文将在 B 站分享 EMNLP 2020 论文 “忒修斯之 BERT：通过渐进替换压缩模型”。

登录查看更多

相关内容

BERT

关注 101

BERT全称Bidirectional Encoder Representations from Transformers，是预训练语言表示的方法，可以在大型文本语料库（如维基百科）上训练通用的“语言理解”模型，然后将该模型用于下游NLP任务，比如机器翻译、问答。

【AAAI2021】LRC-BERT：对比学习潜在语义知识蒸馏的自然语言理解

专知会员服务

27+阅读 · 2020年12月31日

【AAAI2021】归纳关系推理的传递信息传递

专知会员服务

47+阅读 · 2020年12月20日

最新《Transformers模型》教程，64页ppt

专知会员服务

324+阅读 · 2020年11月26日

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

专知会员服务

18+阅读 · 2020年10月18日

【NeurIPS 2020】用人眼注视引导的神经注意力提升自然语言处理任务

专知会员服务

16+阅读 · 2020年10月17日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知会员服务

41+阅读 · 2020年8月31日

模型优化基础，Sayak Paul，67页ppt

专知会员服务

76+阅读 · 2020年6月8日

【ACL2020-CMU-Google】MobileBERT:用于资源受限设备的任务无关“瘦版”BERT

专知会员服务

13+阅读 · 2020年4月9日

Google BERT作者Jacob斯坦福亲授《上下文词向量与预训练语言模型: BERT到T5》43页ppt

专知会员服务

91+阅读 · 2020年4月6日

[华盛顿大学】微调预训练的语言模型:权重初始化、数据顺序和早期停止

专知会员服务

23+阅读 · 2019年12月15日

基于知识蒸馏的BERT模型压缩

大数据文摘

18+阅读 · 2019年10月14日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

机器之心

15+阅读 · 2019年7月13日

进一步改进GPT和BERT：使用Transformer的语言模型

机器之心

16+阅读 · 2019年5月1日

CVPR 2019 | 图像压缩重建也能抵御对抗样本

计算机视觉life

3+阅读 · 2019年4月26日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

GLUE排行榜上全面超越BERT的模型近日公布了！

机器之心

9+阅读 · 2019年2月13日

直播 | 训练深度脉冲神经网络

AI科技评论

6+阅读 · 2019年1月24日

谷歌BERT模型深度解析

AINLP

42+阅读 · 2018年11月15日

博客 | 谷歌最强 NLP 模型 BERT 解读

AI研习社

4+阅读 · 2018年10月28日

DynaBERT: Dynamic BERT with Adaptive Width and Depth

Arxiv

8+阅读 · 2020年10月9日

SBAT: Video Captioning with Sparse Boundary-Aware Transformer

Arxiv

4+阅读 · 2020年7月23日

Data Augmentation using Pre-trained Transformer Models

Arxiv

17+阅读 · 2020年3月4日

Heterogeneous Graph Transformer

Arxiv

27+阅读 · 2020年3月3日

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

K-BERT: Enabling Language Representation with Knowledge Graph

Arxiv

19+阅读 · 2019年9月17日

Q-BERT: Hessian Based Ultra Low Precision Quantization of BERT

Arxiv

3+阅读 · 2019年9月12日

How Does BERT Answer Questions? A Layer-Wise Analysis of Transformer Representations

Arxiv

4+阅读 · 2019年9月11日

Star-Transformer

Arxiv

5+阅读 · 2019年2月28日

Conditional BERT Contextual Augmentation

Arxiv

8+阅读 · 2018年12月17日

VIP会员

相关VIP内容

【AAAI2021】LRC-BERT：对比学习潜在语义知识蒸馏的自然语言理解

专知会员服务

27+阅读 · 2020年12月31日

【AAAI2021】归纳关系推理的传递信息传递

专知会员服务

47+阅读 · 2020年12月20日

最新《Transformers模型》教程，64页ppt

专知会员服务

324+阅读 · 2020年11月26日

【NeurIPS 2020】核基渐进蒸馏加法器神经网络

专知会员服务

18+阅读 · 2020年10月18日

【NeurIPS 2020】用人眼注视引导的神经注意力提升自然语言处理任务

专知会员服务

16+阅读 · 2020年10月17日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知会员服务

41+阅读 · 2020年8月31日

模型优化基础，Sayak Paul，67页ppt

专知会员服务

76+阅读 · 2020年6月8日

【ACL2020-CMU-Google】MobileBERT:用于资源受限设备的任务无关“瘦版”BERT

专知会员服务

13+阅读 · 2020年4月9日

Google BERT作者Jacob斯坦福亲授《上下文词向量与预训练语言模型: BERT到T5》43页ppt

专知会员服务

91+阅读 · 2020年4月6日

[华盛顿大学】微调预训练的语言模型:权重初始化、数据顺序和早期停止

专知会员服务

23+阅读 · 2019年12月15日

热门VIP内容

开通专知VIP会员享更多权益服务

【ICCV2025教程】基础模型遇见具身智能体

军事机器学习设计：关于开发自动化任务摘要系统的梯次化设计科学研究 | 2025最新93页

扩散模型中的缓存方法综述：迈向高效的多模态生成

【ICCV2025教程】《迈向视觉语言模型的全面推理》