1000层的Transformer，诞生了！

会员服务 ·

1000层的Transformer，诞生了！

2022 年 3 月 2 日 夕小瑶的卖萌屋

卖萌屋今日学术精选

大家好，我是卖萌酱。

今天下午卖萌屋作者群里一位MILA实验室的大佬在临睡前（蒙特利尔时间凌晨0点半）甩出来一篇论文：

大佬表示太困了，肝不动了，于是卖萌酱左手抄起一罐咖啡，右手接过论文就开始肝了，必须第一时间分享给卖萌屋的读者小伙伴们！

论文链接：
https://arxiv.org/pdf/2203.00555.pdf

首先，把Transformer模型训深最大的问题是什么？

耗显存？

训练慢？

都不是！最大的问题是压根就不收敛啊...

所以这篇论文最关键的贡献就是提出了一种新的Normalization方式——DeepNorm，有效解决了Transformer训练困难的问题。

其实早在2019年，就有研究者针对Transformer训练困难的问题，提出了Pre-LN来提升Transformer的训练稳定性，但是随后有人发现，Pre-LN会导致模型底层的梯度比顶层的还要大，这显然是不合理的，因此往往训练出的模型效果不如传统的Post-LN。

尽管后续也有一些补丁来试图解决这些问题，但这些既有的尝试都只能让Transformer的模型深度最多训练到几百层，始终无法突破千层的天花板。

本文提出的DeepNorm，则成功打破了这个天花板。

从以上DeepNorm伪代码实现中，可以看到这确实是simple but effective的方法，作者也给出了几个不同场景下的参数经验取值。

效果层面，作者在机器翻译benchmark上做了实验：

可以看到随着模型深度从10层到100层再到1000层，机器翻译BLEU指标持续上升。

而在与前人工作的比较上，200层的DeepNet（3.2B参数量）比Facebook M2M 48层的矮胖大模型（12B参数量）有足足5个点的BLEU值提升。

此外，作者表示将来会尝试将DeepNet往更多NLP任务上迁移（包括预训练语言模型），期待DeepNet能给NLP带来下一波春天！

上期回顾：
别再双塔了！谷歌提出DSI索引，检索效果吊打双塔，零样本超BM25！

后台回复关键词【入群】

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会】

获取ACL、CIKM等各大顶会论文集！

登录查看更多

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

Swin Transformer重磅升级！Swin V2：向更大容量、更高分辨率的更大模型迈进

专知会员服务

28+阅读 · 2021年11月20日

【Tutorial】计算机视觉中的Transformer，98页ppt

专知会员服务

153+阅读 · 2021年10月25日

Transformer替代CNN？8篇论文概述最新进展！

专知会员服务

77+阅读 · 2021年1月19日

【ICML 2020】设置LayerNorm使Transformer加速收敛

专知会员服务

16+阅读 · 2020年7月27日

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

千层Transformer问世！多语种机器翻译水准刷新多项SOTA

新智元

0+阅读 · 2022年3月4日

Transformer深至1000层还能稳定训练，微软实习生一作，LSTM之父转发

量子位

0+阅读 · 2022年3月3日

解决训练难题，1000层的Transformer来了，训练代码很快公开

机器之心

0+阅读 · 2022年3月3日

如何提升大规模Transformer的训练效果？Primer给出答案

夕小瑶的卖萌屋

0+阅读 · 2021年10月29日

搞懂 Vision Transformer 原理和代码，看这篇技术综述就够了（十七）

极市平台

1+阅读 · 2021年10月18日

基于贝叶斯-Copula理论的高维离散变量相依性研究

国家自然科学基金

0+阅读 · 2015年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

跨汉斯拉夫蒙古文的信息检索关键技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

跨语言信息检索中的机器翻译研究

国家自然科学基金

2+阅读 · 2011年12月31日

线性积分方程的Galerkin快速谱方法

国家自然科学基金

0+阅读 · 2009年12月31日

A Survey of Visual Transformers

Arxiv

39+阅读 · 2021年11月11日

A Survey of Transformers

Arxiv

103+阅读 · 2021年6月8日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Efficient Transformers: A Survey

Arxiv

23+阅读 · 2020年9月16日

Unsupervised Domain Clusters in Pretrained Language Models

Arxiv

11+阅读 · 2020年4月5日

VIP会员

1000层的Transformer，诞生了！

相关内容

知识荟萃

更多