本文包含transformer模型的一些细节,当我第一次尝试从头实现它时,我发现这些细节有点令人困惑。本文并不是对transformer 模型的完整解释,因为在网上已经可以找到大量有用的材料。下面是一些为各种任务实现transformer 模型的示例。

https://github.com/hbchen-one/Transformer-Models-from-Scratch

  • 用于文本分类的仅编码器transformer模型

Encoder_only_transformer_AG_News_classification。ipynb开放在协作本笔记本训练了一个简单的只有编码器的transformer 模型,用于在AG News数据集上进行文本分类。该方法很容易达到91.9%左右的精度。

  • 经过训练的只有解码器transformer 模型(GPT-like)进行n位数加法

GPT_Addition。ipynb开放在协作同一个模型(只有约28万个参数)分别进行2位、5位、10位和18位的加法训练,2位加法全部正确,只有很小一部分高位数加法错误(18位的测试准确率约为96.6%)。模型给出的错误答案大多相差一两个数字。

  • 全transformer模型(编码器+解码器)机器翻译

Transformer_Multi30k_German_to_English。ipynb开放在协作该笔记本在Multi30k数据集上训练了一个大约2600万个参数的transformer模型,在测试集上获得了BLEU 35.5分。这个BLUE分数似乎很高,我认为原因之一是这个数据集中的句子相对简单。Transformer_Chinese_To_English_Translation_news-commentary-v16。ipynb开放在协作这个笔记本电脑在新闻评论v16数据集上训练了一个大约9000万个参数的transformer 。这个笔记本的主要目的是研究模型的性能(测试损失和BLEU分数)如何随着训练集大小的增加而变化。结果显示在本笔记本的最后的情节。

成为VIP会员查看完整内容
92
0

相关内容

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
20+阅读 · 2021年6月2日
【干货书】Python参考手册,210页pdf
专知会员服务
49+阅读 · 2021年4月30日
【干货书】Python人工智能傻瓜式入门,242页pdf
专知会员服务
63+阅读 · 2021年3月23日
最新《深度学习理论》笔记,68页pdf
专知会员服务
41+阅读 · 2021年2月14日
最新《Transformers模型》教程,64页ppt
专知会员服务
138+阅读 · 2020年11月26日
干货|书籍《百页机器学习》推荐(附最新135页PDF下载)
专知会员服务
41+阅读 · 2020年9月22日
专知会员服务
107+阅读 · 2020年7月22日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
31+阅读 · 2020年3月21日
【干货】用BRET进行多标签文本分类(附代码)
专知会员服务
72+阅读 · 2019年12月27日
vae学习笔记
CreateAMind
22+阅读 · 2019年6月18日
百闻不如一码!手把手教你用Python搭一个Transformer
大数据文摘
15+阅读 · 2019年4月22日
快速上手笔记,PyTorch模型训练实用教程(附代码)
深度学习文本分类方法综述(代码)
中国人工智能学会
27+阅读 · 2018年6月16日
基础 | 一文轻松搞懂-条件随机场CRF
黑龙江大学自然语言处理实验室
13+阅读 · 2018年3月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
10+阅读 · 3月16日
Arxiv
17+阅读 · 2月15日
Arxiv
10+阅读 · 1月24日
Arxiv
22+阅读 · 2021年11月11日
Arxiv
13+阅读 · 2021年9月21日
Arxiv
74+阅读 · 2021年6月8日
Arxiv
15+阅读 · 2021年4月8日
Arxiv
14+阅读 · 2020年12月23日
小贴士
相关VIP内容
专知会员服务
20+阅读 · 2021年6月2日
【干货书】Python参考手册,210页pdf
专知会员服务
49+阅读 · 2021年4月30日
【干货书】Python人工智能傻瓜式入门,242页pdf
专知会员服务
63+阅读 · 2021年3月23日
最新《深度学习理论》笔记,68页pdf
专知会员服务
41+阅读 · 2021年2月14日
最新《Transformers模型》教程,64页ppt
专知会员服务
138+阅读 · 2020年11月26日
干货|书籍《百页机器学习》推荐(附最新135页PDF下载)
专知会员服务
41+阅读 · 2020年9月22日
专知会员服务
107+阅读 · 2020年7月22日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
31+阅读 · 2020年3月21日
【干货】用BRET进行多标签文本分类(附代码)
专知会员服务
72+阅读 · 2019年12月27日
相关资讯
vae学习笔记
CreateAMind
22+阅读 · 2019年6月18日
百闻不如一码!手把手教你用Python搭一个Transformer
大数据文摘
15+阅读 · 2019年4月22日
快速上手笔记,PyTorch模型训练实用教程(附代码)
深度学习文本分类方法综述(代码)
中国人工智能学会
27+阅读 · 2018年6月16日
基础 | 一文轻松搞懂-条件随机场CRF
黑龙江大学自然语言处理实验室
13+阅读 · 2018年3月24日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
相关论文
Arxiv
10+阅读 · 3月16日
Arxiv
17+阅读 · 2月15日
Arxiv
10+阅读 · 1月24日
Arxiv
22+阅读 · 2021年11月11日
Arxiv
13+阅读 · 2021年9月21日
Arxiv
74+阅读 · 2021年6月8日
Arxiv
15+阅读 · 2021年4月8日
Arxiv
14+阅读 · 2020年12月23日
微信扫码咨询专知VIP会员