本文包含transformer模型的一些细节,当我第一次尝试从头实现它时,我发现这些细节有点令人困惑。本文并不是对transformer 模型的完整解释,因为在网上已经可以找到大量有用的材料。下面是一些为各种任务实现transformer 模型的示例。

https://github.com/hbchen-one/Transformer-Models-from-Scratch

  • 用于文本分类的仅编码器transformer模型

Encoder_only_transformer_AG_News_classification。ipynb开放在协作本笔记本训练了一个简单的只有编码器的transformer 模型,用于在AG News数据集上进行文本分类。该方法很容易达到91.9%左右的精度。

  • 经过训练的只有解码器transformer 模型(GPT-like)进行n位数加法

GPT_Addition。ipynb开放在协作同一个模型(只有约28万个参数)分别进行2位、5位、10位和18位的加法训练,2位加法全部正确,只有很小一部分高位数加法错误(18位的测试准确率约为96.6%)。模型给出的错误答案大多相差一两个数字。

  • 全transformer模型(编码器+解码器)机器翻译

Transformer_Multi30k_German_to_English。ipynb开放在协作该笔记本在Multi30k数据集上训练了一个大约2600万个参数的transformer模型,在测试集上获得了BLEU 35.5分。这个BLUE分数似乎很高,我认为原因之一是这个数据集中的句子相对简单。Transformer_Chinese_To_English_Translation_news-commentary-v16。ipynb开放在协作这个笔记本电脑在新闻评论v16数据集上训练了一个大约9000万个参数的transformer 。这个笔记本的主要目的是研究模型的性能(测试损失和BLEU分数)如何随着训练集大小的增加而变化。结果显示在本笔记本的最后的情节。

成为VIP会员查看完整内容
142

相关内容

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【COMPTEXT2022教程】跨语言监督文本分类,41页ppt
专知会员服务
17+阅读 · 2022年6月14日
【干货书】Python机器学习,361页pdf
专知会员服务
266+阅读 · 2021年2月25日
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
【2020新书】深度学习自然语言处理简明导论,69页pdf
专知会员服务
114+阅读 · 2020年11月7日
一份简明有趣的Python学习教程,42页pdf
专知会员服务
76+阅读 · 2020年6月22日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
从头开始了解Transformer
AI科技评论
25+阅读 · 2019年8月28日
百闻不如一码!手把手教你用Python搭一个Transformer
大数据文摘
18+阅读 · 2019年4月22日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
【干货】最新GAN教程,153PPT附代码
GAN生成式对抗网络
12+阅读 · 2018年9月18日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
Python NLP 入门教程
开源中国
14+阅读 · 2017年10月1日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
Arxiv
35+阅读 · 2022年3月14日
Arxiv
17+阅读 · 2022年2月23日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
15+阅读 · 2020年2月5日
VIP会员
相关VIP内容
【COMPTEXT2022教程】跨语言监督文本分类,41页ppt
专知会员服务
17+阅读 · 2022年6月14日
【干货书】Python机器学习,361页pdf
专知会员服务
266+阅读 · 2021年2月25日
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
【2020新书】深度学习自然语言处理简明导论,69页pdf
专知会员服务
114+阅读 · 2020年11月7日
一份简明有趣的Python学习教程,42页pdf
专知会员服务
76+阅读 · 2020年6月22日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
相关资讯
从头开始了解Transformer
AI科技评论
25+阅读 · 2019年8月28日
百闻不如一码!手把手教你用Python搭一个Transformer
大数据文摘
18+阅读 · 2019年4月22日
中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
【干货】最新GAN教程,153PPT附代码
GAN生成式对抗网络
12+阅读 · 2018年9月18日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
Python NLP 入门教程
开源中国
14+阅读 · 2017年10月1日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
相关论文
Arxiv
35+阅读 · 2022年3月14日
Arxiv
17+阅读 · 2022年2月23日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
15+阅读 · 2020年2月5日
微信扫码咨询专知VIP会员