【干货教程】从零开始学习Transformer,手把手写代码带你搞会,11页pdf细致笔记

2022 年 4 月 27 日 专知

本文包含transformer模型的一些细节,当我第一次尝试从头实现它时,我发现这些细节有点令人困惑。本文并不是对transformer 模型的完整解释,因为在网上已经可以找到大量有用的材料。下面是一些为各种任务实现transformer 模型的示例。


https://github.com/hbchen-one/Transformer-Models-from-Scratch


  • 用于文本分类的仅编码器transformer 模型:



Encoder_only_transformer_AG_News_classification。ipynb开放在协作
本笔记本训练了一个简单的只有编码器的transformer 模型,用于在AG News数据集上进行文本分类。该方法很容易达到91.9%左右的精度。


  • 经过训练的只有解码器transformer 模型(GPT-like)进行n位数加法



GPT_Addition。ipynb开放在协作
同一个模型(只有约28万个参数)分别进行2位、5位、10位和18位的加法训练,2位加法全部正确,只有很小一部分高位数加法错误(18位的测试准确率约为96.6%)。
模型给出的错误答案大多相差一两个数字。

  • 全transformer模型(编码器+解码器)机器翻译



Transformer_Multi30k_German_to_English。ipynb开放在协作
该笔记本在Multi30k数据集上训练了一个大约2600万个参数的transformer模型,在测试集上获得了BLEU 35.5分。这个BLUE分数似乎很高,我认为原因之一是这个数据集中的句子相对简单。
Transformer_Chinese_To_English_Translation_news-commentary-v16。ipynb开放在协作
这个笔记本电脑在新闻评论v16数据集上训练了一个大约9000万个参数的transformer 。这个笔记本的主要目的是研究模型的性能(测试损失和BLEU分数)如何随着训练集大小的增加而变化。结果显示在本笔记本的最后的情节。


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“T11” 就可以获取【干货教程】从零开始学习Transformer,手把手写代码带你搞会,11页pdf细致笔记》专知下载链接

专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取70000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取70000+AI主题知识资料
登录查看更多
6

相关内容

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
自编码器导论,26页pdf
专知会员服务
41+阅读 · 2022年1月18日
【Manning新书】自然语言处理实战:深度学习应用,337页pdf,
最新《深度学习理论》笔记,68页pdf
专知会员服务
49+阅读 · 2021年2月14日
专知会员服务
118+阅读 · 2020年7月22日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【课程】伯克利2019全栈深度学习课程(附下载)
专知会员服务
56+阅读 · 2019年10月29日
《机器学习》简明导论,21页pdf
专知
5+阅读 · 2022年3月3日
自编码器导论,26页pdf
专知
4+阅读 · 2022年1月18日
【下载】TensorFlow机器学习教程手把手书谱
专知
38+阅读 · 2017年12月22日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
17+阅读 · 2022年2月23日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
28+阅读 · 2021年10月1日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
15+阅读 · 2020年2月5日
UNITER: Learning UNiversal Image-TExt Representations
Arxiv
23+阅读 · 2019年9月25日
Arxiv
15+阅读 · 2019年9月11日
Arxiv
22+阅读 · 2018年8月30日
VIP会员
相关VIP内容
自编码器导论,26页pdf
专知会员服务
41+阅读 · 2022年1月18日
【Manning新书】自然语言处理实战:深度学习应用,337页pdf,
最新《深度学习理论》笔记,68页pdf
专知会员服务
49+阅读 · 2021年2月14日
专知会员服务
118+阅读 · 2020年7月22日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【课程】伯克利2019全栈深度学习课程(附下载)
专知会员服务
56+阅读 · 2019年10月29日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
相关论文
Arxiv
17+阅读 · 2022年2月23日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
28+阅读 · 2021年10月1日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
15+阅读 · 2020年2月5日
UNITER: Learning UNiversal Image-TExt Representations
Arxiv
23+阅读 · 2019年9月25日
Arxiv
15+阅读 · 2019年9月11日
Arxiv
22+阅读 · 2018年8月30日
Top
微信扫码咨询专知VIP会员