【干货教程】从零开始学习Transformer，手把手写代码带你搞会，11页pdf细致笔记

2022 年 4 月 27 日 专知

本文包含transformer模型的一些细节，当我第一次尝试从头实现它时，我发现这些细节有点令人困惑。本文并不是对transformer 模型的完整解释，因为在网上已经可以找到大量有用的材料。下面是一些为各种任务实现transformer 模型的示例。

https://github.com/hbchen-one/Transformer-Models-from-Scratch

用于文本分类的仅编码器transformer 模型:

Encoder_only_transformer_AG_News_classification。ipynb开放在协作

本笔记本训练了一个简单的只有编码器的transformer 模型，用于在AG News数据集上进行文本分类。该方法很容易达到91.9%左右的精度。

经过训练的只有解码器transformer 模型(GPT-like)进行n位数加法

GPT_Addition。ipynb开放在协作

同一个模型(只有约28万个参数)分别进行2位、5位、10位和18位的加法训练，2位加法全部正确，只有很小一部分高位数加法错误(18位的测试准确率约为96.6%)。

模型给出的错误答案大多相差一两个数字。

全transformer模型(编码器+解码器)机器翻译

Transformer_Multi30k_German_to_English。ipynb开放在协作

该笔记本在Multi30k数据集上训练了一个大约2600万个参数的transformer模型，在测试集上获得了BLEU 35.5分。这个BLUE分数似乎很高，我认为原因之一是这个数据集中的句子相对简单。

Transformer_Chinese_To_English_Translation_news-commentary-v16。ipynb开放在协作

这个笔记本电脑在新闻评论v16数据集上训练了一个大约9000万个参数的transformer 。这个笔记本的主要目的是研究模型的性能(测试损失和BLEU分数)如何随着训练集大小的增加而变化。结果显示在本笔记本的最后的情节。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“T11” 就可以获取《【干货教程】从零开始学习Transformer，手把手写代码带你搞会，11页pdf细致笔记》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取70000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取70000+AI主题知识资料

登录查看更多

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

自编码器导论，26页pdf

专知会员服务

42+阅读 · 2022年1月18日

用Python学ML难？这本389页《Python统计学与机器学习实战》书手把手写代码教你实操

专知会员服务

52+阅读 · 2022年1月15日

【Manning新书】自然语言处理实战:深度学习应用，337页pdf，

专知会员服务

204+阅读 · 2021年11月20日

最新《深度学习理论》笔记，68页pdf

专知会员服务

50+阅读 · 2021年2月14日

一份实用《图神经网络GNN》笔记，45页pdf

专知会员服务

119+阅读 · 2020年7月22日

【实用书】Python文本分析第二版，688页pdf带你入门自然语言处理

专知会员服务

162+阅读 · 2020年5月15日

【干货书】深度学习计算机视觉，332页pdf，手把手教你Python学习CV

专知会员服务

201+阅读 · 2020年3月31日

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

花书《深度学习》笔记，深度学习规则，帮你抓住精髓！(附下载)

专知会员服务

62+阅读 · 2019年12月25日

【课程】伯克利2019全栈深度学习课程（附下载）

专知会员服务

57+阅读 · 2019年10月29日

《机器学习》简明导论，21页pdf

专知

5+阅读 · 2022年3月3日

自编码器导论，26页pdf

专知

4+阅读 · 2022年1月18日

用Python学ML难？这本389页《Python统计学与机器学习实战》书手把手写代码教你实操

专知

1+阅读 · 2022年1月15日

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知

16+阅读 · 2020年5月29日

【实用书】Python文本分析第二版，688页pdf带你入门自然语言处理

专知

25+阅读 · 2020年5月15日

【初学者系列】TensorFlow学习笔记 — 构建简单卷积网络进行图像分类

专知

10+阅读 · 2019年9月13日

【KDD2019】TensorFlow 2.0+NLP 最新实操教程，Google AI 130页PPT+代码

专知

16+阅读 · 2019年8月20日

【干货】伯克利2019全栈深度学习课程（附下载）

专知

26+阅读 · 2019年4月28日

921页《用Python3带你从小白入门机器学习实战》教程手册

专知

54+阅读 · 2018年12月28日

【下载】TensorFlow机器学习教程手把手书谱

专知

38+阅读 · 2017年12月22日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

面向功能挖掘的代码主题建模技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

基于包间距离、直接以包为学习对象的多示例学习维数约减问题研究

国家自然科学基金

0+阅读 · 2013年12月31日

高维数据的图模型学习与统计推断

国家自然科学基金

8+阅读 · 2012年12月31日

纳米量级非均匀尺度对非晶合金塑性和弛豫的影响

国家自然科学基金

0+阅读 · 2012年12月31日

基于机器学习的中医证素辨识算法模型集合研究

国家自然科学基金

1+阅读 · 2012年12月31日

冰晶石-氧化铝熔盐体系微结构的高温原位拉曼光谱研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于字依存的中文精细结构标注及其学习算法研究

国家自然科学基金

0+阅读 · 2009年12月31日

视觉识别中类别信息早期加工的认知神经机制

国家自然科学基金

0+阅读 · 2009年12月31日

玻璃条形波导线性电光效应和电光调制器的研究

国家自然科学基金

0+阅读 · 2008年12月31日

A Survey on Vision Transformer

Arxiv

17+阅读 · 2022年2月23日

A Survey of Visual Transformers

Arxiv

39+阅读 · 2021年11月11日

A Survey of Knowledge Enhanced Pre-trained Models

Arxiv

28+阅读 · 2021年10月1日

Efficient Deep Learning: A Survey on Making Deep Learning Models Smaller, Faster, and Better

Arxiv

28+阅读 · 2021年6月16日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

Graph Transformer Networks

Arxiv

15+阅读 · 2020年2月5日

UNITER: Learning UNiversal Image-TExt Representations

Arxiv

23+阅读 · 2019年9月25日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

15+阅读 · 2019年9月11日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

VIP会员

【干货教程】从零开始学习Transformer，手把手写代码带你搞会，11页pdf细致笔记

相关内容

知识荟萃

更多