【干货教程】从零开始学习Transformer，手把手写代码带你搞会，11页pdf细致笔记 - 专知VIP

会员服务 ·

75

Transformer · 教程 ·

2022 年 4 月 27 日

【干货教程】从零开始学习Transformer，手把手写代码带你搞会，11页pdf细致笔记

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本文包含transformer模型的一些细节，当我第一次尝试从头实现它时，我发现这些细节有点令人困惑。本文并不是对transformer 模型的完整解释，因为在网上已经可以找到大量有用的材料。下面是一些为各种任务实现transformer 模型的示例。

https://github.com/hbchen-one/Transformer-Models-from-Scratch

用于文本分类的仅编码器transformer模型

Encoder_only_transformer_AG_News_classification。ipynb开放在协作本笔记本训练了一个简单的只有编码器的transformer 模型，用于在AG News数据集上进行文本分类。该方法很容易达到91.9%左右的精度。

经过训练的只有解码器transformer 模型(GPT-like)进行n位数加法

GPT_Addition。ipynb开放在协作同一个模型(只有约28万个参数)分别进行2位、5位、10位和18位的加法训练，2位加法全部正确，只有很小一部分高位数加法错误(18位的测试准确率约为96.6%)。模型给出的错误答案大多相差一两个数字。

全transformer模型(编码器+解码器)机器翻译

Transformer_Multi30k_German_to_English。ipynb开放在协作该笔记本在Multi30k数据集上训练了一个大约2600万个参数的transformer模型，在测试集上获得了BLEU 35.5分。这个BLUE分数似乎很高，我认为原因之一是这个数据集中的句子相对简单。Transformer_Chinese_To_English_Translation_news-commentary-v16。ipynb开放在协作这个笔记本电脑在新闻评论v16数据集上训练了一个大约9000万个参数的transformer 。这个笔记本的主要目的是研究模型的性能(测试损失和BLEU分数)如何随着训练集大小的增加而变化。结果显示在本笔记本的最后的情节。

成为VIP会员查看完整内容

相关内容

Transformer

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【COMPTEXT2022教程】跨语言监督文本分类，41页ppt

【COMPTEXT2022教程】跨语言监督文本分类，41页ppt

专知会员服务

18+阅读 · 2022年6月14日

【干货书】Python机器学习，361页pdf

【干货书】Python机器学习，361页pdf

专知会员服务

270+阅读 · 2021年2月25日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

321+阅读 · 2020年11月26日

【2020新书】深度学习自然语言处理简明导论，69页pdf

【2020新书】深度学习自然语言处理简明导论，69页pdf

专知会员服务

117+阅读 · 2020年11月7日

哈佛大学Daniel最新《从零开始学习机器学习》新书，109页pdf

哈佛大学Daniel最新《从零开始学习机器学习》新书，109页pdf

专知会员服务

150+阅读 · 2020年9月9日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

一份简明有趣的Python学习教程，42页pdf

一份简明有趣的Python学习教程，42页pdf

专知会员服务

77+阅读 · 2020年6月22日

【干货】机器学习经典书PRML 最新 Python 3 代码实现，附最全 PRML 笔记视频学习资料

【干货】机器学习经典书PRML 最新 Python 3 代码实现，附最全 PRML 笔记视频学习资料

专知会员服务

179+阅读 · 2020年3月3日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

【新书】学习TensorFlow2.0，177页pdf，使用Python实现机器学习和深度学习模型

【新书】学习TensorFlow2.0，177页pdf，使用Python实现机器学习和深度学习模型

专知会员服务

224+阅读 · 2019年12月28日

【初学者系列】TensorFlow学习笔记 — 构建简单卷积网络进行图像分类

【初学者系列】TensorFlow学习笔记 — 构建简单卷积网络进行图像分类

专知

10+阅读 · 2019年9月13日

从头开始了解Transformer

从头开始了解Transformer

AI科技评论

25+阅读 · 2019年8月28日

Github标星1k+，懂点Python就能读懂的机器学习全流程笔记

Github标星1k+，懂点Python就能读懂的机器学习全流程笔记

大数据文摘

16+阅读 · 2019年5月13日

百闻不如一码！手把手教你用Python搭一个Transformer

百闻不如一码！手把手教你用Python搭一个Transformer

大数据文摘

18+阅读 · 2019年4月22日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

【干货】最新GAN教程，153PPT附代码

【干货】最新GAN教程，153PPT附代码

GAN生成式对抗网络

12+阅读 · 2018年9月18日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

【干货】机器学习经典 PRML 最新 Python 代码实现，附最全 PRML 笔记视频学习资料

【干货】机器学习经典 PRML 最新 Python 代码实现，附最全 PRML 笔记视频学习资料

专知

29+阅读 · 2017年11月26日

Python NLP 入门教程

Python NLP 入门教程

开源中国

14+阅读 · 2017年10月1日

研究熔石英光学元件亚表面纳米杂质粒子的特征和分布规律

国家自然科学基金

0+阅读 · 2015年12月31日

孤独症相关的CHD8新发突变调控神经元突起生长发育的作用和机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于有限Radon特征和判别稀疏字典学习的行人检测算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

自载型有序介孔非贵金属-氮-碳燃料电池阴极氧还原催化材料

国家自然科学基金

0+阅读 · 2013年12月31日

高强钢筋高强混凝土柱抗震性能尺寸效应研究

国家自然科学基金

0+阅读 · 2013年12月31日

中文发展性阅读障碍儿童知觉学习能力缺陷的认知神经机制

国家自然科学基金

0+阅读 · 2012年12月31日

语言理解中信息结构和情绪调控注意的神经机制

国家自然科学基金

0+阅读 · 2012年12月31日

基于视觉注意计算模型和粒子群优化的高分辨率遥感影像目标识别研究

国家自然科学基金

3+阅读 · 2012年12月31日

基于特征约束的三维光流模型的扩散张量图像配准研究

国家自然科学基金

0+阅读 · 2012年12月31日

RGB-D视频序列特征的深度学习模型及在人体行为识别中的应用

国家自然科学基金

1+阅读 · 2012年12月31日

CMT: Convolutional Neural Networks Meet Vision Transformers

Arxiv

0+阅读 · 2022年6月14日

Efficient Transformers: A Survey

Arxiv

35+阅读 · 2022年3月14日

A Survey on Vision Transformer

Arxiv

17+阅读 · 2022年2月23日

A Survey of Visual Transformers

Arxiv

39+阅读 · 2021年11月11日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing

Arxiv

23+阅读 · 2021年8月12日

A Survey of Transformers

Arxiv

103+阅读 · 2021年6月8日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

Graph Transformer Networks

Arxiv

15+阅读 · 2020年2月5日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

16+阅读 · 2019年5月24日

VIP会员

相关主题

相关VIP内容

【COMPTEXT2022教程】跨语言监督文本分类，41页ppt

【COMPTEXT2022教程】跨语言监督文本分类，41页ppt

专知会员服务

18+阅读 · 2022年6月14日

【干货书】Python机器学习，361页pdf

【干货书】Python机器学习，361页pdf

专知会员服务

270+阅读 · 2021年2月25日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

321+阅读 · 2020年11月26日

【2020新书】深度学习自然语言处理简明导论，69页pdf

【2020新书】深度学习自然语言处理简明导论，69页pdf

专知会员服务

117+阅读 · 2020年11月7日

哈佛大学Daniel最新《从零开始学习机器学习》新书，109页pdf

哈佛大学Daniel最新《从零开始学习机器学习》新书，109页pdf

专知会员服务

150+阅读 · 2020年9月9日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

一份简明有趣的Python学习教程，42页pdf

一份简明有趣的Python学习教程，42页pdf

专知会员服务

77+阅读 · 2020年6月22日

【干货】机器学习经典书PRML 最新 Python 3 代码实现，附最全 PRML 笔记视频学习资料

【干货】机器学习经典书PRML 最新 Python 3 代码实现，附最全 PRML 笔记视频学习资料

专知会员服务

179+阅读 · 2020年3月3日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

【新书】学习TensorFlow2.0，177页pdf，使用Python实现机器学习和深度学习模型

【新书】学习TensorFlow2.0，177页pdf，使用Python实现机器学习和深度学习模型

专知会员服务

224+阅读 · 2019年12月28日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

【初学者系列】TensorFlow学习笔记 — 构建简单卷积网络进行图像分类

【初学者系列】TensorFlow学习笔记 — 构建简单卷积网络进行图像分类

专知

10+阅读 · 2019年9月13日

从头开始了解Transformer

从头开始了解Transformer

AI科技评论

25+阅读 · 2019年8月28日

Github标星1k+，懂点Python就能读懂的机器学习全流程笔记

Github标星1k+，懂点Python就能读懂的机器学习全流程笔记

大数据文摘

16+阅读 · 2019年5月13日

百闻不如一码！手把手教你用Python搭一个Transformer

百闻不如一码！手把手教你用Python搭一个Transformer

大数据文摘

18+阅读 · 2019年4月22日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

【干货】最新GAN教程，153PPT附代码

【干货】最新GAN教程，153PPT附代码

GAN生成式对抗网络

12+阅读 · 2018年9月18日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

【干货】机器学习经典 PRML 最新 Python 代码实现，附最全 PRML 笔记视频学习资料

【干货】机器学习经典 PRML 最新 Python 代码实现，附最全 PRML 笔记视频学习资料

专知

29+阅读 · 2017年11月26日

Python NLP 入门教程

Python NLP 入门教程

开源中国

14+阅读 · 2017年10月1日

相关基金

研究熔石英光学元件亚表面纳米杂质粒子的特征和分布规律

国家自然科学基金

0+阅读 · 2015年12月31日

孤独症相关的CHD8新发突变调控神经元突起生长发育的作用和机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于有限Radon特征和判别稀疏字典学习的行人检测算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

自载型有序介孔非贵金属-氮-碳燃料电池阴极氧还原催化材料

国家自然科学基金

0+阅读 · 2013年12月31日

高强钢筋高强混凝土柱抗震性能尺寸效应研究

国家自然科学基金

0+阅读 · 2013年12月31日

中文发展性阅读障碍儿童知觉学习能力缺陷的认知神经机制

国家自然科学基金

0+阅读 · 2012年12月31日

语言理解中信息结构和情绪调控注意的神经机制

国家自然科学基金

0+阅读 · 2012年12月31日

基于视觉注意计算模型和粒子群优化的高分辨率遥感影像目标识别研究

国家自然科学基金

3+阅读 · 2012年12月31日

基于特征约束的三维光流模型的扩散张量图像配准研究

国家自然科学基金

0+阅读 · 2012年12月31日

RGB-D视频序列特征的深度学习模型及在人体行为识别中的应用

国家自然科学基金

1+阅读 · 2012年12月31日

相关论文

CMT: Convolutional Neural Networks Meet Vision Transformers

Arxiv

0+阅读 · 2022年6月14日

Efficient Transformers: A Survey

Arxiv

35+阅读 · 2022年3月14日

A Survey on Vision Transformer

Arxiv

17+阅读 · 2022年2月23日

A Survey of Visual Transformers

Arxiv

39+阅读 · 2021年11月11日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing

Arxiv

23+阅读 · 2021年8月12日

A Survey of Transformers

Arxiv

103+阅读 · 2021年6月8日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

Graph Transformer Networks

Arxiv

15+阅读 · 2020年2月5日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

16+阅读 · 2019年5月24日

微信扫码咨询专知VIP会员