Transformer - 专知主题

会员服务 ·

Transformer

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

论文列表

原文：

《Attention is all you need》：https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf

相关论文

《Reformer: The Efficient Transformer》：https://arxiv.org/abs/2001.04451

开源代码

Kyubyong/transformer (TF)
huggingface/transformers (PyTorch)

精品内容

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

专知会员服务

6+阅读 · 8月7日

基于 Transformer 的脑电解码综述询问 ChatGPT

基于 Transformer 的脑电解码综述询问 ChatGPT

专知会员服务

10+阅读 · 7月6日

扩散模型中的 Transformer：图像生成及其延展应用询问 ChatGPT

扩散模型中的 Transformer：图像生成及其延展应用询问 ChatGPT

专知会员服务

11+阅读 · 7月5日

扩散模型量化综述

扩散模型量化综述

专知会员服务

15+阅读 · 5月11日

CVPR2025最新《扩散Transformers》论文，概述最新图像视频生成方法

CVPR2025最新《扩散Transformers》论文，概述最新图像视频生成方法

专知会员服务

11+阅读 · 4月20日

DS系列专题：DeepSeek技术溯源及前沿探索，50页ppt

DS系列专题：DeepSeek技术溯源及前沿探索，50页ppt

专知会员服务

49+阅读 · 3月26日

CVPR2025最新《Transformer模型》论文速读

CVPR2025最新《Transformer模型》论文速读

专知会员服务

26+阅读 · 3月17日

何恺明&Lecun新论文CVPR2025《无需归一化的 Transformer》

何恺明&Lecun新论文CVPR2025《无需归一化的 Transformer》

专知会员服务

16+阅读 · 3月15日

CVPR2025最新《扩散模型》论文速读

CVPR2025最新《扩散模型》论文速读

专知会员服务

25+阅读 · 3月15日

基于Transformer的视觉分割技术进展

基于Transformer的视觉分割技术进展

专知会员服务

19+阅读 · 2月10日

【HKUST博士论文】增强大型语言模型的可信度：隐私与安全的视角

【HKUST博士论文】增强大型语言模型的可信度：隐私与安全的视角

专知会员服务

15+阅读 · 1月28日

DeepSeek发布新款开源多模态AI模型Janus-Pro，超越 DALL-E 3 与 Stable Diffusion

DeepSeek发布新款开源多模态AI模型Janus-Pro，超越 DALL-E 3 与 Stable Diffusion

专知会员服务

34+阅读 · 1月28日

Mamba之后是什么？朝着更具表现力的递归更新规则迈进

Mamba之后是什么？朝着更具表现力的递归更新规则迈进

专知会员服务

15+阅读 · 1月18日

【HKUST博士论文】从查询到提示：走向开放世界感知

【HKUST博士论文】从查询到提示：走向开放世界感知

专知会员服务

21+阅读 · 1月17日

MiniMax震撼开源，突破传统Transformer架构，4560亿参数，支持400万长上下文

MiniMax震撼开源，突破传统Transformer架构，4560亿参数，支持400万长上下文

专知会员服务

21+阅读 · 1月15日

参考链接

父主题

预训练语言模型

注意力机制

荟萃目录

微信扫码咨询专知VIP会员