成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
Transformer
关注
229
Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构
综合
百科
荟萃
VIP
热门
动态
论文
精华
知识荟萃
论文列表
原文:
《Attention is all you need》:
https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf
相关论文
《Reformer: The Efficient Transformer》:
https://arxiv.org/abs/2001.04451
开源代码
Kyubyong/transformer
(TF)
huggingface/transformers
(PyTorch)
前往荟萃
精品内容
【CVPR2024】Token 转换的重要性:面向视觉 Transformer 的忠实事后解释
专知会员服务
18+阅读 · 3月23日
【CVPR2024】持续遗忘对于预训练视觉模型
专知会员服务
15+阅读 · 3月20日
Sora的幕后功臣?详解大火的DiT:拥抱Transformer的扩散模型
专知会员服务
41+阅读 · 3月14日
【CVPR2024】非自回归序列到序列的视觉-语言模型
专知会员服务
16+阅读 · 3月5日
OpenAI Sora专题:Transformer扩展优势凸显,视频理解与生成能力提升
专知会员服务
58+阅读 · 2月28日
Sora技术深度解析,21页pdf
专知会员服务
144+阅读 · 2月26日
结构保持图transformer综述
专知会员服务
37+阅读 · 2月19日
《Transformer压缩》综述
专知会员服务
39+阅读 · 2月14日
Transformer的无限之路:位置编码视角下的长度外推综述
专知会员服务
41+阅读 · 1月17日
面向超长上下文,大语言模型如何优化架构,这篇综述一网打尽了
专知会员服务
35+阅读 · 1月7日
【AAAI2024】公平感知的Transformer模型结构剪枝
专知会员服务
41+阅读 · 2023年12月27日
大语言模型分布式训练的量化分析与最佳实践,以 GPT-175B 为例
专知会员服务
45+阅读 · 2023年12月6日
年度最佳? ETHZ最新《简化版Transformer》论文
专知会员服务
47+阅读 · 2023年11月29日
【2023新书】Transformer、BERT和GPT:包括ChatGPT和提示工程,379页pdf
专知会员服务
182+阅读 · 2023年11月26日
大模型长上下文核心技术是什么?南大等《长上下文大型语言模型中的Transformer架构》综述
专知会员服务
61+阅读 · 2023年11月22日
参考链接
父主题
机器学习
预训练语言模型
注意力机制
机器翻译
荟萃目录
论文列表
原文:
相关论文
开源代码
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top