In this work, we extensively redesign the newly introduced method of token mixing using Fourier Transforms (FNET) to replace the computationally expensive self-attention mechanism in a full transformer implementation on a long document summarization task (> 512 tokens). As a baseline, we also carried out long document summarization using established methods such as Longformer and Big Bird transformer models that are capable of processing over 8000 tokens and are currently the state of the art methods for these type of problems. The original FNET paper implemented this in an encoder only architecture while abstractive summarization requires both an encoder and a decoder. Since such a pretrained transformer model does not currently exist in the public domain, we decided to implement a full transformer based on this Fourier token mixing approach in an encoder/decoder architecture which we trained starting with Glove embeddings for the individual words in the corpus. We investigated a number of different extensions to the original FNET architecture and evaluated them on their Rouge F1-score performance on a summarization task. All modifications showed better performance on the summarization task than when using the original FNET encoder in a transformer architecture.


翻译:在这项工作中,我们广泛重新设计了新引入的象征性混合方法,即使用Fourier变形器(FNET)来取代计算成本昂贵的自我注意机制,在全变压器实施长文档总和任务( > 512个质证)中取代计算成本昂贵的自我注意机制。作为基线,我们还使用长期和大鸟变形器模型等既定方法进行了长文件总和,这些模型能够处理8000个物证,目前是处理这类问题的最新方法。最初的FNET纸在一个编码器结构中实施,而抽象总和要求同时使用编码器和解码器。由于这种预先训练过的变形器模型目前并不存在于公共领域,因此我们决定采用一种完全变形器,以这种四重物混合方法为基础,在编码器/变形器结构中,我们先从Glove嵌入单词库中进行训练。我们调查了FNET原始结构的一些不同的扩展,并评估了其在一次总和任务上的红色F1核心性表现。所有修改都表明,在总和变形结构中使用原始的变形结构中,比使用FNET的变形结构更好地表现。

0
下载
关闭预览

相关内容

【NeurIPS 2021】流形上的注意力机制:规范等变的Transformer
最新《Transformers模型》教程,64页ppt
专知会员服务
312+阅读 · 2020年11月26日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
32+阅读 · 2019年10月16日
注意力机制介绍,Attention Mechanism
专知会员服务
169+阅读 · 2019年10月13日
Transformer中的相对位置编码
AINLP
5+阅读 · 2020年11月28日
【文本摘要】Text Summarization文本摘要与注意力机制
深度学习自然语言处理
9+阅读 · 2020年3月15日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
已删除
将门创投
6+阅读 · 2019年1月2日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
Arxiv
11+阅读 · 2021年10月26日
Arxiv
3+阅读 · 2019年9月5日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
4+阅读 · 2019年8月19日
Area Attention
Arxiv
5+阅读 · 2019年5月23日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
VIP会员
相关VIP内容
【NeurIPS 2021】流形上的注意力机制:规范等变的Transformer
最新《Transformers模型》教程,64页ppt
专知会员服务
312+阅读 · 2020年11月26日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
32+阅读 · 2019年10月16日
注意力机制介绍,Attention Mechanism
专知会员服务
169+阅读 · 2019年10月13日
相关资讯
Transformer中的相对位置编码
AINLP
5+阅读 · 2020年11月28日
【文本摘要】Text Summarization文本摘要与注意力机制
深度学习自然语言处理
9+阅读 · 2020年3月15日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
已删除
将门创投
6+阅读 · 2019年1月2日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
相关论文
Arxiv
11+阅读 · 2021年10月26日
Arxiv
3+阅读 · 2019年9月5日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
4+阅读 · 2019年8月19日
Area Attention
Arxiv
5+阅读 · 2019年5月23日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Top
微信扫码咨询专知VIP会员