In this paper, we introduce a two-level attention schema, Poolingformer, for long document modeling. Its first level uses a smaller sliding window pattern to aggregate information from neighbors. Its second level employs a larger window to increase receptive fields with pooling attention to reduce both computational cost and memory consumption. We first evaluate Poolingformer on two long sequence QA tasks: the monolingual NQ and the multilingual TyDi QA. Experimental results show that Poolingformer sits atop three official leaderboards measured by F1, outperforming previous state-of-the-art models by 1.9 points (79.8 vs. 77.9) on NQ long answer, 1.9 points (79.5 vs. 77.6) on TyDi QA passage answer, and 1.6 points (67.6 vs. 66.0) on TyDi QA minimal answer. We further evaluate Poolingformer on a long sequence summarization task. Experimental results on the arXiv benchmark continue to demonstrate its superior performance.


翻译:在本文中,我们引入了长期文档建模的双层关注模式( Poolingexe) 。 第一层使用一个较小的滑动窗口模式来汇总邻居的信息。 第二层使用一个更大的窗口来增加可容纳字段,集中关注降低计算成本和内存消耗。 我们首先根据两个长序列的QA任务对集合源进行评估:单一语言的NQ和多语言的Tydi QA。 实验结果显示, 集合源位于以F1衡量的三个正式头板上, 超过以1.9点(79.8对77.9)表示的、以1.9点(79.5对77.6)表示的NQA长回答、1.9点(79.5对77.6)表示的Tydi QA通道回答,以及1.6点(67.6对66.0)表示的Tydi QA最低回答。 我们进一步评估了长序列拼凑任务。 ARXiv基准的实验结果继续显示其优异性。

14
下载
关闭预览

相关内容

自动问答(Question Answering, QA)是指利用计算机自动回答用户所提出的问题以满足用户知识需求的任务。不同于现有搜索引擎,问答系统是信息服务的一种高级形式,系统返回用户的不再是基于关键词匹配排序的文档列表,而是精准的自然语言答案。近年来,随着人工智能的飞速发展,自动问答已经成为倍受关注且发展前景广泛的研究方向。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
ICML 2021论文收录
专知会员服务
122+阅读 · 2021年5月8日
专知会员服务
108+阅读 · 2020年12月22日
一份循环神经网络RNNs简明教程,37页ppt
专知会员服务
172+阅读 · 2020年5月6日
已删除
将门创投
5+阅读 · 2019年9月10日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
19篇ICML2019论文摘录选读!
专知
28+阅读 · 2019年4月28日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
FastText的内部机制
黑龙江大学自然语言处理实验室
5+阅读 · 2018年7月25日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
TensorFlow seq2seq中的Attention机制(续)
深度学习每日摘要
15+阅读 · 2017年11月16日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Arxiv
0+阅读 · 2021年6月25日
Arxiv
5+阅读 · 2019年10月31日
Arxiv
5+阅读 · 2019年8月22日
Self-Attention Graph Pooling
Arxiv
5+阅读 · 2019年4月17日
VIP会员
相关资讯
已删除
将门创投
5+阅读 · 2019年9月10日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
19篇ICML2019论文摘录选读!
专知
28+阅读 · 2019年4月28日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
FastText的内部机制
黑龙江大学自然语言处理实验室
5+阅读 · 2018年7月25日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
TensorFlow seq2seq中的Attention机制(续)
深度学习每日摘要
15+阅读 · 2017年11月16日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Top
微信扫码咨询专知VIP会员