文档则是 NLP 领域常见的文本类型,其长度通常较长,如果用 Transformer 去建模长文档,计算开销会很大。所以,通常的做法是对长文档进行截断,但是这样会造成文档输入信息不全,影响最终的文档建模效果。

对此,微软亚洲研究院的研究员们注意到,长文档通常由多个句子组成,不同句子的语义既相对完整自洽。基于这两点,研究员们提出了一种层次化 (Hierarchical) 和交互式 (Interactive) 的Transformer 结构:Hi-Transformer,来实现高效和准确的长文档建模,

Hi-Transformer 的结构非常简单。首先使用 Sentence Transformer 来学习每个句子的语义表示。然后使用 Document Transformer,从文档内部所有句子的语义表示中建模整个文档的 Global context,并得到 Document context-aware 的句子语义表示,进而将其输入到另一个 Sentence Transformer 中,以实现利用 Global document context 来增强每个句子语义学习的目标。最后,使用层次池化方法获得文档的表示。

成为VIP会员查看完整内容
12

相关内容

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
24+阅读 · 2021年8月22日
专知会员服务
33+阅读 · 2021年8月9日
专知会员服务
19+阅读 · 2021年4月15日
专知会员服务
32+阅读 · 2021年2月12日
基于表示模型的文本匹配方法
AINLP
6+阅读 · 2020年5月8日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
论文浅尝 | 基于深度序列模型的知识图谱补全
开放知识图谱
29+阅读 · 2019年5月19日
深度上下文词向量
微信AI
27+阅读 · 2018年9月13日
利用 Universal Transformer,翻译将无往不利!
谷歌开发者
5+阅读 · 2018年9月4日
Arxiv
0+阅读 · 2021年10月3日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
22+阅读 · 2020年9月16日
Arxiv
13+阅读 · 2019年11月14日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
VIP会员
相关资讯
基于表示模型的文本匹配方法
AINLP
6+阅读 · 2020年5月8日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
论文浅尝 | 基于深度序列模型的知识图谱补全
开放知识图谱
29+阅读 · 2019年5月19日
深度上下文词向量
微信AI
27+阅读 · 2018年9月13日
利用 Universal Transformer,翻译将无往不利!
谷歌开发者
5+阅读 · 2018年9月4日
相关论文
Arxiv
0+阅读 · 2021年10月3日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
22+阅读 · 2020年9月16日
Arxiv
13+阅读 · 2019年11月14日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
微信扫码咨询专知VIP会员